Các Doanh nghiệp thường mua nhiều tên miền cho website của
họ. Thực tế, có rất nhiều tên miền được trỏ về cùng 1 website. Xét theo
nguyên tắc của SEO, ta sẽ có nhiều website và những website này trùng lặp nội
dung.
|
- 3 domain: abc.com | def.com |
xyz.com
- 3 domain này cùng 1 hosting
- abc.com là tên miền chính, ta cần chặn spider index các URL xuất phát từ 2 tên miền còn lại.
- 3 domain này cùng 1 hosting
- abc.com là tên miền chính, ta cần chặn spider index các URL xuất phát từ 2 tên miền còn lại.
Oh, quá dễ, dùng robots.txt chặn (disallow) là xong.
Nhưng khổ nỗi, robots.txt không phân biệt được tên miền, nên chúng ta KHÔNG
thể:
- Disallow: /def.com
- Disallow: /zyz.com
- Disallow: /zyz.com
Làm sao? Và đây là giải pháp. Chúng ta chuẩn bị 3 file robots.txt tương ứng
cho từng tên miền và kiểm tra nếu request của user xuất phát từ tên miền nào
thì “gọi” file robots.txt cho tên miền đó.
robots_abc.txt <– file robots.txt cho tên miền abc.com
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /administrator/
Disallow: /cache/
robots_def.txt <– file robots.txt cho tên miền def.com
User-agent: *
Disallow: /
Disallow: /
robots_xyz.txt <– file robots.txt cho tên miền xyz.com
User-agent: *
Disallow: /
Disallow: /
Nhiệm vụ còn lại của chúng ta là viết lại đường dẫn file robots.txt tương
ứng cho từng tên miền tại file .htaccess
RewriteCond %{HTTP_HOST} ^abc.com$
[NC]
RewriteRule ^robots.txt$ robots_abc.txt [L]
RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots.txt$ robots_def.txt [L]
RewriteCond %{HTTP_HOST} ^xyz.com$ [NC]
RewriteRule ^robots.txt$ robots_xyz.txt [L]
RewriteRule ^robots.txt$ robots_abc.txt [L]
RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots.txt$ robots_def.txt [L]
RewriteCond %{HTTP_HOST} ^xyz.com$ [NC]
RewriteRule ^robots.txt$ robots_xyz.txt [L]
Đến đây thì các bạn an tâm, spider chỉ có thể index như chỉ dẫn trong file
robots_abc.txt, còn với những URL xuất phát từ tên miền def.com và xyz.com sẽ
không bao giờ được index nên việc trùng lặp nội dung không thể xảy ra.
iNET