Các Doanh nghiệp thường mua nhiều tên miền cho website của
họ. Thực tế, có rất nhiều tên miền được trỏ về cùng 1 website. Xét theo
nguyên tắc của SEO, ta sẽ có nhiều website và những website này trùng lặp nội
dung.
|
- 3 domain: abc.com | def.com |
xyz.com
- 3 domain này cùng 1 hosting
- abc.com là tên miền chính, ta cần chặn spider index các URL xuất phát từ 2 tên miền còn lại.
- 3 domain này cùng 1 hosting
- abc.com là tên miền chính, ta cần chặn spider index các URL xuất phát từ 2 tên miền còn lại.
Oh, quá dễ, dùng robots.txt chặn (disallow) là xong.
Nhưng khổ nỗi, robots.txt không phân biệt được tên miền, nên chúng ta KHÔNG
thể:
- Disallow: /def.com
- Disallow: /zyz.com
- Disallow: /zyz.com
Làm sao? Và đây là giải pháp. Chúng ta chuẩn bị 3 file robots.txt tương ứng
cho từng tên miền và kiểm tra nếu request của user xuất phát từ tên miền nào
thì “gọi” file robots.txt cho tên miền đó.
robots_abc.txt <– file robots.txt cho tên miền abc.com
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /administrator/
Disallow: /cache/
robots_def.txt <– file robots.txt cho tên miền def.com
User-agent: *
Disallow: /
Disallow: /
robots_xyz.txt <– file robots.txt cho tên miền xyz.com
User-agent: *
Disallow: /
Disallow: /
Nhiệm vụ còn lại của chúng ta là viết lại đường dẫn file robots.txt tương
ứng cho từng tên miền tại file .htaccess
RewriteCond %{HTTP_HOST} ^abc.com$
[NC]
RewriteRule ^robots.txt$ robots_abc.txt [L]
RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots.txt$ robots_def.txt [L]
RewriteCond %{HTTP_HOST} ^xyz.com$ [NC]
RewriteRule ^robots.txt$ robots_xyz.txt [L]
RewriteRule ^robots.txt$ robots_abc.txt [L]
RewriteCond %{HTTP_HOST} ^def.com$ [NC]
RewriteRule ^robots.txt$ robots_def.txt [L]
RewriteCond %{HTTP_HOST} ^xyz.com$ [NC]
RewriteRule ^robots.txt$ robots_xyz.txt [L]
Đến đây thì các bạn an tâm, spider chỉ có thể index như chỉ dẫn trong file
robots_abc.txt, còn với những URL xuất phát từ tên miền def.com và xyz.com sẽ
không bao giờ được index nên việc trùng lặp nội dung không thể xảy ra.
iNET
Không có nhận xét nào:
Đăng nhận xét