Tìm hiểu về file robots.txt File

Trong bài viết này, THIẾT KẾ WEB NẮNG XANH giới thiệu bạn những lời khuyên từ chuyên gia SEO Patrick Stox các điều nên và không nên làm khi tạo file robots.txt. Cùng với đó là các ví dụ về những công ty đã có sự sáng tạo khi làm file này.

Mục lục

Những điều nên, không nên làm với file robots.txt

Một trong những chủ đề khá khô khan trong thủ thuật SEO là robots.txt. Hầu hết những sai lầm xảy ra khi làm file này là do không hiểu về các chỉ thị hoặc lỗi chính tả. Mục đích chính của tập tin robots.txt đơn giản chỉ là mời gọi các crawler đến nơi nào có thể và không thể đến.

Phần cơ bản trong file robots.txt

  • User-agent: Xác định robot nào
  • Disallow: Yêu cầu robot không crawl khu vực này
  • Allow: Cho phép robot crawl khu vực đó
  • Crawl-delay: Bảo robot chờ vài giây trước khi tiếp tục crawl
  • Sitemap: Xác định cụ thể vị trí sitemap
  • Noindex: Báo cho Google biết là không index page đó
  • #: các comment bên ngoài một dòng để nó không được đọc
  • *: phù hợp với bất kỳ văn bản
  • $: URL phải hoàn tất tại đây

Những điều khác cần biết về robots.txt

  • Robots.txt phải nằm trong folder chính, ví dụ như: domain.com/robots.txt
  • Mỗi subdomain cần phải có phải file robots.txt riêng- ví dụ: www.domain.com/robots.txt thì không giống như domain.com/robots.txt
  • Các crawler có thể bỏ qua robots.txt
  • Các URL và robots.txt đều là các trường hợp nhạy cảm
  • Disallow đơn giản chỉ yêu cầu crawler không đi đến một vị trí. Nhiều người sử dụng nó để thử de-index các trang, nhưng nó không hoạt động. Nếu như ai đó link tới một page ngoài, thì nó vẫn sẽ được hiển thị trên các SERPs.
  • Bạn có thể quản lý cài đặt crawl trong Google Search Console.
  • Cho phép: CSS và JS, theo như chuyên gia Gary Illyes:
  • User-Agent: Googlebot
  • Allow:.js
  • Allow:.css
  • Xác thực file robots.txt trong Google Search Console và Bing Webmaster Tools.
  • Đừng chặn crawl để tránh nội dung bị trùng lắp.
  • Đừng disallow các page bị chuyển hướng. Các spider sẽ không thể follow các chuyển hướng.
  • Bạn có thể tìm kiếm archive.org để tìm các phiên bản cũ hơn của robots.txt chỉ cần gõ URL, ví dụ như domain.com/robots.txt.
  • Kích thước tối đa của file robots.txt là 500KB.

Giờ thì đến phần thú vị hơn

Nhiều công ty đã thực hiện nhiều điều sáng tạo thú vị với file robots.txt. Hãy cùng xem các ví dụ dưới đây nhé:

Nike đã đặt logo của mình vào trong file.

Những điều nên, không nên làm với file robots.txt

Seer cũng tạo một thông điệp đầy tính nghệ thuật.

Những điều nên, không nên làm với file robots.txt

TripAdvisor cũng có một thông điệp tuyển dụng ngay trong file robots.txt

Những điều nên, không nên làm với file robots.txt

Henry Hoàng
Henry Hoàng
Chuyên gia SEO Henry Hoàng. Có nhiều năm kinh nghiệm trong lĩnh vực seo, cải thiện % CTR cho website, nhằm tăng tỉ lệ chuyển đổi. Phân tích đánh giá độ cạnh tranh từ khóa, từ đó đưa ra định hướng SEO phù hợp. Xem thêm
FollowAction (12480) - LikeAction (12680) - WriteAction (900)