×"Chúng tôi không cố gắng trở thành công ty lớn nhất. Chúng tôi muốn trở thành người giỏi nhất trong lĩnh vực của mình cam kết lâu dài với lĩnh vực này"
×"Chúng tôi không cố gắng trở thành công ty lớn nhất. Chúng tôi muốn trở thành người giỏi nhất trong lĩnh vực của mình cam kết lâu dài với lĩnh vực này"

Tìm hiểu về file robots.txt File robots.txt là gì?

Trong bài viết này, THIẾT KẾ WEB NẮNG XANH giới thiệu bạn những lời khuyên từ chuyên gia SEO Patrick Stox các điều nên và không nên làm khi tạo file robots.txt. Cùng với đó là các ví dụ về những công ty đã có sự sáng tạo khi làm file này.

Những điều nên, không nên làm với file robots.txt

Một trong những chủ đề khá khô khan trong thủ thuật SEO là robots.txt. Hầu hết những sai lầm xảy ra khi làm file này là do không hiểu về các chỉ thị hoặc lỗi chính tả. Mục đích chính của tập tin robots.txt đơn giản chỉ là mời gọi các crawler đến nơi nào có thể và không thể đến.

Phần cơ bản trong file robots.txt

  • User-agent: Xác định robot nào
  • Disallow: Yêu cầu robot không crawl khu vực này
  • Allow: Cho phép robot crawl khu vực đó
  • Crawl-delay: Bảo robot chờ vài giây trước khi tiếp tục crawl
  • Sitemap: Xác định cụ thể vị trí sitemap
  • Noindex: Báo cho Google biết là không index page đó
  • #: các comment bên ngoài một dòng để nó không được đọc
  • *: phù hợp với bất kỳ văn bản
  • $: URL phải hoàn tất tại đây

Những điều khác cần biết về robots.txt

  • Robots.txt phải nằm trong folder chính, ví dụ như: domain.com/robots.txt
  • Mỗi subdomain cần phải có phải file robots.txt riêng- ví dụ: www.domain.com/robots.txt thì không giống như domain.com/robots.txt
  • Các crawler có thể bỏ qua robots.txt
  • Các URL và robots.txt đều là các trường hợp nhạy cảm
  • Disallow đơn giản chỉ yêu cầu crawler không đi đến một vị trí. Nhiều người sử dụng nó để thử de-index các trang, nhưng nó không hoạt động. Nếu như ai đó link tới một page ngoài, thì nó vẫn sẽ được hiển thị trên các SERPs.
  • Bạn có thể quản lý cài đặt crawl trong Google Search Console.
  • Cho phép: CSS và JS, theo như chuyên gia Gary Illyes:
  • User-Agent: Googlebot
  • Allow:.js
  • Allow:.css
  • Xác thực file robots.txt trong Google Search Console và Bing Webmaster Tools.
  • Đừng chặn crawl để tránh nội dung bị trùng lắp.
  • Đừng disallow các page bị chuyển hướng. Các spider sẽ không thể follow các chuyển hướng.
  • Bạn có thể tìm kiếm archive.org để tìm các phiên bản cũ hơn của robots.txt chỉ cần gõ URL, ví dụ như domain.com/robots.txt.
  • Kích thước tối đa của file robots.txt là 500KB.

Giờ thì đến phần thú vị hơn

Nhiều công ty đã thực hiện nhiều điều sáng tạo thú vị với file robots.txt. Hãy cùng xem các ví dụ dưới đây nhé:

Nike đã đặt logo của mình vào trong file.

Những điều nên, không nên làm với file robots.txt

Seer cũng tạo một thông điệp đầy tính nghệ thuật.

Những điều nên, không nên làm với file robots.txt

TripAdvisor cũng có một thông điệp tuyển dụng ngay trong file robots.txt

Những điều nên, không nên làm với file robots.txt

Bạn muốn===>Tìm hiểu thêm
Tìm hiểu về file robots.txt File robots.txt là gì? Trong bài viết này, THIẾT KẾ WEB NẮNG XANH giới thiệu bạn những lời khuyên từ chuyên gia SEO Patrick Stox các điều nên và không nên làm khi tạo file robots.txt. Cùng với đó là các ví dụ về những công ty đã có sự sáng tạo khi làm file này.
4.85 sao của 2280 phiếu bầu
Tìm hiểu về file robots.txt File
Tìm hiểu về file robots.txt File
Các loại thẻ hỗ trợ seo Liên hệ Liên hệ Liên hệ

BÀI VIẾT LIÊN QUAN

Tối ưu tốc độ tải trang web với HTTP Cache Tăng tốc độ tải trang web
Tối ưu tốc độ tải trang web với HTTP Cache Tăng tốc độ tải trang web
Như vậy là bạn đã biết cách thiết lập các HTTP Header để cache các nội dung trang web. Bạn có thể hỏi, làm sao tôi biết Browser và Server trao đổi với nhau bằng những Headers nào?  Bạn hãy cài đặt addons Firefox có tên gọi 'Live HTTP...
Cải tiến HTML thành HTML5 để tốt cho seo HTML5 là gì
Cải tiến HTML thành HTML5 để tốt cho seo HTML5 là gì
Hiện nay, hầu hết các công cụ CMS đều sử dụng HTML5 cho thiết kế web. Vì thế nếu bạn muốn tối ưu hóa giao diện website cho Seo Web của mình thì HTML5 là kiến thức nền không thể thiếu. Ngôn ngữ lập trình HTML5 được xem là nền tảng...
Breadcrumb là gì? Breadcrumb ảnh hưởng đến SEO Web như nào?
Breadcrumb là gì? Breadcrumb ảnh hưởng đến SEO Web như nào?
Breadcrumb có thể là một giải pháp giúp bạn cải thiện trải nghiệm người dùng và tạo sự tương tác. Breadcrumb không khó sử dụng, tuy nhiên để sử dụng Breadcrumbs tốt nhất một số điểm bạn cần chú  ý như: nó phải có ích cho...
Chuyển hướng 301, 302, 30x có làm mất giá trị PageRank
Chuyển hướng 301, 302, 30x có làm mất giá trị PageRank
Gary Illyes, một quản trị phân tích xu hướng của Google, cho biết rằng việc sử dụng một chuyển hướng 301, 302 hay 30x của bất cứ loại nào sẽ không dẫn đến sự mất mát của PageRank- điều đó có nghĩa là không có PageRank pha loãng.
4 điều bạn chưa biết về rich snippets đánh giá năm sao
4 điều bạn chưa biết về rich snippets đánh giá năm sao
Tùy thuộc vào nội dung trang, thông tin thêm này có thể bao gồm những thông tin phụ của trang web như chuyển hướng, đánh giá của khách, thông tin truyền hình và phim, thông tin sự kiện, thông tin công thức, thông tin sản phẩm và vân vân.
Faceted Navigation là gì? Những yếu tố làm ảnh hưởng đến seo
Faceted Navigation là gì? Những yếu tố làm ảnh hưởng đến seo
Về cơ bản nó cho phép mọi người tùy chỉnh tìm kiếm của họ dựa trên những gì họ đang tìm kiếm trên trang web. Ví dụ: khách truy cập có thể muốn một chiếc áo len màu tím với kích cỡ vừa phải và đường viền màu đen. Facets...
SEO với htaccess và Redirect 301 Redirect 301 là gì?
SEO với htaccess và Redirect 301 Redirect 301 là gì?
Htaccess là một tệp tin cấu hình đặc biệt, htaccess cho phép bạn thay đổi cách hoạt động của máy chủ Apache ở tầng thư mục. Tệp tin htaccess gồm các dòng lệnh, có thể tùy biến theo người dùng, được đặt trong một thư mục nào đó,...
Accelerated Mobile Pages là gì? amp là gì?
Accelerated Mobile Pages là gì? amp là gì?
Các nỗ lực mà Google đang thực hiện với AMP tương tự như những gì hiện đang xảy ra với Coalition for Better Ads. Chúng đều nhằm giải quyết các vấn đề và thách thức khác nhau,  và hướng tới làm cho các trang web trên di động  trở thành một nơi hấp dẫn hơn bao giờ hết. 
Trang AMP không còn cần dữ liệu cấu trúc để tồn tại trên Google
Trang AMP không còn cần dữ liệu cấu trúc để tồn tại trên Google
Google cho biết: Một số trang AMP có thể thấy sự thay đổi theo hướng đi xuống trong các báo cáo lỗi. Bởi vì vấn đề “ thiếu dữ liệu cấu trúc” và “ dữ liệu cấu trúc không tồn tại”  đã bị hạ xuống từ các lỗi để ghi...
093.784.1299
Mục lục