File robots.txt là gì?
File robot.txt là một dạng file văn bản. Web quy định cách Robot Web (hoặc Robot của những công cụ tìm kiếm) thu thập dữ liệu web, truy cập, index nội dung và cung cấp nội dung đó cho người tìm kiếm.
Tạo robots.txt WordPress giúp quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho phép con bot của Google Index một số phần nào đấy trong trang của mình.
Cú pháp của file robots.txt
Có 5 thuật ngữ phổ biến mà bạn thường hay gặp trong một file robot.txt. Đó là:
- User-agent: Đây là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
- Disallow: Thường được dùng khi thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được dùng một dòng Disallow.
- Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh hành động thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc một thư mục con. Mặc dù trang hoặc thư mục con của nó không được phép.
- Crawl-delay: Thông báo cho Web Crawler biết rằng nó cần phải đợi bao lâu trước khi tải và thu thập nội dung của trang. Nhưng bạn cần lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn hãy cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Được dùng để cung cấp vị trí của bất kỳ Sitemap XML nào được liên kết với URL này. Chú ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Bing và Yahoo.
Pattern – Matching
Thực tế các file robot.txt WordPress thường rất phức tạp để có thể chặn hoặc cho phép những con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt những tùy chọn của URL.
Tất cả những công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định những trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự này là dấu họa thị (*) và ký hiệu đô la ($).
Định dạng của tệp robots.txt
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
Tuy vậy nhưng, bạn vẫn có thể lược bỏ được các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robot.txt WordPress hoàn chỉnh. Nhưng thực tế thì file robots.txt có nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.
Bạn có thể chỉ định nhiều lệnh cho các con bot trong một file robot.txt WordPress bằng cách viết liên tục và không cách dòng. Nhưng trong trường hợp một file robot.txt có nhiều lệnh đối với 1 loại bot thì con bot sẽ làm theo lệnh được đầy đủ và rõ ràng nhất.
File robots.txt chuẩn
Để chặn những trang Web Crawler không được thu thập tất cả dữ liệu trên website. Chúng ta sử dụng cú pháp sau:
User-agent: *
Disallow: /
Để cho phép tất cả trình thu thập thông tin truy cập vào tất cả nội dung trên website. Chúng ta dùng cú pháp sau:
User-agent: *
Disallow:
Để chặn trình thu thập và tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy dùng cú pháp như sau:
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html
Ví dụ về file robots.txt chuẩn
Đây là ví dụ về tệp robots.txt cho trang web www.example.com:
User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml
Tại sao phải cần tạo file robots.txt?
Việc tạo robots.txt cho website cho phép kiểm soát việc truy cập của những con Bots đến các khu vực nhất định trên trang web. Điều này có thể rất nguy hiểm nếu bạn vô tình làm sai một vài thao tác nào đó và khiến Googlebot không thể Index website của bạn. Việc tạo file robots.txt mang lại rất nhiều lợi ích như:
- Chặn nội dung trùng lặp xuất hiện trong website (chú ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này)
- Giúp một số phần của trang ở chế độ riêng tư
- Giữ trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
- Chỉ định vị trí của Sitemap
- Chặn các công cụ của Google Index một vài tệp nhất định trên trang web của bạn (hình ảnh, PDF,…)
- Dùng Crawl-delay để cài đặt thời gian. Việc này sẽ ngăn máy chủ của bạn bị quá tải khi trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Hạn chế của file robots.txt
1. Một vài trình duyệt không hỗ trợ các lệnh trong tệp robots.txt
Không phải tất cả các công cụ tìm kiếm đều sẽ hỗ trợ các lệnh trong tệp robots.txt, vậy nên để bảo mật dữ liệu, tốt nhất bạn nên đặt mật khẩu cho các tệp riêng tư trên máy chủ.
2. Mỗi trình dữ liệu sẽ có những cú pháp phân tích dữ liệu riêng
Thường thì đối với các trình dữ liệu uy tín sẽ tuân theo quy định chuẩn của các lệnh trong tệp robots.txt. Nhưng mỗi trình tìm kiếm sẽ có cách giải trình dữ liệu khác nhau, một vài trình dữ liệu sẽ không hiểu được câu lệnh cài trong tệp robots.txt. Vì vậy, web developers cần phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.
3. Tệp robots.txt đã chặn nhưng Google vẫn có thể index
Mặc dù bạn đã chặn một URL trên website của mình nhưng URL đấy vẫn còn hiển thị thì lúc này Google vẫn có thể Crawl và index cho URL đó của bạn.
Bạn cần xóa URL đó trên website nếu nội dung bên trong không quá quan trọng để bảo mật được cao nhất. Bởi nếu nội dung trong URL này vẫn có thể xuất hiện khi ai đó tìm kiếm chúng trên Google.
File robots.txt hoạt động như thế nào?
Công cụ tìm kiếm thì có 2 nhiệm vụ chính là Crawl và Index:
- Crawl những dữ liệu trang web để khám phá nội dung
- Index nội dung đấy để đáp ứng yêu cầu cho tìm kiếm của người dùng
Sau khi đến một trang web, trước khi spidering thì những con bot của Google sẽ tìm các file robots.txt WordPress. Nếu nó thấy được 1 tệp robots.txt thì nó sẽ đọc tệp đó đầu tiên trước khi tiến hành những bước tiếp theo.
File robots.txt chứa những thông tin về cách những công cụ của Google nên thu thập dữ liệu của website. Tại đây những con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.
Nếu tệp robots.txt không chứa bất kỳ chỉ thị nào cho các User-agent hoặc nếu bạn không tạp file robots.txt cho website thì những con bot sẽ thu thập các thông tin khác trên web.
Làm sao để biết website có file robots.txt chưa?
Nếu bạn đang chưa biết website của mình có tệp robots.txt không. Bạn nhập Root Domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu không thấy trang txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho WordPress rồi.
Cách tạo file robots.txt WordPress đơn giản
Nếu sau khi kiểm tra, bạn chưa thấy website của mình có tệp robots.txt thì bạn có thể thực hiện theo 3 cách sau:
1. Sử dụng Yoast SEO
Bạn có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress chỉ với vài bước đơn giản. Đăng nhập vào website của bạn, bạn sẽ thấy giao diện của trang Dashboard.
Phía bên trái màn hình, click vào SEO > Tools > File editor.
Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sử file. VÌ vậy bạn cần kích hoạt chúng nhờ vào vào FTP (File Transfer Protocol – Giao thức truyền tập tin).
Lúc này sẽ hiển thị mục robots.txt và htaccess file – đây là nơi mà bạn tạo file robots.txt.
2. Sử dụng Plugin All in SEO
Bạn có thể sử dụng bộ Plugin All in SEO để tạo file robots.txt WordPress nhanh chóng. Đây là một plugin tiện ích cho WordPress – Đơn giản và dễ sử dụng.
Để tạo được file robots.txt WordPress, bạn cần đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Bấm Active cho mục robots.txt
Lúc này, giao diện sẽ hiển thị nhiều tính năng thú vị:
Mục robots.txt sẽ hiển thị như một tab mới trong thư mục lớn All in One SEO. Bạn cũng có thể tạo lập và điều chỉnh file robots.txt WordPress ở đây.
Bình luận bài viết