Robots.txt có chức năng giúp cho trình thu thập dữ liệu của những công cụ tìm kiếm hiểu được khả năng yêu cầu thu thập dữ liệu từ website của bạn. Tuy nhiên, không phải ai cũng biết loại file này là gì? Cú pháp ra sao? Nó hoạt động như thế nào? Tại sao lại cần phải sử dụng loại file này? Tất cả sẽ được Wolf Marketing Agency trả lời trong bài viết dưới đây.
File robots.txt là gì?
File robots.txt là một tệp văn bản đặt trên máy chủ web có dạng đuôi mở rộng txt để chỉ định cho các trình thu thập dữ liệu (hay còn gọi là crawler, spider hoặc bot) của các công cụ tìm kiếm như Google, Bing, Yahoo…, hoặc các robot khác, biết được có thể truy cập vào những URL nào trên trang web của bạn hoặc không được phép truy cập trên trang web.
Bằng cách chỉ định các quy tắc trong tệp robots.txt, chủ sở hữu trang web có thể kiểm soát được việc truy cập các trang của mình bởi các trình robot, từ đó giúp cho quá trình tìm kiếm của các công cụ tìm kiếm hiệu quả hơn và tránh những vấn đề về bản quyền và bảo mật thông tin.
Robots.txt có cú pháp như thế nào?
Cú pháp chính là phần quan trọng nhất của các tập Robots.txt. Trong file này có 5 thuật ngữ phổ biến bạn cần phải nắm rõ bao gồm:
- User-agent: Cho phép các công cụ tìm kiếm truy cập vào website và thu thập dữ liệu.
- Disallow: Cú pháp này đưa ra để thông báo không cho các User-agent thu thập dữ liệu của một đường dẫn. Mỗi URL sẽ được sử dụng một dòng Disallow.
- Allow (chỉ áp dụng cho bộ tìm kiếm Googlebot): Đây là câu lệnh đưa ra để thực hiện thông báo cho Googlebot rằng sẽ truy cập một hoặc các thư mục con.
- Crawl – delay: Cú pháp này nhằm đưa ra thông báo cho các Web Crawler phải đợi trong bao lâu thời gian trước khi tải và thu thập dữ liệu. Một lưu ý nhỏ là Googlebot không nhận lệnh này, chính vì vậy bạn cần phải cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
- Sitemap: Cú pháp này nhằm cung cấp các vị trí của bất kỳ một Sitemap XML nào liên kết với URL này. Lệnh này được hỗ trợ bởi Google, Ask, Bing và Yahoo.
Tại sao bạn cần tạo file robots.txt?
Khi sử dụng file Robots.txt, website của bạn có thể dễ dàng kiểm soát được sự truy cập của các con Bots thuộc công cụ tìm kiếm đến những khu vực nhất định trên website. Điều này mang lại nhiều lợi ích bao gồm:
- Kiểm soát quá trình thu thập thông tin: Bằng cách sử dụng tệp robots.txt, chủ sở hữu trang web có thể kiểm soát quá trình thu thập thông tin trên trang web của mình bởi các trình robot. Điều này giúp tránh việc các trình robot truy cập vào những trang không cần thiết hoặc những trang chứa thông tin nhạy cảm.
- Cải thiện tốc độ tải trang: Các trình robot tìm kiếm thông tin trên trang web bằng cách truy cập vào các trang web và tải xuống nội dung. Nếu không kiểm soát được quá trình truy cập, các trình robot có thể tải về quá nhiều nội dung không cần thiết và dẫn đến tốc độ tải trang chậm hơn. Sử dụng tệp robots.txt có thể cài đặt được thời gian, giúp ngăn chặn việc máy chủ bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
- Tối ưu hóa SEO: Bằng cách chỉ định các trang web mà các trình robot có thể truy cập, chủ sở hữu trang web có thể tối ưu hóa quá trình tìm kiếm của các công cụ tìm kiếm và giúp tăng thứ hạng của trang web trong kết quả tìm kiếm
- Bảo vệ bản quyền và bảo mật thông tin: Bằng cách sử dụng tệp robots.txt, chủ sở hữu trang web có thể ngăn chặn các trình robot truy cập vào các trang web chứa thông tin bản quyền hoặc thông tin nhạy cảm và giữ cho các trang này được bảo vệ.
Hạn chế của file robots.txt
Trước khi tạo hoặc chỉnh sửa tệp robots.txt, bạn nên biết những hạn chế của phương pháp chặn URL này. Tuỳ thuộc vào mục tiêu và tình huống của bạn, bạn cũng nên cân nhắc những cơ chế khác để đảm bảo URL của bạn không tìm được trên web.
- Một số công cụ tìm kiếm có thể không hỗ trợ các quy tắc trong tệp robots.txt.
Hướng dẫn trong các tệp robots.txt không thể bắt một trình thu thập dữ liệu làm theo một hành vi cụ thể. Trình thu thập dữ liệu có quyền quyết định việc có tuân theo lệnh trong tệp hay không. Googlebot và các trình thu thập dữ liệu web có uy tín khác tuân thủ hướng dẫn trong tệp robots.txt, tuy nhiên, một số trình thu thập dữ liệu khác có thể không như vậy. - Mỗi trình thu thập dữ liệu sẽ phân tích cú pháp theo những cách riêng.
Các trình thu thập dữ liệu web có uy tín sẽ tuân theo các quy tắc trong tệp robots.txt. Tuy nhiên, có thể mỗi trình thu thập dữ liệu lại có cách thức riêng để diễn giải các quy tắc như vậy. - Trang bị tệp robots.txt chặn vẫn có thể được lập chỉ mục nếu có trang web khác liên kết đến trang đó.
Google sẽ không thu thập dữ liệu hoặc lập chỉ mục nội dung bị tệp robots.txt chặn. Tuy nhiên, trình thu thập dữ liệu vẫn có thể tìm thấy và lập chỉ mục một URL bị tệp robots.txt chặn khi có những nơi khác liên kết đến URL đó. Kết quả là các địa chỉ URL và có thể là cả thông tin công khai khác như văn bản liên kết trong các đường liên kết đến trang vẫn sẽ xuất hiện trong kết quả tìm kiếm trên Google.
File robots.txt hoạt động như thế nào?
Cách hoạt động của file này được diễn ra theo các bước sau:
- Bước 1: Crawl để truy cập và phân tích dữ liệu trên website
- Bước 2: Lập chỉ mục (Index) nội dung đó để nó có thể được phục vụ cho quá trình tìm kiếm những thông tin của người dùng. Để thu thập dữ liệu các trang web, công cụ tìm kiếm lần theo các liên kết để chuyển từ trang này sang trang khác — cuối cùng, thu thập dữ liệu trên nhiều tỷ liên kết và trang web. Hành vi thu thập dữ liệu này đôi khi được gọi là “spidering”.
- Bước 3: Khi truy cập một trang web nhưng trước khi mở trang đó, trình thu thập dữ liệu tìm kiếm sẽ tìm tệp robots.txt. Nếu tìm thấy tệp robots.txt, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin được tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web của bạn.
Lưu ý: Nếu tệp robots.txt không chứa bất kỳ lệnh nào hoặc nếu trang web không có tệp robots.txt thì những con Bots sẽ thu thập thông tin khác trên website của bạn.
Làm thế nào để kiểm tra website có file robots.txt không?
Nếu bạn đang băn khoăn không biết website của mình có tệp robots.txt không. Hãy nhập Root Domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu bạn không có trang .txt xuất hiện, thì chắc chắn website hiện không tạo robots.txt cho website.
Ví dụ: Nhập Root Domain (vinamilk.com.vn) > chèn /robots.txt vào cuối > Nhấn Enter. Và đợi kết quả. Như kết quả tìm kiếm cho thấy, webiste vinamilk.com.vn có sử file robots.txt.
Cách tạo file robots.txt WordPress đơn giản
Trên thực tế, tạo robots.txt WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google index một số phần nào đó trong trang của mình.
Có rất nhiều cách để tạo file, tuy nhiên chúng tôi sẽ hướng dẫn bạn tạo file bằng sử dụng Yoast SEO
Bước 1: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của trang WordPress Dashboard.
Bước 2: Chọn mục SEO > Chọn Tools.
Bước 3: Chọn File editor.
Như vậy, bạn sẽ thấy mục robots.txt và .htaccess file