Mô tả
Bạn có biết rằng chỉ với một tập tin nhỏ bé mang tên robots.txt, bạn có thể điều khiển được việc các công cụ tìm kiếm truy cập và thu thập dữ liệu trên website của mình? Đây là một trong những công cụ SEO kỹ thuật quan trọng nhưng thường bị bỏ qua. Việc tạo một file robots.txt đúng chuẩn không chỉ giúp tăng hiệu quả lập chỉ mục (indexing), mà còn giúp bảo vệ những khu vực nhạy cảm trên website tránh bị bot truy cập không mong muốn.
Trong bài viết này, chúng ta sẽ cùng khám phá cách tạo file robots.txt đúng chuẩn, dễ hiểu và thân thiện với các công cụ tìm kiếm như Googlebot.
1. Các lệnh cơ bản trong file Robots.txt
Dưới đây là các lệnh cơ bản trong file robots.txt mà bạn cần biết khi muốn kiểm soát việc thu thập dữ liệu của các công cụ tìm kiếm như Googlebot, Bingbot...
1.1. User-agent
- Mục đích: Chỉ định bot nào sẽ bị áp dụng các quy tắc bên dưới.
- Cú pháp: User-agent: [tên bot]
- Ví dụ: User-agent: *
(Trong đó, dấu *
có nghĩa là áp dụng cho tất cả các bot)
1.2. Disallow
- Mục đích: Chặn bot không được truy cập vào một thư mục hoặc tệp cụ thể.
- Cú pháp: Disallow: [đường dẫn tương đối]
- Ví dụ:
Disallow: /admin/
Disallow: /private-data.html
1.3. Allow
- Mục đích: Cho phép bot truy cập một tệp hoặc thư mục cụ thể, ngay cả khi thư mục mẹ bị chặn.
- Cú pháp: Allow: [đường dẫn tương đối]
- Ví dụ:
Disallow: /images/
Allow: /images/logo.png
1.4. Sitemap
- Mục đích: Chỉ định vị trí của sitemap XML để hỗ trợ bot hiểu cấu trúc website tốt hơn.
- Cú pháp: Sitemap: [URL đầy đủ]
- Ví dụ:
Sitemap: https://www.example.com/sitemap.xml
Sitemap: https://hoangquocuy.com/sitemap.xml
1.5. Ví dụ hoàn chỉnh về file robots.txt
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /tmp/images/
Sitemap: https://www.example.com/sitemap.xml
* Lưu ý quan trọng:
- File robots.txt phải được đặt ở thư mục gốc của website, ví dụ: https://www.example.com/robots.txt
- robots.txt chỉ là gợi ý, không bắt buộc. Một số bot độc hại có thể không tuân thủ.
2. Công cụ hỗ trợ tạo file Robots.txt cực nhanh và miễn phí
2.1. Truy cập vào công cụ hỗ trợ tạo file robots.txt miễn phí tại: https://iseo24h.com/robots-txt-generator
2.2. Tiến hành tạo file robots.txt theo hướng dẫn bên dưới
Trong cửa sổ tạo file robots.txt hiển thị ra như bên dưới, bạn tiến hành thiết lập các thông số cho nó và nhấn vào nút phù hợp để tạo file robots.txt
Hình 1: Giao diện làm việc của Công cụ tạo file robots.txt miễn phí
Trong đó:
- Ô số 1 (Default - All Robots are): Chọn 1 trong 2 giá trị làm giá trị mặc định cho các Robot ở vùng số 4 bên dưới: Allowed - Cho phép; Refused - Từ chối.
- Ô số 2 (Crawl-Delay): chọn giá trị ứng với khoảng thời gian chờ (delay) giữa các lần truy cập liên tiếp của bot vào website của bạn.
- Ô số 3 (Sitemap: (leave blank if you don't have)): Nhập đường dẫn ứng với file sitemap.xml vào đây. Để trống nếu website chưa có file sitemap.xml;
- Ô số 4: Chọn giá trị Cho phép hoặc từ chối với từng Robot. Mặc định, các robots sẽ nhận giá trị do bạn thiết lập ở Ô số 1;
- Ô số 5 (Restricted Directories): Nhập các thư mục các thư mục trên website mà bạn không muốn các công cụ tìm kiếm hoặc người dùng truy cập trực tiếp vào. Thông thường, đây là những thư mục riêng tư, kỹ thuật, hoặc không cần thiết phải xuất hiện trên kết quả tìm kiếm.
- Khung số 6: Bạn nhập các thư mục khác vào đây, tương tự như đã nhập ở ô số 5;
- Nút nhấn số 7 (Create Robots.txt): Kích vào nút này để tạo code cho file Robots.txt => Sau khi tạo xong, thì code của nó hiện ở Ô số 10 bên dưới, Bạn chỉ việc tạo thủ công file robots.txt rồi copy code ở ô số 10 vào file này => sau đó copy file robots.txt này lên thư mục public_html trên hosting/vps của bạn.
- Nút nhấn số 8 (Create and Save as Robots.txt): Có tác dụng tương tự như khi nhấn vào nút số 7, nhưng ở đây nó tự tạo file robots.txt có chứa code ứng với các thiết lập mà bạn đã xử lý (nội dung code y như ở ô số 10 sau khi nó tạo) và tự động tải về thư mục download trên máy tính của bạn => Sau khi tải xong, bạn chỉ việc copy file robots.txt này lên thư mục public_html trên hosting/vps của bạn.
- Nút nhấn số 9 (Clear): Kích vào để xóa mọi thiết lập và đưa nó về trạng thái ban đầu để bạn thiết lập cho file robots.txt mới.
* Chú ý:
- Để tạo file sitemap.xml, bạn theo hướng dẫn trong bài viết sau: Tại sao Google không nhận file Sitemap.xml?
Ghi chú
*Mọi thắc mắc, Bạn vui lòng liên hệ Uy theo Số Hotline/Zalo: 0945.062.863 hoặc qua Form LIÊN HỆ để được hỗ trợ giải đáp trong thời gian sớm nhất.