Phổ Biến 4/2024 # Robot.txt Là Gì? Cách Tạo Filechuẩn Seo Cho Website WordPress # Top 7 Yêu Thích

robots.txt là gì?

Robots.txt cho trình thu thập dữ liệu của công cụ tìm kiếm biết các trang hoặc tệp mà trình thu thập dữ liệu có thể hoặc không thể yêu cầu từ trang web của bạn. Tệp này chủ yếu dùng để ngăn trình thu thập dữ liệu gửi quá nhiều yêu cầu cho trang web của bạn; tệp không phải là cơ chế để ẩn một trang web khỏi Google.

File chúng tôi là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web, quy định cách robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

Nói một cách khác Robots.txt một tập tin văn bản đơn giản có dạng .txt, đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho phép hay không cho phép con bot của các công cụ tìm kiếm đánh chỉ mục index một link nào đó hay một khu vực nào đó trong website của bạn.

Robots Exclusion Protocol cũng bao gồm các lệnh như meta robots, page-subdirectory, site-wide instructions. Nó hướng dẫn các công cụ tìm kiếm xử lí các liên kết một cách chính xác nhất theo khai báo của người dùng. Ví dụ: follow hay nofollow link.

Định dạng cơ bản:

User-agent: [User-agent Tên của  search engine mà bạn  muốn điều khiển]Disallow: [URL chuỗi không được thu thập dữ liệu]

Cú pháp của file robots.txt

Cú pháp chúng tôi có thể được xem là ngôn ngữ của các tập tin chúng tôi . Có 5 thuật ngữ phổ biến mà bạn có thể gặp trong một file robot. Chúng bao gồm:

User-agent:  Khai báo tên của search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo!, Bingbot,…)

Disallow: Là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.

Allow (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.

Crawl-delay: Thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.

Sitemap: Lệnh này được sử dụng để cung cấp các vị trí của bất kì XML sitemap nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

Vì sao nên sử dụng Robots.txt?

Sử dụng chúng tôi trên website wordpress giúp bạn kiểm soát được việc truy cập của các bot đến các khu vực nhất định trên trang của mình. Đồng thời, nó giúp ngăn chặn nội dung trùng lặp xuất hiện trên một website, giữ một số phần của website ở chế độ riêng tư, giữ các trang kết quả tìm kiếm nội bộ không hiển thị SERP, chỉ định vị trí sitemap, ngăn chặn các công cụ tìm kiếm lập chỉ mục (index) một số tệp và link nhất định trên website, ngăn chặn việc máy chủ bị quá tải khi các trình dữ liệu tải nhiều nội dung cùng một lúc.

Cách tạo file Robots.txt

File chúng tôi một dạng file rất đơn giản có thể được tảo bởi công cụ hoặc các trình soạn thảo như: Notepad, Notepad ++, Adobe Dreamweaver…

User-agent: *

Disallow: /

Disallow: /wp-admin/

Disallow: /feed/

Disallow:  /images/ten-file-hinh.JPG

Allow: /wp-admin/admin-ajax.php

Giải thích:

User-agent: * : Cho tất các các loại bot truy cập vào website

Disallow: / : Chặn không cho bot truy cập vào toàn bộ website

Disallow: /wp-admin/ : Chặn không cho bot truy cập vào link /wp-admin

Disallow: /feed/ : Chặn không cho bot truy cập vào link /feed

Disallow: chúng tôi Chặn không cho bot truy cập vào file ảnh có tên ten-file-hinh.JPG

Allow: chúng tôi cho phép bot truy cập vào link này /wp-admin/admin-ajax.php

Cách sử dụng file Robot.txt

1. Không cho phép con bot truy cập vào 1 thư mục nào đó mà mình không thích:

User-agent: * : Cho tất các các loại bot truy cập vào website

Disallow: /xa-hoi/ : Chặn không cho bot truy cập vào thư mục có link /xa-hoi

Disallow: /the-gioi/ : Chặn không cho bot truy cập vào thư mục có link /the-gioi

2. Khóa toàn bộ website không cho con bot vào để index ( lập chỉ mục ) website:

User-agent: * : Cho tất các các loại bot truy cập vào website

Disallow: / : Chặn không cho bot truy cập vào tất cả tài nguyên có trên website của bạn.

3. Chặn 1 trang nào đó:

User-agent: * : Cho tất các các loại bot truy cập vào website

Disallow: chúng tôi : Chặn không cho bot truy cập vào trang gioithieu.html

4. Chặn một bot nào đó bất kỳ:

User-agent: botABC

Disallow: /

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Như các bạn thấy cách khai báo ở trên thì botABC bị cấp truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả chỉ trừ 2 thư mục không được phép: “wp-admin và wp-includes”.

5. Chặn 1 link hình từ thư mục Images của Website và thư mục Upload của WordPress:

User-agent: *

Disallow: /images/huong-dan-seo-2024.jpg

6. Cách sử dụng đồng thời “Allow” và “Disallow” cùng nhau như thế nào?

User-agent: *

Disallow: /the-gioi-hinh-anh/

Allow: /do-hoa-dep/

Các bạn thấy đó mình đã kết hợp đồng thời “Allow” và “Disallow” trong file chúng tôi là gì. Chỉ cần bạn thêm như trên thì có thể kết hợp đồng thời “Allow” và “Disallow” với nhau rồi. Khai báo bao nhiêu dòng cũng được.

Những điều lưu ý khi tạo file Robot.txt

Khi các bạn tạo file chúng tôi riêng cho website của mình thì cũng không tránh khỏi những sai sót và những lỗi cơ bản nhất. Để tránh mắc phải sai sót các bạn nên chú ý các điều sau đây:

Tên khai báo trong nội dung file chúng tôi có phân biệt chữ hoa và chữ thường.

Không nên chèn thêm những ký tự đặc biệt nào khác ngoài các cú pháp lệnh.

Mỗi một câu lệnh trong file chúng tôi nên viết trên 1 dòng.

Không được viết dư,  thiếu khoảng trắng.

Không được viết chữ có dấu, ký tự lạ

Không chèn các mã code hoặc html vào file Robot.txt

Để được các con bot tìm thấy file chúng tôi bạn phải đặt file chúng tôi  trong thư mục root domain cấp cao nhất của trang web.( ví dụ: chúng tôi )

Tên file viết chữ thường như sau: robots.txt

Cách phân biệt chúng tôi meta robot và x-robot

chúng tôi là một tệp văn bản trong khi meta robot và x-robot là các meta directives. Ngoài ra, chức năng của 3 loại robot này cũng hoàn toàn khác nhau. chúng tôi ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi đó, meta robot và x-robot có thể ra lệnh cho hành vi lập chỉ mục (index) ở cấp độ trang (hoặc phần tử trang) riêng lẻ.

Rất mong nhận được sự đóng góp thêm của các bạn. Chân thành cảm ơn các bạn đã quan tâm theo dõi.