Xu Hướng 5/2024 # Filelà Gì? 3 Cách Tạowordpress 2024 # Top 5 Yêu Thích

Làm thế nào để kiểm tra website có file chúng tôi không?

Đã bao giờ bạn hình dung làm sao một robot của công cụ tìm kiếm có thể phân tích dữ liệu của một website để index (lập chỉ mục) không?

Đôi lúc bạn muốn Googlebot nhanh index trang web của bạn hoặc không index một trang cụ thể nào đó.

Vậy làm cách nào bây giờ?

Tôi có thể lập tức trả lời cho bạn: Tạo file chúng tôi cho WordPress ngay và luôn! Để hiểu về file chúng tôi và cách thức tạo, tôi sẽ mang lại cho bạn bài viết cực ích sau đây.

Bài viết này sẽ hướng dẫn cho bạn:

Hiểu rõ khái niệm file chúng tôi là gì?

Cấu trúc cơ bản của một file chúng tôi những lưu ý nào khi tạo lập chúng tôi WordPress

Tại sao phải cần chúng tôi cho website của bạn

Cách tạo lập 1 file hoàn chỉnh cho web của bạn

File chúng tôi là gì?

File chúng tôi là một tập tin văn bản đơn giản có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn Web quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng.

Trên thực tế, tạo chúng tôi WordPress giúp các nhà quản trị web linh hoạt, chủ động hơn trong việc cho phép hay không cho các con bot của công cụ Google Index một số phần nào đó trong trang của mình.

Có thể bạn chưa biết: Google ưu tiên lập chỉ mục cho thiết bị di động hơn, hiểu rõ về Mobile-First Index sẽ giúp ích rất nhiều cho website của bạn.

Cú pháp của file robots.txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin chúng tôi Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file chúng tôi Chúng bao gồm:

User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)

Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.

Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.

Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.

Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Pattern – Matching

Trên thực tế các file chúng tôi WordPress khá phức tạp để có thể chặn hoặc cho phép các con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt các tùy chọn của URL.

Tất cả các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

* là kí tự đại diện cho bất kì chuỗi kí tự nào – Có nghĩa là nó được áp dụng cho mọi loại Bots của các công cụ Google.

$ là kí tự khớp với phần cuối của URL.

Định dạng cơ bản của file robots.txt

Tệp chúng tôi có định dạng cơ bản sau:

User-agent:

Disallow:

Allow:

Crawl-delay:

Sitemap:

Tuy nhiên, bạn vẫn có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của chúng tôi WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file chúng tôi chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.

Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file chúng tôi bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.

Trong một file chúng tôi WordPress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file chúng tôi có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

File chúng tôi chuẩn

Để chặn tất cả các Web Crawler không được thu thập bất kì dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *

Disallow: /

Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *

Disallow:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL chúng tôi Chúng ta hãy sử dụng cú pháp sau:

User-agent: Googlebot

Disallow: /example-subfolder/

Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại chúng tôi Chúng ta hãy sử dụng cú pháp sau:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file chúng tôi chuẩn

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.example.com/sitemap_indexxml

Theo bạn, cấu trúc file chúng tôi có ý nghĩa như thế nào? Để tôi giải thích. Điều này chứng tỏ bạn cho phép toàn bộ các công cụ của Google theo link chúng tôi để tìm đến file chúng tôi và phân tích. Cùng index toàn bộ các dữ liệu trong các trang trên website của bạn ngoại trừ trang www.example.com/wp-admin/.

Đừng quên đăng ký học thử ngay 3 ngày miễn phí khóa Entity Mastermind – Năng cấp kỹ năng SEO giúp bạn X10 Organic Traffic sau 6 tháng.

Tại sao bạn cần tạo file robots.txt?

Việc tạo chúng tôi cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy hiểm nếu bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn. Tuy nhiên, việc tạo file chúng tôi vẫn thật sự hữu ích bởi nhiều lí do:

Ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trong website (lưu ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này)

Giữ một số phần của trang ở chế độ riêng tư

Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP

Chỉ định vị trí của Sitemap

Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)

Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.

Nếu bạn không muốn ngăn các Web Crawler tiến hành thu thập dữ liệu từ website thì bạn hoàn toàn không cần tạo robots.txt.

File chúng tôi hoạt động như thế nào?

Các công cụ tìm kiếm có 2 nhiệm vụ chính:

Crawl (cào/ phân tích) dữ liệu trên trang web để khám phá nội dung

Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng

Sau khi đến một trang web, trước khi spidering thì các con bot của công cụ Google sẽ tìm các file chúng tôi WordPress. Nếu nó tìm thấy được 1 tệp chúng tôi thì nó sẽ đọc tệp đó đầu tiên trước khi tiến hành các bước tiếp theo.

File chúng tôi sẽ chứa các thông tin về cách các công cụ của Google nên thu thập dữ liệu của website. Tại đây các con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Nếu tệp chúng tôi không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file chúng tôi cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

File chúng tôi nằm ở đâu trên một website?

Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file chúng tôi đặt ngay bên dưới thư mục gốc của server.

Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ chúng tôi bạn sẽ có thể truy cập file chúng tôi ở đường dẫn chúng tôi kết quả ban đầu sẽ tương tự như sau:

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Như tôi đã nói ở trên, phần sau User-agent: dấu * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes. Rất hợp lý phải không, vì 2 thư mục này chứa rất nhiều file thông tin nhạy cảm.

Hãy nhớ đây là một file ảo, do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc dù nó vẫn hoạt động). Thường thì, vị trí file chúng tôi WordPress chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www (hoặc tên website). Và để tạo file chúng tôi cho riêng bạn thì bạn cần tạo một file mới để thay thế file cũ đặt trong thư mục gốc đó.

Làm thế nào để kiểm tra website có file chúng tôi không?

Nếu bạn đang băn khoăn không biết website của mình có tệp chúng tôi không. Hãy nhập Root Domain của bạn, sau đó thêm chúng tôi vào cuối URL. Nếu bạn không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo chúng tôi cho WordPress rồi. Rất đơn giản! Tương tự, bạn có thể kiểm tra website của tôi chúng tôi có tạo file chúng tôi hay không bằng cách như trên:

Cho đến nay, tất cả đều xử lý một quy tắc tại một thời điểm. Nhưng nếu bạn muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì sao?

Bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.

Ví dụ: Nếu bạn muốn tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể thực hiện như sau:

User-agent: *

Disallow: /wp-admin/

User-agent: Bingbot

Disallow: /

Ở đây, tất cả các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web của bạn.

3 Cách tạo file chúng tôi WordPress đơn giản

1. Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo file chúng tôi cho WordPress trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.

Lúc này bạn sẽ thấy mục chúng tôi và .htaccess file – đây là nơi giúp bạn tạo file chúng tôi đấy.

2. Qua bộ Plugin All in One SEO

Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file chúng tôi WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.

Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:

Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.

All in One SEO làm mờ đi thông tin của file chúng tôi thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file chúng tôi WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.

3. Tạo rồi upload file chúng tôi qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file chúng tôi WordPress thì tôi có 1 cách này cho bạn – Tự tạo file chúng tôi thủ công cho WordPress của mình.

Một số quy tắc khi tạo file robots.txt

Để được các con bot tìm thấy thì các file chúng tôi WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.

Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là chúng tôi (không phải chúng tôi hay chúng tôi …)

Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của bạn.

Một số User-agent chọn cách bỏ qua các file chúng tôi chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:

Malware robots (bot của các đoạn mã độc hại)

Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email

Các tệp chúng tôi thường có sẵn và được công khai trên web. Bạn chỉ cần thêm chúng tôi vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.

Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file chúng tôi riêng biệt. Điều này có nghĩa là cả chúng tôi và chúng tôi nên có các tệp chúng tôi riêng (blog.example.com/robots.txt và chúng tôi Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.

Một số lưu ý khi sử dụng file robots.txt

Hãy đảm bảo rằng bạn không chặn bất kì nội dung hoặc phần nào trên trang web mà bạn muốn Google index.

Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi. Trừ khi các link này có liên kết với các trang khác (các trang không bị chặn bởi chúng tôi Meta Robots,…). Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì thế nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì bạn hãy sử dụng một phương pháp khác thay vì tạo chúng tôi WordPress.

Không nên sử dụng file chúng tôi để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bot sẽ bỏ quá các chỉ thị của tệp chúng tôi trên Root Domain hay trang chủ của bạn, nên trang web này vẫn có thể được lập chỉ mục.

Nếu bạn muốn chặn trang web này khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file chúng tôi cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent. Chẳng hạn, Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.

Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.

Các công cụ tìm kiếm sẽ lưu trữ nội dung file chúng tôi WordPress. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.

Câu hỏi thường gặp về robots.txt

Kích thước tối đa của file chúng tôi là bao nhiêu?

500 kilobyte (khoảng).

File chúng tôi WordPress nằm ở đâu trên website?

Tại vị trí: domain.com/robots.txt.

Làm cách nào để chỉnh sửa chúng tôi WordPress?

Bạn có thể thực hiện theo cách thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast cho phép bạn chỉnh sửa chúng tôi từ WordPress backend.

Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.

Tôi dùng cùng một tệp chúng tôi cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường dẫn tương đối được không?

Không, các lệnh trong tệp chúng tôi (ngoại trừ mã Sitemap:) chỉ áp dụng cho các đường dẫn tương đối.

Làm cách nào để tôi có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web của mình?

Bạn có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp chúng tôi Bạn không nên thay đổi tệp chúng tôi để chặn hoạt động thu thập dữ liệu.

Làm thế nào để chặn tất cả các Web Crawler?

meta name='robots' content='noindex,follow'

WordPress cũng thay đổi file chúng tôi của trang web của bạn và thêm những dòng này:

User-agent: *

Disallow: /

Những dòng yêu cầu các robot (các web crawler) không index các trang của bạn. Tuy nhiên, nó hoàn toàn phụ thuộc vào việc các công cụ tìm kiếm chấp nhận yêu cầu này hay bỏ qua nó.

Chặn trình thu thập, tìm kiếm thông tin của Google:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kỳ trang nào có chứa chuỗi URL chúng tôi Bạn hãy sử dụng cú pháp sau:

User-agent: Googlebot

Disallow: /example-subfolder

Chặn trình thu thập thông tin của Bing:

Bạn hãy sử dụng cú pháp sau:

User-agent: Bingbot

Disallow: /example-subfolder/blocked-page.html

Robots.txt, Meta robot và X-robot khác nhau như thế nào?

Đầu tiên, chúng tôi là một tệp văn bản trong khi Meta robot và X-robot là các Meta Directives. Ngoài ra, chức năng của 3 loại Robot này cũng hoàn toàn khác nhau.

Meta Robot là các đoạn mã cung cấp hướng dẫn cho trình thu thập thông tin về cách thu thập dữ liệu hoặc lập chỉ mục nội dung trang web.

Bất kỳ lệnh nào dùng được trong thẻ meta robots cũng có thể được chỉ định là một X-Robots.

Bằng cách cho phép bạn kiểm soát cách các loại tệp cụ thể được lập chỉ mục, X-Robots cung cấp sự linh hoạt hơn thẻ Meta robots và tệp robots.txt.

Việc tạo file chúng tôi ra lệnh cho việc Index toàn bộ trang web hoặc thư mục. Trong khi đó thì Meta robot và X-robot có thể ra lệnh cho việc Index ở cấp độ trang riêng lẻ.

Kết luận

Bây giờ đến lượt bạn rồi đấy! Bạn đã biết file chúng tôi là gì chưa? Đã kiểm tra xem website của mình đã có file chúng tôi hay chưa. Tạo lập và chỉnh sửa file chúng tôi WordPress theo ý của bạn nhằm hỗ trợ các con bot của công cụ tìm kiếm thu thập dữ liệu và index trang web của bạn nhanh chóng.

Đọc tiếp:

Bạn cảm thấy hoang mang với lượng kiến thức SEO dồn dập trên mạng như hiện nay? Một khoá học SEO chuyên nghiệp có lộ trình rõ ràng, bài bản sẽ cùng bạn vượt qua cơn nhức đầu này!

Khoá học SEO Fundamental – Thành thục SEO trong 29 ngày!

3 Ngày học thử khoá học SEO Online miễn phí Entity Mastermind!