Thịnh Hành 4/2024 # Robots.txt Là Gì? Hướng Dẫn Tạo Filecho Website # Top 9 Yêu Thích

chúng tôi là công cụ tuyệt vời giúp bạn quản lý website của mình. Nếu bạn có một trang web, tạo lập file chúng tôi là điều cần thiết. Vậy nó là gì? Nó có cấu tạo, đặc điểm gì và làm sao để chỉnh sửa, tạo lập một một tệp robots.txt

Bài viết này sẽ giải đáp những thắc mắc đó giúp bạn có được những kiến thức bổ ích và đưa ra cho mình sự lựa chọn tốt nhất cho công cuộc quản lý website.

Mời bạn tham khảo một số dịch vụ tại Nef Digital:

Giới thiệu về robots.txt

Trước khi ứng dụng chúng tôi bạn cần có được những thông tin cơ bản về chúng. Chúng ta cùng đi tìm hiểu về khái niệm, cấu trúc, đặc điểm hạn chế của chúng tôi trong phần trình bày bên dưới.

Robots.txt là tệp tin văn bản nằm ở trong thư mục gốc của một trang web. Nó cung cấp và hướng dẫn các công cụ tìm kiếm cách thu thập thông tin. Cụ thể là nó lập ra các chỉ mục về cho phép hay không cho phép thu thập dữ liệu trong tài nguyên một website. Hay nói cách khác, tệp chúng tôi là công cụ để ngăn các phương tiện truy cập dữ liệu lấy quá nhiều thông tin từ trang web của bạn.

Tệp chúng tôi có cấu trúc khá đơn giản và dễ hiểu. Chúng có những từ kết hợp từ khóa và giá trị được xác định trước mà các coder sử dụng để lập trình như User-agent, Allow, Disallow, Crawl-delay, Sitemap. Trong đó:

Chỉ định những trình thu thập dữ liệu được đưa vào các chỉ thị. Bạn có thể thêm dấu * để cho phép tất cả các trình được thu thập thông tin. Hoặc bạn cũng có thể chỉ định trình thu thập thông tin cụ thể bằng cách thêm tên nó vào phía sau.

Disallow: Chỉ thị có các trình thu thập thông tin (được cho phép) không thu thập những tệp, url hoặc thông tin cụ thể nào đó.

Allow: Chỉ thị cho phép truy cập tệp, thư mục con hoặc thông tin nào. Điều này chỉ được áp dụng cho Googlebot.

Crawl-delay: Thời gian mà bạn cho phép trình tìm kiếm chờ đợi trước khi thu thập thông tin của trang tiếp theo trong trang web của bạn. Thường thì các lập trình viên gán cho nó đơn vị là mili giây. Điều ngày ngoại trừ Googlebot, nó không bị ràng buộc bởi tiêu chí này.

Crawl-delay thường được sử dụng khi trang web quá lớn ( có hàng ngàn trang) và bạn không muốn quá tải khi phải liên tục đáp ứng yêu cầu của trình tìm kiếm thông tin. Ngoài trường hợp này ra, trang web thông thường không cần phải dùng đến chỉ thị này.

Sitemap: Đây là chỉ thị hỗ trợ các trang tìm kiếm nhằm mục đích xác định vị trí của sơ đồ XML. Tuy nhiên, ngay cả khi không có chỉ thị này của chúng tôi các trang tìm kiếm vẫn có thể tìm thấy được.

Khi tạo lập file, ta cần chú ý những điều sau để có được hiệu quả sử dụng và quản lý tốt nhất bao gồm:

Tệp chúng tôi cần được đặt trong thư mục root (cấp cao nhất) của trang web để dễ dàng tìm thấy.

Robots.txt phân biệt chữ thường và chữ hoa. Vì thế, khi viết chương trình, lập trình viên phải cẩn thận viết đúng kiểu chữ, nếu không tệp sẽ không đảm bảo chạy đúng mục đích.

Một số trình tìm kiếm có quyền lực chọn bỏ qua chúng tôi trong trang web của bạn. Chúng thường là các trình thu thập bất chính, phần mềm độc hại hoặc người dọn dẹp các địa chỉ email.

Robots.txt cần được thêm vào ở cả tên miền gốc và tên miền phụ của website.

Robots.txt cũng có những hạn chế nhất định. Lệnh của chúng tôi không phải sẽ được tất cả các trình tìm kiếm hỗ trợ. Phần lớn là phụ thuộc vào trình tìm kiếm có chịu tuân theo chỉ thị của chúng tôi trong trang web bạn không. Vì thế, nếu muốn bảo mật thông tin một cách tốt nhất, bạn nên cài mật khẩu trên máy chủ.

Những công cụ tìm kiếm khác nhau thường phân tích cú pháp chỉ thị theo những cách hiểu khác nhau. Vì vậy, lúc lập trình web, cần cân nhắc những cú pháp thích hợp nhất.

Các URL liên kết đến trang web của bạn không nằm trong danh sách chỉ thị không được phép truy cập mặc dù bạn đã để chúng tôi làm việc đó. Để khắc phục việc này, cách tốt nhất là bảo vệ các tệp trên máy chủ bằng mật khẩu.

Như đã đề cập ở trên, chúng tôi giúp bạn hướng dẫn các bọ tìm kiếm truy cập đúng với mong muốn của mình. Ngoài ra, chúng tôi có ảnh hưởng nhiều đến chất lượng SEO, nếu bạn viết sai cấu hình trong chúng tôi thứ hạng và lượng truy cập trang web của bạn có thể bị giảm xuống.

Ngoài ra, nếu bạn định sử dụng URL rút gọn cho liên kết của trang web, chúng tôi làm cho quy trình liên kết đó trở nên dễ dàng hơn.

Hướng dẫn tạo file chúng tôi cho website

Trước khi tạo tệp chúng tôi bạn cần kiểm tra xem nó đã tồn tại trong web của mình chưa bằng cách truy cập đến link https://www.tênmiền.com/robots.txt trong một cửa sổ trình duyệt. Nếu bạn thấy có một cấu trúc tương tự như bên dưới thì đồng nghĩa với việc nó đã có sẵn trong trang web của bạn.

User-agent: * Allow: /

Nếu đã có tệp chúng tôi bạn không cần phải làm mới mà chỉ cần chỉnh sửa.

Để chỉnh sửa, bạn dùng ứng dụng khách FTP, kết nối với thư mục gốc trong trang web của mình. Sau đó, tải tập tin chúng tôi về máy tính và mở lên bằng một trình soạn thảo bất kỳ.

Lúc này, bạn có thể chỉnh sửa các chỉ lệnh theo mong muốn của mình theo cấu trúc đã nêu ở trên. Sau khi chỉnh sửa lệnh, bạn nên kiểm tra có hợp lệ hay chưa.

Bạn có thể làm điều này tốt hơn và dễ dàng hơn ở tùy chọn tester của Google Search Console. Các bước tiến hành là:

Đăng nhập tài khoản Google Search Console

Đến mục Crawl, chọn chúng tôi Tester

Nếu chúng tôi đã hợp lệ, nút test chuyển sang màu xanh và hiện chữ ALLOWED. Nếu chúng tôi chưa hợp lệ, những chỗ tạo lỗi sẽ được đánh dấu.

Mặc dù bạn có thể xem nội dung chúng tôi của mình bằng cách điều hướng tới chúng tôi URL nhưng cách tốt nhất để kiểm tra và xác nhận nó là thông qua tùy chọn chúng tôi Tester của Google Search Console.

Sau khi kiểm tra ổn, bạn đưa tệp lên thư mục gốc trên web của mình. Để báo cho Google bạn đã thay đổi chúng tôi nhấp vào nút Submit 2 lần theo điều hướng của Google.

Nếu trang web của bạn được làm trên nền tảng WordPress, bạn không thể sửa chữa tập tin bằng cách thông thường vì WordPress sử dụng tệp chúng tôi ảo. Bạn có thể xem nội dung của chúng tôi bằng cách gõ theo cú pháp https://www.tênmiền.com/robots.txt .

Nếu bạn không muốn các công cụ tìm kiếm tìm thấy mình, bạn có thể chọn chặn tất cả các trình tìm kiếm khi đang xây dựng một trang web trong WordPress. Sau khi hoàn thiện, bạn chọn mở ra cũng dễ dàng.

Một trang web được xây dựng luôn đi kèm với mong muốn được nhiều người truy cập với nhiều mục đích khác nhau. Vì thế, thiết kế chúng tôi phù hợp với tiêu chuẩn SEO là điều cần thiết.

Lúc này, bạn cần kiểm tra xem chúng tôi của mình có chặn phần nào của trang web mà bạn muốn nó được tìm kiếm không. Ngoài ra, không được chặn thư mục CSS hoặc JS Google, lập chỉ mục cho phép nó xem trang web của bạn như một người dùng thực sự.

Nếu bạn đang dùng web trên nền tảng WordPress, bạn không cần phải làm bất kỳ thao tác nào vì WordPress đã làm nó một cách tốt nhất rồi.

Ngoài ra, bạn không nên chỉ định các quy tắc khác nhau cho những trình tìm kiếm khác nhau. Nhiều quy tắc sẽ loạn và gây nhầm lẫn, điều này dẫn đến những tác động tiêu cực đến chất lượng SEO của trang web. Cách tốt nhất là bạn nên sử dụng một bộ quy tắc chung tiêu chuẩn nhất.

Nếu web của bạn chưa có tệp chúng tôi đây là lúc bạn cần làm một tệp mới. Cách làm cũng không có gì phức tạp. Điều đầu tiên bạn cần có là một trình soạn thảo văn bản bất kỳ. Chương trình Notepad dễ dàng sử dụng nhất. Câu lệnh của chúng tôi cơ bản là:

# Group 1

User-agent: Googlebot Disallow: /nogooglebot/

# Group 2

User-agent: * Allow: /

Một số lưu ý khi thiết lập chỉ lệnh trong robots.txt

Một số lưu ý như:

Phân biệt chữ hoa và chữ thường

Sử dụng chính xác cấu trúc câu lệnh

Không nên thêm các ký tự đặc biệt

Một câu lệnh nên được viết trong một dòng

Không được dùng khoảng trắng phía trước câu lệnh

Một số quy tắc lập lệnh của robots.txt

Không cho phép thu dữ liệu trong toàn bộ website

User-agent: * Disallow: /

Không có phép trình tìm kiếm thu thập dữ liệu một thư mục và nội dung thư mục đó

User-agent: * Disallow: /calendar/ Disallow: /junk/

Cho phép một trình thu thập truy cập

User-agent: Googlebot-news Allow: / User-agent: * Disallow: /

Cho phép tất cả các trình ngoại trừ một trình nào đó

User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /

Không cho phép truy cập vào dữ liệu một trang web

User-agent: * Disallow: /private_file.html

Chặn một hình từ Google Image

User-agent: Googlebot-Image Disallow: /images/dogs.jpg

Chặn tất cả hình từ Google Image

User-agent: Googlebot-Image Disallow: /

Không được truy cập tệp thuộc cùng một loại

User-agent: Googlebot Disallow: /*.gif$

User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /

Khớp với URL

User-agent: Googlebot Disallow: /*.xls$

Nef Digital Jsc.,

Head Office: TTTM Goldtower, 275 Nguyễn Trãi, Q. Thanh Xuân, Hà Nội

VPGD: Tầng 7 số 11/153 Trường Chinh, Q. Thanh Xuân, Hà Nội

Hotline: 0246655 2266

Website: https://nef.vn

Email: [email protected] – [email protected]