Nếu bạn có một website bằng WordPress, chắc hẳn bạn có thể đã thấy tệp robots.txt. Bạn có thắc mắc nó là gì không? Đó là một tệp hỗ trợ hạn chế và kiểm soát quyền truy cập trang web.
Bạn càng hiểu rõ về tệp robots.txt, thì sự hữu ích của nó đối với website của bạn càng rõ ràng. Hơn nữa, bạn sẽ phát hiện ra rằng bạn có thể thêm robots.txt vào bất kỳ trang web WordPress nào, cho phép bạn áp đặt các quy tắc của riêng mình.
Cùng Brandinfo tìm hiểu "file Robots.txt là gì".
File Robots.txt là gì?
Robots.txt là gì?
File robots.txt là một tập tin văn bản đơn giản có dạng .txt. Tệp này bao gồm các tệp nguồn của hầu hết các trang web. Robots.txt là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web. Các tệp robots.txt chủ yếu nhằm mục đích quản lý hoạt động của các bot tốt như trình thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp các nội dung đó cho người dùng.
Robots.txt trong WordPress là gì?
"Robot" trong tiêu đề đề cập đến "bot". Cái quen thuộc nhất trong số này là những cái mà các công cụ tìm kiếm sử dụng để xếp hạng và lập chỉ mục các trang web .
Các bot này giúp trang web của bạn có vị trí cao hơn trong SERP. Tuy nhiên, điều này không có nghĩa là họ phải có quyền truy cập miễn phí vào trang web của bạn. Đây được coi là một vấn đề vào giữa những năm 1990, khi các nhà phát triển tạo ra các tiêu chuẩn loại trừ robot. Robots.txt là hiện thân của những tiêu chuẩn đó vì nó giúp quản trị viên web có thể xác định cách các bot tham gia tương tác với trang web của họ.
Nhờ robots.txt, quản trị viên website có thể ngăn không cho bot tương tác với trang web của họ. Ngoài ra, họ có thể hạn chế quyền truy cập chỉ vào một số phần nhất định của trang web .
Điều quan trọng cần lưu ý là robots.txt chỉ có hiệu quả đối với các robot “tham gia”. Điều này có nghĩa là nó không thể bắt buộc các bot tuân theo nó. Nếu một bot độc hại truy cập đến, nó sẽ bỏ qua tệp robots.txt và các quy tắc của nó.
Ngay cả những bot có vẻ lành tính cũng có thể bỏ qua các quy tắc của robots.txt. Ví dụ: bot của Google bỏ qua các quy tắc giới hạn số lần chúng có thể truy cập một trang web cụ thể.
Tại sao file robots.txt lại quan trọng?
Quản trị viên web được hưởng lợi từ tệp robots.txt vì nó cho trình thu thập thông tin của công cụ tìm kiếm biết những trang nào trên trang web cần tập trung vào để lập chỉ mục. Điều này giúp các trang quan trọng nhất được chú ý trong khi các trang ít quan trọng hơn bị bỏ qua. Các quy tắc phù hợp cũng có thể ngăn chặn bot lãng phí tài nguyên máy chủ của trang web của bạn .
Tạo vào chỉnh sửa file robots.txt trong WordPress
Khi bạn tạo một trang WordPress, một tệp robots.txt ảo sẽ có sẵn. Vì là ảo nên bạn không thể chỉnh sửa được. Nếu bạn muốn chỉnh sửa nó, bạn sẽ cần tạo một file thực.
Sử dụng plugin Yoast SEO là một cách để thực hiện điều này. Kích hoạt các tính năng nâng cao trong Yoast SEO khi ở trên WordPress bằng cách điều hướng đến SEO, Trang tổng quan và Tính năng. Sau đó, chuyển đổi các trang Cài đặt nâng cao.
Quay lại SEO, chọn Công cụ và sau đó chọn Trình chỉnh sửa tệp. Một trong những tùy chọn dưới lựa chọn này là Tạo tệp Robots.txt.
Ngoài ra, bạn có thể sử dụng plugin All In One SEO Pack sẽ chỉ cần điều hướng đến Trình quản lý tính năng và sau đó Kích hoạt tệp Robots.txt.
Ngay cả bạn không sử dụng plugin SEO bạn có thể sử dụng SFTP để tạo tệp robots.txt thực. Chỉ cần tạo tệp robots.txt trong trình soạn thảo văn bản, sau đó kết nối với trang web của bạn bằng SFTP để tải tệp robots.txt lên thư mục gốc của trang web.
Cách sửa đổi file Robots.txt của bạn
Hai lệnh nằm ở giữa tệp robots.txt. Đầu tiên là “user-agent ”, là lệnh cho phép bạn nhắm mục tiêu các bot nhất định. Thứ hai là "disallow", thông báo cho các bot đang truy cập rằng chúng không nên truy cập vào các khu vực nhất định của trang web.
Giả sử rằng bạn muốn chặn một bot cụ thể truy cập vào trang web của mình. Để đơn giản, giả sử bạn muốn chặn các bot của Google. Đây là mã chặn sẽ như thế nào:
user-agent: Googlebot
Disallow: /
Ngoài ra, giả sử bạn không muốn bot truy cập vào một tệp hoặc thư mục nhất định trên trang web của bạn. Trong ví dụ này, bạn không muốn bot truy cập vào thư mục wp-admin hoặc wp-login.php. Đây là những lệnh bạn sẽ sử dụng:
user-agent: *
Disallow: / wp-admin /
Disallow: /wp-login.php
Bằng cách sử dụng “ * ” trong lệnh user-agent, bạn áp dụng quy tắc này cho tất cả các bot .
Trong một trường hợp khác, giả sử rằng bạn muốn bot có thể truy cập vào một tệp nhất định trong một thư mục không được phép. Bạn sẽ nhập các lệnh sau:
user-agent: *
Disallow: / wp-admin /
Allow: /wp-admin/admin-ajax.php
Mã này có nghĩa là các bot không thể truy cập wp-admin với t ở giữa năm 199, ngoại trừ tệp admin-ajax.php.
Giả sử rằng bạn muốn áp dụng các quy tắc nhất định cho một số bot nhưng không áp dụng cho những bot khác. Do đó, bạn cần hai quy tắc. Cách đầu tiên áp dụng cho tất cả các bot trong khi phần còn lại chỉ áp dụng cho Googlebots.
user-agent: *
Disallow: / wp-admin /
user-agent: Googlebot
Disallow: /
Bạn có cần chỉnh sửa robots.txt không.
Người dùng WordPress thông thường sẽ không cần sửa đổi nhiều tệp robots.txt. Tuy nhiên, điều đó có thể thay đổi nếu một bot nào đó tỏ ra phiền phức hoặc nếu cần thiết phải thay đổi cách các công cụ tìm kiếm tương tác với một chủ đề hoặc plugin WordPress cụ thể hoặc thậm chí có thể tùy thuộc vào máy chủ lưu trữ web của bạn .