Robots.txt là gì, cách tạo file robots chuẩn seo cho website wordpress

Nếu viêc tạo sitemap cho website wordpress được coi là bản đồ cho hướng dẫn google bot di chuyển dễ dàng trên website của bạn, thì file robots.txt như một bộ quy tắc quy định vị trí nào có thể di chuyển vị trí nào không thể giúp cho website của bạn index đúng theo ý của bạn tránh tình trạng out link, nhận nhầm link, nhận nhầm từ khóa…

Robots.txt là gì.

Theo Google: Tệp robots.txt nằm ở thư mục gốc của trang web của bạn. Vì vậy, đối với trang web www.example.com, tệp robots.txt nằm tại www.example.com/robots.txt. robots.txt là một tệp văn bản thuần túy tuân theo Tiêu chuẩn loại trừ robot. Tệp robots.txt bao gồm một hoặc nhiều quy tắc. Mỗi quy tắc chặn (hoặc cho phép) một trình thu thập dữ liệu nhất định truy cập vào một đường dẫn tệp được chỉ định trong trang web đó.

Nguồn tham khảo: https://support.google.com/webmasters/answer/6062596?hl=vi

Các thành phần và giải thích tệp robots.txt

Tệp robots.txt trên website wordpress có dạng cơ bản như sau:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ggmedia.biz/sitemap.xml

Giải thích:

  • User-agent: biểu thị cho tên các bot thu thập dữ liệu của công cụ tìm kiếm. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Lệnh này quy định vị trí các thành phần không được phép thu thập bất kỳ dữ liệu nào. Mỗi URL chỉ được sử dụng 1 dòng disallow.
  • Allow (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con.
  • Sitemap: Đây là sơ đồ trang web

Cách sử dụng disallow trên robots.txt

Không cho google bot lập chỉ mục.

User-agent: *
Disallow: /

Hàm quy định không cho google bot truy cập và thu thập dữ liệu trên website

Không cho một bot tìm kiếm thu thập dữ liệu

Ở đây chúng tôi lấy ví dụ với bing bot

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: Bingbot
Disallow: /

Không cho bot tìm kiếm thu nạp dữ liệu đối với tệp là ảnh:

Trường hơp 1 chặn ảnh cụ thể, ở đây chúng tôi lấy ví dụ là tệp ảnh tên dog.jpg

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg 

Trường hợp 2 chặn ảnh có đuôi gif$

User-agent: Googlebot-Image
Disallow: /*.gif$

Ngoài ra bạn cũng có thể sử dụng để chặn tệp hoặc file không mong muốn.

Cách tạo file robots.txt trên Yoat SEO

Cách tạo file robots.txt cũng đơn giản nếu bạn đã có pluign này. Sau khi bạn cài đặt plugin này xong chuyển tới tab SEO -> Tools trong dashboard của bạn, tìm tới mục gọi là File editor:

Tạo robots.txt trên yoat SEO
Tạo robots.txt trên yoat SEO

Khi mở file robots.txt trên yoat SEO bạn sẽ nhận được cấu hình mặc định như sau, bạn có thể tùy biến file robots theo hướng dẫn của GG Media tuy nhiên cần chú ý viết đúng và cân nhắc kỹ chiến lược SEO phù hợp.

File robots mặc định trên yoat SEO
File robots mặc định trên yoat SEO

Tác dụng của Robots.txt trên các thành phần trang web.

Ở phần này chúng ta sẽ cùng tìm hiểu về tác dụng của file robots.txt trên các thành phần của trang web, ở đây chúng ta sẽ xét đến 3 thành phần chính đó là:

  • Trang web ( Ở đây có thể hiểu là tổng thể trang web cùng các thành phần của nó)
  • Các tệp file media ( Ở đây là các file ảnh video, audio..)
  • Các tài nguyên khác như tệp, dữ liệu…

Tác dụng của tệp robots.txt cho trang web

Bạn có thể dùng robots.txt để quản lý lưu lượng trên website, điều này được áp dụng đó là việc bạn quy định cho google thu thập dữ liệu và xếp hạng page, hay url nào trên trang từ đó ảnh hưởng đến lưu lượng truy cập trang web.

Tuy nhiên theo Google công bố bạn không nên sử dụng tệp này cho việc ẩn website vì google vẫn có thể lập chỉ mục website của bạn thông quan các liên kết trỏ đến, sẽ tốt hơn bạn nên sử dụng với thuộc tính noindex nếu muốn ẩn trang web của mình.

Tệp robots.txt với các file media

Bạn có thể sử dụng robots.txt để quản lý lưu lượng truy cập thu thập dữ liệu và cũng để ngăn các tệp hình ảnh, video và âm thanh xuất hiện trong kết quả tìm kiếm của Google. (Lưu ý rằng tệp này sẽ không ngăn các trang hoặc người dùng khác liên kết đến tệp hình ảnh/video/âm thanh của bạn.)

Bạn hãy đọc thêm các tài liệu của google về việc này để hiểu rõ hơn:

Các tài nguyên khác.

Bạn có thể dụng robots.txt để chặn các tài nguyên không quan trọng mà bạn cho rằng nó không ảnh hưởng đến xếp hạng hoặc nó không quan trọng đối với website của bạn.

Một số hạn chế của robots.txt

Robots.txt có thể không được hỗ trợ ở một vài công cụ tìm kiếm

Robots.txt có thể là một lệnh tốt nhất đối với google nhưng đôi khi ở một vài công cụ tìm kiếm tệp này lại không được hỗ trợ, nếu trong trường hợp bạn muốn chặn việc thu thập dữ liệu trên các công cụ tìm kiếm khác tốt hơn và áp dụng cho từng công cụ khác nhau.

Google vẫn có thể lập chỉ mục các trang mặc dù bị chặn bởi Robots.txt

Trên thực tế kể cả khi bạn không cho google thu thập dữ liệu ở một trang nào đó bạn thì thông qua các “Liên kết trỏ về – backlink” để thu thập dữ liệu.

Chính vì thế để đảm bảo không cho google thu thập dữ liệu hãy sử dụng tệp noindex hoặc chặn tất cả các liên kết ngược đến page hoặc website muốn chặn

Lưu ý khác khi sử dụng robots.txt

Nếu trong trường hợp bạn sử dụng các công cụ tạo website khác như WIX, Drupal hoặc Blogger,bạn không cần hoặc không thể sử dụng tệp robots.txt như thông thường mà việc này phụ thuộc vào các nhà cung cấp dịch vụ web bạn sử dụng.

Trên đây là một vài hướng dẫn của GG media về việc tạo robots.txt cho wordpress hy vọng thông tin trên là hữu ích cho bạn, cảm ơn bạn đã quan tâm hẹn bạn ở các bài viết tiếp theo.

Write a Comment