Robots.txt là gì?
Robots.txt là một dạng file text chứa những câu lệnh giúp điều hướng bots search của những tool tìm kiếm, chỉ dẫn chúng đc và không đc phép index những nội dung nào trên website.
Vì sao bạn nên sử dụng robots.txt?
Một trang web, blog hình thành rất nhiều trang đích, tuy nhiên, có khá nhiều trang đích cần seo không quan trọng phải xuất hiện trên những tool tìm kiếm. Chẳng hạn với Blogspot, mục archive (Lưu trữ) là gần như không quan trọng phải xuất hiện trên Google, vì chẳng ai tìm cả.Ngoài ra, Blogspot hình thành khá nhiều backlinks khác nhau, như cùng 1 label Blogspot, những bạn có những đường backlinks nhìn như sau:
/label/BlogspotNhững đường backlinks này cùng 1 trang đích cần seo như lại đc index 2 lần, tức sẽ bị lỗi trùng lặp thẻ title và diễn tả (Cùng 1 title và diễn tả những có nhiều trang đích cần seo khác nhau). Trong khi thẻ canonical thì không thể giải quyết đc lỗi này. Chính vì vậy, chỉ có chặn index những đường backlinks không quan trọng thì mới giải quyết đc vấn đề.
/label/Blogspot?max-results=20
…
Lúc này, robots.txt là tool hiệu suất cao để giúp bạn lọc đi những nội dung không quan trọng phải đc Google index như đã nói ở trên.
Cấu trúc robots.txt chuẩn nhất cho Blogspot
Cấu trúc chuẩn nhất cho robots.txt ở post này của cuahangtemplate đc kiến thiết để thải trừ hầu hết những nội dung không quan trọng phải index trên Google của Blogspot như: những trang 2,3,4…; mục lưu trữ; mục tìm kiếm. Cũng như khai báo sơ đồ website để Google index blog cấp tốc hơn.Cấu trúc robots.txt chuẩn như sau:
User-agent: Mediapartners-GoogleỞ đây, cuahangtemplate sẽ giải thích cho mọi người từng dòng cần thiết:
Disallow:
User-agent: *
Allow: /
Disallow: *max-results=*
Disallow: *archive.html
Disallow: *?m=0
Sitemap: https://www.cuahangtemplate.com/feeds/posts/default?orderby=UPDATED
Sitemap: https://www.cuahangtemplate.com/atom.xml?redirect=false&start-index=1&max-results=500
- Allow: / - Tức là cho phép bots có thể index nội dung trên trang web.
- Disallow: *max-results=* - Chặn không cho bots index url chứa cụm từ max-results=, đây là url hình thành khi bạn chọn xem trang thứ 2, thứ 3… của chủ đề nào đó.
- Disallow: *archive.html - Chặn không có bots index những trang lưu trữ, công dụng mấy trang này không nhiều mà lại làm xấu sơ đồ website của Blogspot.
- Disallow: *?m=0 – Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường những mẫu giao diện đều kiến thiết sử dụng responsive, nên sẽ hình thành đường backlinks ?m=1, còn máy tính vẫn hình thành đường backlinks ?m=0 dù bạn truy vấn trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và đc Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
- 2 mục sơ đồ website – Khai báo sơ đồ website cho bots crawl tổng thể trang web, 2 sơ đồ website ở trên đều đc tạo ra từ RSS Feedburner. Vì vậy, để sử dụng đc nó, mọi người nhớ tò mò thêm post tạo RSS/Feedburner này nhé. Nhớ thay url lại cho đúng blog của bạn nhé.
Hướng dẫn thêm robots.txt vào Blogspot
Blogspot có sẵn địa điểm để bạn insert robots.txt, Chỉ Cần thêm đoạn robots.txt chuẩn ở trên theo chỉ dẫn này vào là OK.- Truy cập trang quản lý Blogspot ở địa chỉ: https://www.blogger.com
- Tiếp tục vào
Cài đặt
, vào Tùy chọn tìm kiếm
và thêm đoạn text robots.txt trên vào mục Robots.txt
:Sau đó lưu lại.
Bạn có thể kiểm tra xem file robots.txt đã hoạt động hay chưa bằng cách kiểm tra ở đây: https://www.cuahangtemplate.com/robots.txt
Như vậy là post đã cho mọi người biết robots.txt là gì, một file robots.txt chuẩn cho Blogspot ra sao và làm thế nào để thêm robots.txt vào Blogspot. Hy vọng mọi người sẽ không chạm chán đau bi ai khi thực hiện. Có luận điểm gì thì bình luận bên dưới nhé.
Cảm ơn mọi người đã quan tâm, cuahangtemplate.com luôn sẵn sàng trợ giúp các bạn, hãy để lại comment phía dưới nhé.
chúc mọi người thành công!!
Tags:
Blogspot