Xin chào các bạn. Trong bài viết này thì mình sẽ hướng dẫn rất chi tiết cho các bạn cách tạo một tệp file Robots.txt chuẩn cho Blogspot mới nhất 2021.
Việc khai báo tệp Robots trên Google Search Console để những con bọ của Google lục lọi trang web/blog của bạn nhằm index bài viết mới trên website của bạn. Robot.txt file được cài đặt trong thư mục gốc để cho phép các công cụ tìm kiếm được phép lấy phần thông tin dữ liệu nào ở bên trong web/blog phần nào không được phép lấy.
Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Disallow: Không cho phép
Sitemap: Đường dẫn sơ đồ của trang web/blog.
1: Chặn các đối thủ chới xấu
Bạn thêm dòng lệnh bên dưới vào trong tệp Robots.
vd: mình sẽ chặn các đường link bài viết có từ huong sau dấu /
User-agent: Mediapartners-Google:
Disallow: / => Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * => Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / => Tức là cho phép bot có thể index nội dung trên trang web.
Disallow: /search* => Chặn trang tìm kiếm
Allow: /search => Cho phép đọc trang bài viết mới
Disallow: *?m=0 => chặn index trang có giá trị domain.com?m=0
Allow: /search/label/ => Cho phép index trang nhãn
Disallow: *?m=0 => Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
Sitemap: là sơ đồ trang của web, bạn thây đúng địa chỉ URL nhé.
File robots.txt mà blog mình hiện đang sử dụng:
all: Cho phép công cụ tìm kiếm lập chỉ mục.
noindex: Không hiển thị trang này trong kết quả tìm kiếm.
nofollow: Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
none: Tương tự như nonidex và nofollow.
noarchive: Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
nosnippet: Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
noodp: Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
notranslate: Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
noimageindex: Không lập chỉ mục cho hình ảnh trên trang này.
unavailable_after: Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.
Việc khai báo tệp Robots trên Google Search Console để những con bọ của Google lục lọi trang web/blog của bạn nhằm index bài viết mới trên website của bạn. Robot.txt file được cài đặt trong thư mục gốc để cho phép các công cụ tìm kiếm được phép lấy phần thông tin dữ liệu nào ở bên trong web/blog phần nào không được phép lấy.
Ý nghĩa các dòng lệnh trong teepk Robots
User-agent: Tên loại bot ví dụ: Googlebot, YahooBot, Bingbot,…Allow: (chỉ áp dụng cho Googlebot): Lệnh này thông báo cho Googlebot rằng nó có thể truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Disallow: Không cho phép
Sitemap: Đường dẫn sơ đồ của trang web/blog.
1: Chặn các đối thủ chới xấu
Bạn thêm dòng lệnh bên dưới vào trong tệp Robots.
Disallow: /search
2: Tạm thời chặn index bài viếtUser-agent: *
Disallow: /
3:Chặn các bài viết kếm chất lượngvd: mình sẽ chặn các đường link bài viết có từ huong sau dấu /
User-agent: *
Disallow: /huong
Hước dẫn cài đặt tệp file Robots.txt cho Blogspot
Các bạn vào Cài đặt -> Robots.txt tùy chỉnh -> Bạn coppy đoạn bên dưới vào.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *?m=0
Sitemap: https://www.techzezo.top/posts/default?orderby=UPDATED
Sitemap: https://www.techzezo.top/sitemap.xml
Sitemap: https://www.techzezo.top/atom.xml?redirect=false&start-index=1&max-results=500
Copy
Trong đó:User-agent: Mediapartners-Google:
Disallow: / => Mình chặn index các trang đối tác của Google (Google Adsense)
User-agent: * => Khai báo cho tất cả bộ máy tìm kiếm (SE)
Allow: / => Tức là cho phép bot có thể index nội dung trên trang web.
Disallow: /search* => Chặn trang tìm kiếm
Allow: /search => Cho phép đọc trang bài viết mới
Disallow: *?m=0 => chặn index trang có giá trị domain.com?m=0
Allow: /search/label/ => Cho phép index trang nhãn
Disallow: *?m=0 => Blogspot có 2 giao diện, 1 là cho máy tính và còn lại là cho điện thoại. Thông thường các template đều thiết kế sử dụng responsive, nên sẽ sinh ra đường link ?m=1, còn máy tính vẫn sinh ra đường link ?m=0 dù bạn truy cập trên máy tính sẽ không thấy, nhưng tham số ?m=0 vẫn tồn tại, và được Google index, vì vậy, để trang trùng lặp mô tả, tiêu đề, bạn cần chặn tham số ?m=0.
Sitemap: là sơ đồ trang của web, bạn thây đúng địa chỉ URL nhé.
File robots.txt mà blog mình hiện đang sử dụng:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.techzezo.top/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://www.techzezo.top/sitemap.xml
Một số mẫu Robots của những blog
Dạng mặc định:User-agent: Mediapartners-Google
Disallow: User-agent: *
Disallow: /search
Allow: / Sitemap: https://domain.com/sitemap.xml
File Robots tùy chỉnh cho SEO label: User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search?updated-min=*
Disallow: /search?updated-max=*
Disallow: /search/label/*?max-results=*
Disallow: /search/label/*?updated-min=*
Disallow: /search/label/*?updated-max=*
Disallow: *archive.html
Allow: /
Sitemap: https://domain.com/feeds/posts/default?orderby=UPDATED
Cách tối ưu cho thẻ tiêu đề robot tùy chỉnh
Bạn vào Cài đặt => Bật thẻ tiêu đề robot tùy chỉnh => Chọn all và noodp => Nhấn Lưu. Như hình bên dưới. Trong đó:all: Cho phép công cụ tìm kiếm lập chỉ mục.
noindex: Không hiển thị trang này trong kết quả tìm kiếm.
nofollow: Thông báo cho công cụ tìm kiếm không nên lần theo các liên kết này.
none: Tương tự như nonidex và nofollow.
noarchive: Không hiển thị một liên kết "Cached" trong kết quả tìm kiếm.
nosnippet: Không hiển thị một đoạn mã trong kết quả tìm kiếm cho trang này.
noodp: Không sử dụng dữ liệu từ các dự án Open Directory (DMOZ) cho tiêu đề hoặc đoạn hiển thị cho trang này.
notranslate: Không cung cấp bản dịch của trang này với các ngôn ngữ khác trong kết quả tìm kiếm.
noimageindex: Không lập chỉ mục cho hình ảnh trên trang này.
unavailable_after: Không hiển thị trang này trong kết quả tìm kiếm sau khi ngày/thời gian quy định. Ngày/thời phải được xác định trong các định dạng RCF 850.
Kết luận:
Ở trên TechZezo đã chia sẻ tới các bạn cách tạo và cài đặt một file Robots chuẩn cho Blogspot> Có gì thắc mắc các bạn hãy để lại bình luận phía dưới. Chúc các bạn thành côngThành Đạt – Tổng hợp và edit