什么是robots.txt爬蟲協議,規范的robots文件怎么寫( 二 )


/designer-dresses/
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf
以上這種問題我們只需要多加一個斜杠就行了 , 如下方所示:
User-agent: *
Disallow: /de/
使用注釋給開發者提供說明
注釋功能可以向開發者說明robots.txt文件指令的作用 , 如下方所示:
# This instructs Bing not to crawl our site.
User-agent: Bingbot
Disallow: /
搜索蜘蛛會忽略所有以“#”井號開頭的robots.txt文件指令 。
針對不同的子域名使用不同的robots.txt文件
robots.txt文件只限于當前根目錄域名所使用 , 如果你需要設置其它的域名的robots.txt文件規則 , 那么就需要設置多個robots.txt文件規則 。
例如 , 當前主站域名為www.zhuzhouren.cn , 而你的博客二級域名為blog.zhuzhouren.cn , 那么這種情況就需要設置多個robots.txt文件 , 一個放在主站根目錄下 , 一個放在博客網站根目錄下 。
Robots.txt文件示例
下面的robots.txt文件示例 , 主要是給站長們一些參考 , 如果這些robots.txt文件指令正好與你要求一樣 , 那么你可以將以下robots指令復制粘貼到txt文件中 , 將其另存為robots.txt文件上傳至網站根目錄中 。
以上robots指令代表的意思是允許所有搜索蜘蛛訪問網站所有頁面:
User-agent: *
不允許任何搜索蜘蛛抓取網站任何頁面
User-agent: *
Disallow: /
禁止所有搜索蜘蛛抓取/folder/這個目錄 。
User-agent: *
Disallow: /folder/
禁止所有搜索蜘蛛抓取/folder/這個目錄 , 但保留/folder/目錄下page.html這個頁面可以抓取 。
User-agent: *
Disallow: /folder/
Allow: /folder/page.html
禁止所有搜索蜘蛛抓取this-is-a-file.pdf這個文件
User-agent: *
Disallow: /this-is-a-file.pdf
禁止所有搜索蜘蛛抓取網站pdf文件
User-agent: *
Disallow: /*.pdf$
禁止谷歌蜘蛛抓取帶參數的url頁面 。
User-agent: Googlebot
Disallow: /*?
如何檢測robots.txt文件中的問題?
robots.txt文件是非常容易出錯的 , 所以對robots.txt文件的校驗也是非常有必要的 , 下面大兵來給大家講講robots.txt文件常見錯誤 , 包括robots文件指令的含義及解決辦法:
檢驗網站某個目錄頁面是否有錯誤 , 你可以將robots.txt文件中屏蔽的目錄或文件放入Search Console(谷歌資源管理器)的URL Inspection tool(網址檢測) , 如果顯示被robots.txt文件屏蔽了 , 就如下方所示:

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

國內用戶使用百度站長平臺也可以進行檢測 , 如下圖所示:

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

顯示該目錄被robots.txt屏蔽了 , 如下圖所示:

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

上圖中意味著此鏈接在Sitemap文件當中 , 至少有一條url鏈接被robots.txt屏蔽了 。
如果你的網站地圖sitemap文件是正確的 , 頁面中并不包含canonicalized、noindexed、redirected等標簽 , 而且你所提交的sitemap文件鏈接沒有被robots.txt屏蔽 , 如果檢測這個頁面鏈接確實被屏蔽了 , 那么就需要檢查被屏蔽的頁面 , 再調整robots.txt文件 , 刪除相應的robots指令 。
檢測網站目錄有沒有被屏蔽 , 你可以使用谷歌的robots.txt檢測工具和百度站長平臺robots文件檢測工具來檢測robots指令 , 在修改robots指令的時候也需要特別小心 , 因為你的修改會影響網站其它目錄頁面或文件 。

相關經驗推薦