什么是robots.txt爬蟲協議,規范的robots文件怎么寫( 二 )

2026-04-27 生活常識 ign mit 615 usp

/designer-dresses/
/delivery-information.html
/depeche-mode/t-shirts/
/definitely-not-for-public-viewing.pdf
以上這種問題我們只需要多加一個斜杠就行了，如下方所示：
User-agent: *
Disallow: /de/
使用注釋給開發者提供說明
注釋功能可以向開發者說明robots.txt文件指令的作用，如下方所示：
# This instructs Bing not to crawl our site.
User-agent: Bingbot
Disallow: /
搜索蜘蛛會忽略所有以“#”井號開頭的robots.txt文件指令。
針對不同的子域名使用不同的robots.txt文件
robots.txt文件只限于當前根目錄域名所使用，如果你需要設置其它的域名的robots.txt文件規則，那么就需要設置多個robots.txt文件規則。
例如，當前主站域名為www.zhuzhouren.cn ，而你的博客二級域名為blog.zhuzhouren.cn ，那么這種情況就需要設置多個robots.txt文件，一個放在主站根目錄下，一個放在博客網站根目錄下。
Robots.txt文件示例
下面的robots.txt文件示例，主要是給站長們一些參考，如果這些robots.txt文件指令正好與你要求一樣，那么你可以將以下robots指令復制粘貼到txt文件中，將其另存為robots.txt文件上傳至網站根目錄中。
以上robots指令代表的意思是允許所有搜索蜘蛛訪問網站所有頁面：
User-agent: *
不允許任何搜索蜘蛛抓取網站任何頁面
User-agent: *
Disallow: /
禁止所有搜索蜘蛛抓取/folder/這個目錄。
User-agent: *
Disallow: /folder/
禁止所有搜索蜘蛛抓取/folder/這個目錄，但保留/folder/目錄下page.html這個頁面可以抓取。
User-agent: *
Disallow: /folder/
Allow: /folder/page.html
禁止所有搜索蜘蛛抓取this-is-a-file.pdf這個文件
User-agent: *
Disallow: /this-is-a-file.pdf
禁止所有搜索蜘蛛抓取網站pdf文件
User-agent: *
Disallow: /*.pdf$
禁止谷歌蜘蛛抓取帶參數的url頁面。
User-agent: Googlebot
Disallow: /*?
如何檢測robots.txt文件中的問題？
robots.txt文件是非常容易出錯的，所以對robots.txt文件的校驗也是非常有必要的，下面大兵來給大家講講robots.txt文件常見錯誤，包括robots文件指令的含義及解決辦法：
檢驗網站某個目錄頁面是否有錯誤，你可以將robots.txt文件中屏蔽的目錄或文件放入Search Console（谷歌資源管理器）的URL Inspection tool（網址檢測），如果顯示被robots.txt文件屏蔽了，就如下方所示：

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

國內用戶使用百度站長平臺也可以進行檢測，如下圖所示：

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

顯示該目錄被robots.txt屏蔽了，如下圖所示：

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

上圖中意味著此鏈接在Sitemap文件當中，至少有一條url鏈接被robots.txt屏蔽了。
如果你的網站地圖sitemap文件是正確的，頁面中并不包含canonicalized、noindexed、redirected等標簽，而且你所提交的sitemap文件鏈接沒有被robots.txt屏蔽，如果檢測這個頁面鏈接確實被屏蔽了，那么就需要檢查被屏蔽的頁面，再調整robots.txt文件，刪除相應的robots指令。
檢測網站目錄有沒有被屏蔽，你可以使用谷歌的robots.txt檢測工具和百度站長平臺robots文件檢測工具來檢測robots指令，在修改robots指令的時候也需要特別小心，因為你的修改會影響網站其它目錄頁面或文件。

相關經驗推薦

上一篇：廣東seo：SEO：獨立電商網站系統網店的優勢特征和特征服務

下一篇：上海seo外包：簡析互換友情鏈接有什么作用？