什么是robots.txt爬蟲協議,規范的robots文件怎么寫( 三 )



什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

從上圖中可以看出帶有start的網站目錄都被robots.txt屏蔽了

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

上圖中代表的意思是帶有start的網站內容都被robots.txt屏蔽了 , 暫時屏蔽了谷歌蜘蛛索引 。
被robots指令禁止索引的內容是需要被搜索蜘蛛抓取的內容 , 那么我們只需要刪除錯誤的robots指令即可 , 此時你需要注意此內容是否被robots文件標記為禁止索引狀態 , 如果禁止索引的內容是不需要被索引的內容 , 那么就可以刪除屏蔽索引指令 , 然后使用meta robots標簽、x-robots HTTP頭部指令進行屏蔽 , 保證此頁面內容不被搜索蜘蛛索引 。
注意 , 如果你想將被屏蔽抓取的內容從禁止索引庫中刪除 , 首先必須要刪除抓取阻礙 , 否則搜索蜘蛛是無法抓取頁面內容的 。
索引但是被robots.txt屏蔽

什么是robots.txt爬蟲協議,規范的robots文件怎么寫

文章插圖

這表示雖然有部分內容被robots.txt文件屏蔽了 , 但仍然可以被谷歌索引 。
如果你希望從搜索引擎索引庫中刪除該內容 , robots.txt文件指令并不是最好的辦法 , 可使用meta robots標簽、或者是x-robots HTTP頭部指令防止頁面被搜索蜘蛛索引 。
如果你是不小心將該內容屏蔽了 , 并且希望該內容重新被搜索引擎索引 , 只需要在robots.txt文件中刪除相關指令就行了 , 這樣就可以讓該內容展示在搜索引擎中了 。
FAQs
以下是站長朋友們經常問的問題 , 如果下方問題并沒有包含你所需要解答的問題 , 歡迎大家在下方評論區別留下你的問題 , 大兵會及時給大家解答 。
1)robots.txt文件大小最大為多少?
約為500 千字節 。
2)WordPress中的robots.txt在哪里?
robots.tx文件在網站根目錄下 , 例: 域名.com/robots.txt.
3)如何在Wordpress當中編輯robots.txt?
你可以手動編輯該文件 , 也可以使用WordPress相關插件編輯robots.txt文件 , 直接在WordPress后臺就可以編輯 。
4)如果robots.txt文件屏蔽了不想被禁止索引的頁面有哪些影響?
robots.txt文件屏蔽了不想被禁止索引的頁面的影響 , 要看屏蔽時間的長短 , 時間長則影響大 , 時間短則影響小 , 最后我們只需要改正錯誤的robots指令即可 。
5)noindex標記谷歌搜索是否可以識別?
谷歌搜索雖然沒有明確表示可以識別此標簽 , 但如果此頁面你不想被搜索蜘蛛索引 , 你可以將noindex標簽放在頁面中 , 這樣谷歌識別出了這個標記 , 就不會收錄該頁面 。
最后的想法
【什么是robots.txt爬蟲協議,規范的robots文件怎么寫】 robots.txt文件雖然看上去簡單 , 但卻是最容易出錯的 , 一旦出錯對網站SEO優化的影響將是非常嚴重的 , 甚至造成這個網站直接廢掉 。

相關經驗推薦