造成Baiduspider抓取異常的原因( 二 )


8 , 其他異常:
? ? ? ? 1)針對百度refer的異常:網頁針對來自百度的refer返回不同于正常內容的行為 。
? ? ? ? 2)針對百度ua的異常:網頁對百度UA返回不同于頁面原內容的行為 。
? ? ? ? 3)JS跳轉異常:網頁加載了百度無法識別的JS跳轉代碼 , 使得用戶通過搜索結果進入頁面后發生了跳轉的情況 。
? ? ? ? 4)壓力過大引起的偶然封禁:百度會根據站點的規模、訪問量等信息 , 自動設定一個合理的抓取壓力 。 但是在異常情況下 , 如壓力控制失常時 , 服務器會根據自身負荷進行保護性的偶然封禁 。 這種情況下 , 請在返回碼中返回503(其含義是“Service Unavailable”) , 這樣Baiduspider會過段時間再來嘗試抓取這個鏈接 , 如果網站已空閑 , 則會被成功抓取 。

相關經驗推薦