百度搜索引擎工作原理( 二 )


5、重復url的過濾
? ? ? ? spider在抓取過程中需要判斷一個頁面是否已經抓取過了,如果還沒有抓取再進行抓取網頁的行為并放在已抓取網址集合中 。 判斷是否已經抓取其中涉及到最核心的是快速查找并對比,同時涉及到url歸一化識別,例如一個url中包含大量無效參數而實際是同一個頁面,這將視為同一個url來對待 。
6、暗網數據的獲取
? ? ? ? 互聯網中存在著大量的搜索引擎暫時無法抓取到的數據,被稱為暗網數據 。 一方面,很多網站的大量數據是存在于網絡數據庫中,spider難以采用抓取網頁的方式獲得完整內容;另一方面,由于網絡環境、網站本身不符合規范、孤島等等問題,也會造成搜索引擎無法抓取 。 目前來說,對于暗網數據的獲取主要思路仍然是通過開放平臺采用數據提交的方式來解決,例如“百度站長平臺”“百度開放平臺”等等 。
7、抓取反作弊
? ? ? ? spider在抓取過程中往往會遇到所謂抓取黑洞或者面臨大量低質量頁面的困擾,這就要求抓取系統中同樣需要設計一套完善的抓取反作弊系統 。 例如分析url特征、分析頁面大小及內容、分析站點規模對應抓取規模等等 。
谷歌官方搜索引擎原理視頻介紹

相關經驗推薦