爬行和抓取 _蜘蛛

文章插圖
爬行和抓取是搜索引擎工作的第一步，完成數據收集任務。
1、蜘蛛：
搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛（spider），也稱為機器人（bot）。
2、跟蹤鏈接：
為了抓取網上盡量多的頁面，搜索引擎蜘蛛會跟蹤頁面上的鏈接，從一個頁面爬到下一個頁面，就好像蜘蛛在蜘蛛網上爬行那樣，這也是搜索引擎蜘蛛這個名稱的由來。
3、吸引蜘蛛：
理論上蜘蛛能爬行和抓取所有頁面，但實際上不能，也不會這么做。 SEO人員想要讓自己的更多頁面被收錄，就要想方設法吸引蜘蛛抓取。
4、地址庫：
為了避免重復爬行和抓取網址，搜索引擎會建立一個地址庫，記錄已經被發現還沒有抓取的頁面，以及已經被抓取的頁面。
5、文件儲蓄：
【爬行和抓取】 搜索引擎蜘蛛抓取的數據存入原始頁面數據庫。其他的頁面數據與用戶瀏覽器得到的HTML是完全一樣的。每個URL都是這樣一個獨特的文件編號。

爬行和抓取

相關經驗推薦

誰最“賢惠”？余霜、希然、瞳夕齊曬飯菜，這次是她輸得徹底

怎么開光開光的方法介紹

旋風讀音旋風讀音是二聲還是四聲

DNF雜談：蹭活動1級buff，奶大祭司換ceo提升小測

過年給長輩的祝福語押韻?

冬蟲夏草的用處和功效冬蟲夏草的作用和用途

名爵gt空調濾芯在哪里

2.4米寬的車位能停多寬的車呢 2.4米寬的車位能停多寬的車

游戲圈最難成就，完成條件無人知曉，把游戲打通關都不行？

《地下城與勇士：決斗》IGN8分:格斗游戲新手亦可暢玩

早餐餡餅的做法大全早餐餡餅的做法

2023蘇州園林春節門票多少錢

黑美人西瓜產地哪里最好黑美人西瓜產地

蝴蝶蘭葉子發黃還能緩過來嗎

去屑洗發露去屑洗發露推薦

衣柜放什么防蟑螂

烈烈|非人哉又出現一個“沒臉見人”的新角色！之前的嫦娥也從不露臉

吃番石榴有什么好處？孕婦吃番石榴有什么好處？

網面運動鞋清洗小竅門網面運動鞋清洗小竅門加白醋

OMG危險了！Doinb扎心點評：小奶油英雄池有問題，季后賽要一輪游