搜索引擎蜘蛛爬取網站,抓取數據的規則


搜索引擎蜘蛛爬取網站,抓取數據的規則

文章插圖
搜索引擎蜘蛛的抓取規則 , 如下四點提供參考:
1、搜索引擎蜘蛛要能看到鏈接文字
這個是搜索引擎蜘蛛爬行時能夠檢索到的文字 , 如果文字或鏈接是通過JavaScript調用 , 蜘蛛是檢索不到的 。 頁面的文字內容中主要內容位置越靠前越有利 , 例如產品名稱放到頁面越靠前的位置 , 對該頁面產品關鍵詞的排名越有利 。
2、搜索引擎蜘蛛能爬行未經 nofollow處理過的鏈接
這一項列出的是搜索引擎蜘蛛能夠檢索到鏈接 , 蜘蛛能夠通過這些鏈接訪問網站其他頁面 , 越靠前的鏈接 , 被蜘蛛爬行的幾率就越大 , 被搜索引擎收錄的可能性越高 。
3、搜索引擎蜘蛛能發現圖片鏈接并能閱讀到這些圖片所包含的含義
這里主要展示該頁面被搜索引擎蜘蛛和國際W3C標準化監測器所檢索到的圖片 , 搜索引擎能夠根據圖片at="" 去判斷該圖片的類型 , 性質和主題 , 對于判斷該圖片鏈接的頁面的主題有巨大幫助 , 能有效提高商品展示頁的搜索引擎排名根據W3C標準 , 頁面上所有圖片都必須添加 圖片注釋 , 網站Logo使用網站名稱加簡短描述 , 商品圖片使用商品名稱 , 網頁框架圖片留空 。
4、搜索引擎蜘蛛能很好地識別HTML代碼
【搜索引擎蜘蛛爬取網站,抓取數據的規則】 模擬搜索引擎蜘蛛爬行該頁面時 , 獲得的“最簡化代碼->是指過濾css , JavaScript后的代碼” , 由此可以看出減少代碼空行 , 換行 , 空格等多余代碼空間非常重要 。

    相關經驗推薦