網站內容被采集技術層面處理方法


網站內容被采集技術層面處理方法

文章插圖

一、優化層面
1、在更新網站內容時 , 添加一些能代表自己的內容 , 例如“XXX網提示” “XXX提醒” , 還有就是將品牌詞變換下 , 例如“大兵SEO博客”可變換成“daBING了解”“DA兵知道”等 , 別人采集你的內容在沒有及時修改的情況下 , 你就可以把這些作為證據向搜索引擎進行反饋 , 反饋自己的原創內容被別人采集抄襲了 。
沒有實質證據的情況下 , 搜索引擎也不好怎么處理 , 你說你是原創 , 但別人也可以說是他是原創 , 如果你說更新時間可以證明 , 但內容更新時間是可以修改的 , 所以這個是不能作為證據的 。
2、還有一個方法是給內容插圖加入水印 , 增加別人采集抄襲的時間成本 。
二、技術層面
一般網站都會設置最新內容更新欄目 , 這樣采集者采集的內容都是最新而且還是沒有收錄的內容 , 所以我們需要考慮不讓最新內容被采集到 , 等最新內容被搜索引擎收錄后 , 再更新出來 , 這樣別人采集的意義就不到了 , 設置方法如下所示:
1、首頁延時更新 , 不要將首頁設置成實時更新或固定時間段更新 , 我們網站把搜索蜘蛛養起來以后 , 首頁更新頻率就不用那么快了 , 例如新浪、網易那些大權重平臺網站首頁長時間都是不更新的 。
2、延時更新 , 并不代表不更新 , 只要我們將最新內容鏈接地址做成sitemap主動推送經搜索引擎 , 就不需要考慮搜索引擎不會不來抓取我們網站了 。
3、限制欄目分頁數 , 一般5~10頁足夠了 , 沒有人會有這個時間去翻你網站幾十頁后面的內容 , 正常用戶進入你網站都是有需求 , 例如百度經驗欄目分頁限制為3頁 , 而且還不是最新內容 。
4、限制用戶列表頁內容展示量
5、列表頁內容鏈接盡可能設置成無規則排序 , 如果你的網站列表頁內容是按照有規律遞增進行排序的 , 采集者不需要找到你網站最新內容入口就可以采集到你網站的最新內容 , 可以設置成百度最近一周收錄排序到網站最新內容列表里 。
舉例: htt ps://jin gyan.baidu.com/article/1.html
htt ps://jin gyan.baidu.com/article/2.html
以此類推
htt ps://jing yan.baidu.com/article/99999999.html
例如愛奇藝、騰訊視頻鏈接就是無規則排序 , 這就導致他們視頻內容就很難被采集 。
如果你的站是新站 , 不建議使用上方法 , 等搜索蜘蛛抓穩定了 , 就可以使用以上方法了 。
網站內容被采集技術層面處理方法也就以上這些了 , 但也不能完全避免網站被采集 , 有些采集者甚至用代理IP抓相關內容爬搜索結果頁來采集你網站內容 。
注意:動態程序網站也可設置調用前幾天更新的內容 , 但必須提前做好sitemap文件和api推送 。
【網站內容被采集技術層面處理方法】 限制IP的方法步驟這里就不詳細講解了 , 百度上都有 , 搜索一下就全出來了 。

    相關經驗推薦