搜狗微信搜索訂閱號及公眾號,搜狗微信搜索訂閱號及公眾號寶媽( 二 )


https://weixin.sogou.com/weixin?type=2&s_from=input&query=關鍵詞
②得到關鍵詞鏈接拼接規則后,開始配置關鍵詞搜索:
點擊屏幕右下角【高級配置】,將采集地址填寫到【請求地址】中,點擊【+】添加一個參數 , 名稱可以自定義,此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出 , 配置完成點擊【確定】即可 。
將參數類型選擇為檢索關鍵詞,點擊保存 。
③由于本模板是以關鍵詞搜索為入口,所以在【模板抽取配置】選擇頻道(即任務名稱),選擇【腳本窗口】 , 將關鍵詞搜索配置在頻道處即可 。
④具體配置腳本如下:
添加一個或多個關鍵詞,并保存,如下圖所示 。(多個關鍵詞用英文;隔開)
⑤效果預覽:
在【關鍵詞列表】中填寫關鍵詞,點擊【保存】,點擊【采集預覽】 , 即可看到配置效果 。
如果采集預覽異常,可打開前嗅官網,咨詢技術支持 。
3.翻頁配置
關鍵詞配置完成,下一步是獲取關鍵詞搜索結果中的全部翻頁鏈接 。
①同樣選擇【腳本窗口】,配置翻頁腳本 。
②對關鍵詞搜索出的網頁翻頁,觀察網頁地址的變化 。
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8第二頁
https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8第三頁
發現翻頁鏈接是在原地址中增加了“&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分,隨著頁碼的改變,僅有page參數的值在變化 。page為頁碼的配置參數,其它不變部分,直接拼接在鏈接中即可 。
③具體配置腳本如下:
④效果預覽:
如果采集預覽異常,可打開前嗅官網,咨詢技術支持 。
4.鏈接抽取
這一步是在獲取的翻頁鏈接中,提取每頁全部微信文章的鏈接:
①在原有模板基礎上,右鍵選擇【添加模板】,并新建一個鏈接抽?。縵巒妓荊?
②查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的文章鏈接,這時在右側出現對應源碼內容 。說明城市分類鏈接在【target=_blank】節點下 。
③經過觀察發現,我們要找的是【target=_blank】節點中的href,【target=_blank】節點是【class=news-list】的子節點中,名為【h3】的節點的子節點 。
④具體配置腳本如下 , 配置好腳本后點擊右上角【保存】 。
⑤.采集預覽如下所示:
如果采集預覽沒有出來,可以打開前嗅官網,咨詢技術支持 。
5.數據抽取
①鏈接抽取完成進入數據頁,在原有模板基礎上,右鍵選擇【添加模板】 , 新添加的模板,右鍵【添加數據抽取】 。
②此時要完成數據建表的工作:選擇【數據建表】,點擊【采集數據表結構】中的【+】,即可添加數據表,名稱可以自定義 。
③數據表配置完成,選擇【數據抽取】右側數據屬性配置,表單選擇剛建立的“微信公眾文章”數據表,則可看到表單中的字段在右側顯示 。
④需要配置哪一個字段 , 點擊該字段,在右側字段屬性中配置即可 , 選擇腳本配置的字段,在腳本窗口中進行代碼配置 。
id字段:主鍵字段,采集內容選擇【主鍵】-【網頁主鍵】,主鍵為當前網頁的MD5值 。
title字段:腳本如下所示
content字段:
瀏覽器打開文章頁面 , 查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中文章正文,這時在右側出現對應源碼內容 。說明城市分類鏈接在【class=rich_media_wrp】的節點下 。

相關經驗推薦