|Python爬蟲知識梳理大全(一)!

|Python爬蟲知識梳理大全(一)!

文章圖片

|Python爬蟲知識梳理大全(一)!

接下來我們會通過幾篇文章整理并總結有關于python爬蟲的相關知識 , 主要包括爬取網頁、解析數據以及異步爬取的方法等內容 。

1.在用Python爬取數據的時候 , 我們通常用什么來爬取數據?
通常相對簡單的爬取數據的方法是通過requests模塊進行的 。
2.requests模塊怎么用?
我們在進行爬取數據之前 , 需要先通過pycharm來安裝requests模塊 。
第一步 , 導入requests模塊:
import requests
第二步 , 獲取requests所需要的參數:
① url 。 需要爬取的網頁地址
②get或者post請求 。 可以通過所需爬取的網頁中的headers中的Request Method進行判斷 。
③是否帶有參數 。 我們同樣通過所爬取的網址或者headers中是否攜帶參數 。
④UA偽裝 。 通過headers中-User-Agent獲取 。
⑤獲取響應數據 。

第三步 , 爬取數據 。
以爬取豆瓣電影 Top 250該網頁為例 , 我們要爬取該網頁的數據 , 首先進行幾個簡單的參數獲取:
url地址很容易獲取到 , 通過查看Request Method , 我們知道該網頁發送的是get請求;獲取的響應類型是文本類型 , 因此代碼書寫如下:
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'

response=requests.get(url=urlheaders=headers).text
print(response)
【|Python爬蟲知識梳理大全(一)!】

    相關經驗推薦