您好,登錄后才能下訂單哦!
這篇文章主要介紹“Python爬蟲基礎入門實例分析”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“Python爬蟲基礎入門實例分析”文章能幫助大家解決問題。
首先,屏幕前的小伙伴們需要先安裝 requests 庫,安裝之前需先安裝好 Python 環境,如未安裝,小編在這給小伙伴們提供最新的 Python 編譯器安裝教程:Python 最新 3.9.0 編譯器安裝教程。
安裝好 Python 環境后,windows 用戶打開 cmd 命令輸入以下命令即可(其余系統安裝大致相同)。
pip install requests
Linux 用戶:
sudo pip install requests
接下來就是實例講解啦,小伙伴們多多動手操練吶!
1、爬取百度首頁頁面,并獲取頁面信息
# 爬取百度頁面
import requests #導入requests爬蟲庫
resp = requests.get('http://www.baidu.com') #生成一個response對象
resp.encoding = 'utf-8' #設置編碼格式為 utf-8
print(resp.status_code) #打印狀態碼
print(resp.text) #輸出爬取的信息
2、requests 庫 get 方法實例
在此之前先給大家介紹一個網址:httpbin.org,這個網站能測試 HTTP 請求和響應的各種信息,比如 cookie、ip、headers 和登錄驗證等,且支持 GET、POST 等多種方法,對 web 開發和測試很有幫助。它用 Python + Flask 編寫,是一個開源項目。
官方網站:http://httpbin.org/
開源地址:https://github.com/Runscope/httpbin
# get方法實例
import requests #導入requests爬蟲庫
resp5、爬取網頁圖片,并保存到本地。5、爬取網頁圖片,并保存到本地。 = requests.get("http://httpbin.org/get") #get方法
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
3、requests 庫 post 方法實例
# post方法實例
import requests #導入requests爬蟲庫
resp = requests.post("http://httpbin.org/post") #post方法
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
4、requests庫 put 方法實例
# put方法實例
import requests #導入requests爬蟲庫
resp = requests.put("http://httpbin.org/put") # put方法
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
5、requests 庫 get 方法傳參
想要使用 get 方法傳遞參數,有兩種方法可行:
在 get 方法之后加上要傳遞的參數用“=”號鏈接并用“&”符號隔開;
使用 params 字典傳遞多個參數。實例如下:
# get傳參方法實例1
import requests #導入requests爬蟲庫
resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100") # get傳參
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
# get傳參方法實例2
import requests #導入requests爬蟲庫
data = {
"name":"w3cschool",
"age":100
} #使用字典存儲傳遞參數
resp = requests.get( "http://httpbin.org/get" , params=data ) # get傳參
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
6、requests 庫 post 方法傳參
使用 post 方法傳遞參數和使用 get 方法傳遞參數的方法二是類似的。實例如下:
# post傳參方法實例
import requests #導入requests爬蟲庫
data = {
"name":"w3cschool",
"age":100
} #使用字典存儲傳遞參數
resp = requests.post( "http://httpbin.org/post" , params=data ) # post傳參
print( resp.status_code ) #打印狀態碼
print( resp.text ) #輸出爬取的信息
7、如何繞過各大網站的反爬蟲措施,以貓眼票房為例:
import requests #導入requests爬蟲庫
url = 'http://piaofang.maoyan.com/dashboard' #貓眼票房網址地址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #設置頭部信息,偽裝瀏覽器
resp = requests.get(url, headers=headers) #
print(resp.status_code) #打印狀態碼
print(resp.text) #網頁信息
8、爬取網頁圖片,并保存到本地。
先在E盤建立一個爬蟲目錄,才能夠保存信息,小伙伴們可自行選擇目錄保存,在代碼中更改相應目錄代碼即可。
import requests #導入requests爬蟲庫
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
} #設置頭部信息,偽裝瀏覽器
resp = requests.get('http://7n.yisu.com/statics/img/logo/indexlogo@2x.png', headers = headers) #get方法的到圖片響應
file = open("E:\\爬蟲\\test.png","wb") #打開一個文件,wb表示以二進制格式打開一個文件只用于寫入
file.write(resp.content) #寫入文件
file.close() #關閉文件操作
關于“Python爬蟲基礎入門實例分析”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。