中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python異步爬蟲實例代碼分析

發布時間:2022-01-28 13:39:52 來源:億速云 閱讀:149 作者:iii 欄目:開發技術

這篇文章主要介紹“Python異步爬蟲實例代碼分析”的相關知識,小編通過實際案例向大家展示操作過程,操作方法簡單快捷,實用性強,希望這篇“Python異步爬蟲實例代碼分析”文章能幫助大家解決問題。

一、背景

默認情況下,用get請求時,會出現阻塞,需要很多時間來等待,對于有很多請求url時,速度就很慢。因為需要一個url請求的完成,才能讓下一個url繼續訪問。一種很自然的想法就是用異步機制來提高爬蟲速度。通過構建線程池或者進程池完成異步爬蟲,即使用多線程或者多進程來處理多個請求(在別的進程或者線程阻塞時)。

import time 
#串形
 
def getPage(url):
    print("開始爬取網站",url)
    time.sleep(2)#阻塞
    print("爬取完成!!!",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#開始計時
 
for url in urls:
    getPage(url)
 
endTime= time.time()#結束計時
print("完成時間%d"%(endTime - beginTime))

下面通過模擬爬取網站來完成對多線程,多進程,協程的理解。

二、多線程實現

import time 
#使用線程池對象
from multiprocessing.dummy import Pool
 
def getPage(url):
    print("開始爬取網站",url)
    time.sleep(2)#阻塞
    print("爬取完成!!!",url)
 
 
urls = ['url1','url2','url3','url4','url5']
 
beginTime = time.time()#開始計時
 
#準備開啟5個線程,并示例化對象
pool = Pool(5)
pool.map(getPage, urls)#urls是可迭代對象,里面每個參數都會給getPage方法處理
 
endTime= time.time()#結束計時
print("完成時間%d"%(endTime - beginTime))

完成時間只需要2s!!!!!!!!

線程池使用原則:適合處理耗時并且阻塞的操作

三、協程實現

#%%
import time 
#使用協程
import asyncio
 
 
async def getPage(url):  #定義了一個協程對象,python中函數也是對象
    print("開始爬取網站",url)
    time.sleep(2)#阻塞
    print("爬取完成!!!",url)
    
#async修飾的函數返回的對象    
c = getPage(11)
 
#創建事件對象
loop_event = asyncio.get_event_loop()
#注冊并啟動looP
loop_event.run_until_complete(c)
 
#task對象使用,封裝協程對象c
'''
loop_event = asyncio.get_event_loop()
task = loop_event.create_task(c)
loop_event.run_until_complete(task)
'''
 
#Future對象使用,封裝協程對象c            用法和task差不多
'''
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c)
loop_event.run_until_complete(task)
'''
 
#綁定回調使用
 
async def getPage2(url):  #定義了一個協程對象,python中函數也是對象
    print("開始爬取網站",url)
    time.sleep(2)#阻塞
    print("爬取完成!!!",url)
    return url
    
#async修飾的函數返回的對象    
c2 = getPage2(2)
 
def callback_func(task):
    print(task.result()) #task.result()返回任務對象中封裝的協程對象對應函數的返回值
 
 
#綁定回調
loop_event = asyncio.get_event_loop()
task       = asyncio.ensure_future(c2)
 
task.add_done_callback(callback_func)  #真正綁定,
loop_event.run_until_complete(task)

四、多任務協程實現

import time 
#使用多任務協程
import asyncio
 
 
 
 
urls = ['url1','url2','url3','url4','url5']
 
 
 
async def getPage(url):  #定義了一個協程對象,python中函數也是對象
    print("開始爬取網站",url)
    #在異步協程中如果出現同步模塊相關的代碼,那么無法實現異步
    #time.sleep(2)#阻塞
    await asyncio.sleep(2)#遇到阻塞操作必須手動掛起
    print("爬取完成!!!",url)
    return url
    
 
beginTime = time.time()  
 
 
#任務列表,有多個任務
tasks = []
 
for url in urls:
    c = getPage(url)
    task = asyncio.ensure_future(c)#創建任務對象
    tasks.append(task)
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))#不能直接放task,需要封裝進入asyncio,wait()方法中
 
endTime = time.time()   
print("完成時間%d"%(endTime - beginTime))

此時不能用time.sleep(2),用了還是10秒

對于真正爬取過程中,如在getPage()方法中真正爬取數據時,即requests.get(url) ,它是基于同步方式實現。應該使用異步網絡請求模塊aiohttp

參考下面代碼:

async def getPage(url):  #定義了一個協程對象,python中函數也是對象
    print("開始爬取網站",url)
    #在異步協程中如果出現同步模塊相關的代碼,那么無法實現異步
    #requests.get(url)#阻塞
    async with aiohttp.ClintSession() as session:
 
                     async with await  session.get(url) as response: #手動掛起
 
                                       page_text =  await response.text() #.text()返回字符串,read()返回二進制數據,注意不是content
    print("爬取完成!!!",url)
    return page_text

    關于“Python異步爬蟲實例代碼分析”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識,可以關注億速云行業資訊頻道,小編每天都會為大家更新不同的知識點。

    向AI問一下細節

    免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

    AI

    清河县| 深泽县| 邵武市| 新绛县| 江川县| 贺兰县| 新晃| 庆城县| 大关县| 嘉禾县| 浦县| 肥东县| 寿阳县| 青铜峡市| 盐津县| 衡阳县| 通河县| 连州市| 屏边| 云浮市| 海门市| 康马县| 六安市| 元谋县| 定边县| 邢台县| 清水河县| 京山县| 双柏县| 西和县| 收藏| 高台县| 什邡市| 资中县| 万载县| 郓城县| 霍州市| 达尔| 永川市| 汉川市| 廊坊市|