中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python網絡爬蟲之如何獲取網絡數據

發布時間:2023-05-12 15:51:39 來源:億速云 閱讀:104 作者:iii 欄目:編程語言

本篇內容介紹了“Python網絡爬蟲之如何獲取網絡數據”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

使用 Python 獲取網絡數據

使用 Python 語言從互聯網上獲取數據是一項非常常見的任務。Python 有一個名為 requests 的庫,它是一個 Python 的 HTTP 客戶端庫,用于向 Web 服務器發起 HTTP 請求。

我們可以通過以下代碼使用 requests 庫向指定的 URL 發起 HTTP 請求:

import requests
response = requests.get('<http://www.example.com>')

其中,response 對象將包含服務器返回的響應。使用 response.text 可以獲取響應的文本內容。

此外,我們還可以使用以下代碼獲取二進制資源:

import requests
response = requests.get('<http://www.example.com/image.png>')
with open('image.png', 'wb') as f:
    f.write(response.content)

使用 response.content 可以獲取服務器返回的二進制數據。

編寫爬蟲代碼

爬蟲是一種自動化程序,可以通過網絡爬取網頁數據,并將其存儲在數據庫或文件中。爬蟲在數據采集、信息監控、內容分析等領域有著廣泛的應用。Python 語言是爬蟲編寫的常用語言,因為它具有簡單易學、代碼量少、庫豐富等優點。

我們以“豆瓣電影”為例,介紹如何使用 Python 編寫爬蟲代碼。首先,我們使用 requests 庫獲取網頁的 HTML 代碼,然后將整個代碼看成一個長字符串,使用正則表達式的捕獲組從字符串提取需要的內容。

豆瓣電影 Top250 頁面的地址是 https://movie.douban.com/top250?start=0,其中 start 參數表示從第幾個電影開始獲取。每頁共展示了 25 部電影,如果要獲取 Top250 數據,我們共需要訪問 10 個頁面,對應的地址是 https://movie.douban.com/top250?start=xxx,這里的 xxx 如果為 0 就是第一頁,如果 xxx 的值是 100,那么我們可以訪問到第五頁。

我們以獲取電影的標題和評分為例,代碼如下所示:

import re
import requests
import time
import random
for page in range(1, 11):
    resp = requests.get(
        url=f'<https://movie.douban.com/top250?start=>{(page - 1) * 25}',
        headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'}
    )
    # 通過正則表達式獲取class屬性為title且標簽體不以&開頭的span標簽并用捕獲組提取標簽內容
    pattern1 = re.compile(r'<span class="title">([^&]*?)</span>')
    titles = pattern1.findall(resp.text)
    # 通過正則表達式獲取class屬性為rating_num的span標簽并用捕獲組提取標簽內容
    pattern2 = re.compile(r'<span class="rating_num".*?>(.*?)</span>')
    ranks = pattern2.findall(resp.text)
    # 使用zip壓縮兩個列表,循環遍歷所有的電影標題和評分
    for title, rank in zip(titles, ranks):
        print(title, rank)
    # 隨機休眠1-5秒,避免爬取頁面過于頻繁
    time.sleep(random.random() * 4 + 1)

在上述代碼中,我們通過正則表達式獲取標簽體為標題和評分的 span 標簽,并用捕獲組提取標簽內容。使用 zip 壓縮兩個列表,循環遍歷所有電影標題和評分。

使用 IP 代理

許多網站對爬蟲程序比較反感,因為爬蟲程序會耗費掉它們很多的網絡帶寬,并制造很多無效的流量。為了隱匿身份,通常需要使用 IP 代理來訪問網站。商業 IP 代理(如蘑菇代理、芝麻代理、快代理等)是一個好的選擇,使用商業 IP 代理可以讓被爬取的網站無法獲取爬蟲程序來源的真實 IP 地址,從而無法簡單的通過 IP 地址對爬蟲程序進行封禁。

以蘑菇代理為例,我們可以在該網站注冊一個賬號,然后購買相應的套餐來獲得商業 IP 代理。蘑菇代理提供了兩種接入代理的方式,分別是 API 私密代理和 HTTP 隧道代理,前者是通過請求蘑菇代理的 API 接口獲取代理服務器地址,后者是直接使用統一的代理服務器 IP 和端口。

使用 IP 代理的代碼如下所示:

import requests
proxies = {
    'http': '<http://username:password@ip>:port',
    'https': '<https://username:password@ip>:port'
}
response = requests.get('<http://www.example.com>', proxies=proxies)

其中,usernamepassword 分別是蘑菇代理賬號的用戶名和密碼,ipport 分別是代理服務器的 IP 地址和端口號。注意,不同的代理提供商的接入方式可能不同,需要根據實際情況進行相應的修改。

“Python網絡爬蟲之如何獲取網絡數據”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

宜城市| 双牌县| 巫溪县| 阜宁县| 桓台县| 渝中区| 吴旗县| 积石山| 宁安市| 呼伦贝尔市| 彭阳县| 德昌县| 德兴市| 昆明市| 鱼台县| 高碑店市| 射洪县| 鸡东县| 华阴市| 奉化市| 噶尔县| 庆元县| 古蔺县| 连云港市| 竹山县| 丰城市| 雷州市| 靖边县| 当雄县| 洪雅县| 桂东县| 镇巴县| 佛冈县| 乌拉特后旗| 巴林左旗| 昭觉县| 津市市| 灵寿县| 江北区| 涟水县| 云南省|