中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python的scrapy?requests與response對象怎么用

發布時間:2022-05-16 13:53:34 來源:億速云 閱讀:204 作者:iii 欄目:開發技術

這篇文章主要介紹了python的scrapy requests與response對象怎么用的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇python的scrapy requests與response對象怎么用文章都會有所收獲,下面我們一起來看看吧。

Request 對象

在 scrapy 中 Request 對象代表著請求,即向服務器發送數據,該對象的構造函數原型如下所示:

def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None, cb_kwargs=None)

其中只有 url為必填參數,具體說明如下:

  • callback:頁面解析函數,當 Request 請求獲取到 Response 響應之后,設定的函數會被調用,默認是 self.parse 方法;

  • method:請求類型,默認為 GET,所以使用 Request 是可以發送 POST 的請求的,FormRequest 類是 Request 類的子類;

  • headers:請求頭,字典類型;

  • body:請求的正文,需要 bytes 類型或 str 類型;

  • cookies:Cookie 字典,dict 類型;

  • meta:元數據字典,dict 類型,可以給其它組件傳遞信息;

  • encoding:url和body參數的編碼,注意不是數據響應編碼;

  • priority:請求的優先級,默認為0,數值越大,優先級越高;

  • dont_filter:默認值為 False,該參數表示是否重復請求相同地址;

  • errback:請求異常時的回調函數。

Response 對象

scrapy中,Response對象表示請求響應對象,即服務器返回給爬蟲的數據,其構造函數原型如下:

def __init__(self,url,status=200,headers=None,body=b"",
    flags=None, request=None,certificate=None,ip_address=None,protocol=None,
)

與 Request 一致,該方法中僅 url 為必填參數,不過一般很少用到手動創建一個 Response 對象實例的場景。

Response 類衍生出來一個子類 TextResponse,然后 TextResponse又衍生出來 HtmlResponse和 XmlResponse

Response 包括的屬性和方法如下:

屬性清單:

  • url:響應地址;

  • status:響應狀態碼;

  • headers:響應頭;

  • encoding:響應正文的編碼;

  • body:響應正文,bytes 類型;

  • text:文本形式的響應正文,將 body 進行編碼之后的數據;

  • request:獲取請求對象;

  • meta:元數據字典,dict 類型,請求傳遞過來的參數;

  • selector:選擇器對象。

方法清單:

  • xpath():XPath 選擇器;

  • css():CSS 選擇器;

  • urljoin():就是 urllib.parse 模塊的 urljoin()

  • json():將響應數據序列化為 JSON 格式;

關于 Request 和 Response 類的相關源碼,可以在 scrapy\http 目錄查看。

ItemPipeline

數據管道在 scrapy 中主要對數據進行處理,在實際開發過程中需要注意一個 ItemPipeline,只負責一種功能的數據處理,當然在 scrapy 中你可以創建多個 ItemPipeline

ItemPipeline的使用場景:

  • 數據清洗,例如去重,去除異常數據;

  • 數據保存方式編寫,例如存儲 MongodbMySQLRedis 數據庫。

在編寫ItemPipeline類的時候,不需要其繼承特定類,只需要實現固定名稱的方法即可,在之前的博客中已經反復提及,自定義ItemPipeline類需要實現 process_item()open_spider()close_spider()方法,其中 process_item()必須實現。

process_item()返回值是 Item 或者字典,也可以返回一個 DropItem類型的數據,此時該項 item 會被忽略,不會被后面的 ItemPipeline處理。

過濾數據的邏輯實現

如果希望在 ItemPipeline實現過濾數據,使用集合即可,發現集合中已經存在數據了,拋出 DropItem即可。

LinkExtractor 提取鏈接

scrapy 編寫的爬蟲在提取大量鏈接時,使用LinkExtractor會更加便捷。 使用 from scrapy.linkextractors import LinkExtractor導入 LinkExtractor,該類的構造函數如下所示:

def __init__(self, allow=(), deny=(),allow_domains=(),deny_domains=(),restrict_xpaths=(),
        tags=('a', 'area'),attrs=('href',),canonicalize=False,unique=True,process_value=None,
        deny_extensions=None,restrict_css=(),strip=True,restrict_text=None,
    )

其中各個參數說明如下:

  • allow:一個正則表達式或正則表達式列表,提取正則表達式匹配的 url,默認全部提取;

  • deny:與 allow 相反;

  • allow_domains:字符串或者列表,domain 限制;

  • deny_domains:與上面相反;

  • restrict_xpaths:按照 xpath 提取;

  • restrict_css:安裝 css 選擇器提取;

  • tags:提取指定標簽內的鏈接;

  • attrs:提取指定屬性內的鏈接;

  • process_value:函數類型,傳入該參數之后,LinkExtractor 會將其匹配到的所有鏈接,都傳入該函數進行處理。

下面的代碼是提取 Response 對象中的鏈接,需要使用 extract_links() 方法。

def parse(self, response):
    link = LinkExtractor()
    all_links = link.extract_links(response)
    print(all_links)
  • 創建一個LinkExtractor對象;

  • 使用構造器參數描述提取規則;

  • 調用LinkExtractor對象的 extract_links 方法傳入一個Response對象,返回一個列表;

  • 使用列表中的任意元素調用 .url 或者 .text 獲取鏈接和鏈接文本。

爬蟲編碼時間

本次的目標站點是:淘數據-行業報告 

python的scrapy?requests與response對象怎么用

 完整代碼編寫如下所示,使用 LinkExtractor 提取頁面超鏈接。

import scrapy
from tao.items import TaoItem
from scrapy.linkextractors import LinkExtractor
class TaoDataSpider(scrapy.Spider):
    name = 'tao_data'
    allowed_domains = ['taosj.com']
    start_urls = [f'https://www.taosj.com/articles?pageNo={page}' for page in range(1, 124)]
    def parse(self, response):
        link_extractor = LinkExtractor(allow=r'www\.taosj\.com/articles/\d+', restrict_css='a.report-page-list-title')
        links = link_extractor.extract_links(response)
        for l in links:
            item = {
                "url": l.url,
                "text": l.text
            }
            yield item

關于“python的scrapy requests與response對象怎么用”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“python的scrapy requests與response對象怎么用”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

龙泉市| 来凤县| 景洪市| 洞口县| 视频| 商洛市| 昭通市| 绥阳县| 道孚县| 桃江县| 象州县| 油尖旺区| 闽清县| 武胜县| 渭南市| 清河县| 农安县| 遂平县| 衡南县| 民权县| 蓬安县| 西安市| 曲松县| 二手房| 咸阳市| 姚安县| 邵武市| 泊头市| 黎平县| 嘉祥县| 江都市| 苗栗市| 西平县| 曲周县| 腾冲县| 慈溪市| 双牌县| 丰原市| 神池县| 金寨县| 咸丰县|