中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Link Extractors在python分布式爬蟲中的使用方法

發布時間:2020-11-30 13:56:19 來源:億速云 閱讀:190 作者:小新 欄目:編程語言

這篇文章將為大家詳細講解有關Link Extractors在python分布式爬蟲中的使用方法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

LinkExtractors

class scrapy.linkextractors.LinkExtractor

Link Extractors 的目的很簡單: 提取鏈接?

每個LinkExtractor有唯一的公共方法是 extract_links(),它接收一個 Response 對象,并返回一個 scrapy.link.Link 對象。

Link Extractors要實例化一次,并且 extract_links 方法會根據不同的 response 調用多次提取鏈接?

class scrapy.linkextractors.LinkExtractor(
    allow = (),
    deny = (),
    allow_domains = (),
    deny_domains = (),
    deny_extensions = None,
    restrict_xpaths = (),
    tags = ('a','area'),
    attrs = ('href'),
    canonicalize = True,
    unique = True,
    process_value = None
)

主要參數: 

  • allow:滿足括號中“正則表達式”的值會被提取,如果為空,則全部匹配。

  • deny:與這個正則表達式(或正則表達式列表)不匹配的URL一定不提取。

  • allow_domains:會被提取的鏈接的domains。

  • deny_domains:一定不會被提取鏈接的domains。

  • restrict_xpaths:使用xpath表達式,和allow共同作用過濾鏈接。

關于Link Extractors在python分布式爬蟲中的使用方法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

简阳市| 龙口市| 南阳市| 五家渠市| 丹江口市| 方正县| 景洪市| 淳安县| 宁河县| 祁东县| 囊谦县| 谷城县| 永昌县| 通海县| 兴海县| 唐山市| 衡山县| 鄂州市| 柳江县| 阿克陶县| 江安县| 措美县| 合作市| 阿拉尔市| 泾源县| 玉树县| 年辖:市辖区| 东海县| 松阳县| 页游| 峨眉山市| 汝阳县| 深州市| 盐亭县| 光山县| 霸州市| 京山县| 安平县| 鄄城县| 和硕县| 马边|