中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python scrapy框架scrapy.Spider的用法

發布時間:2021-10-09 18:02:55 來源:億速云 閱讀:152 作者:柒染 欄目:大數據

這篇文章將為大家詳細講解有關Python scrapy框架scrapy.Spider的用法,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。

Spider 類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。 換句話說,Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

對spider來說,爬取的循環類似下文:

  1. 以初始的URL初始化Request,并設置回調函數。 當該request下載完畢并返回時,將生成response,并作為參數傳給該回調函數。

spider中初始的request是通過調用 start_requests()來獲取的。 start_requests() 讀取 start_urls 中的URL,并以parse 為回調函數生成 Request。

  1. 在回調函數內分析返回的(網頁)內容,返回 Item 對象或者 Request 或者一個包括二者的可迭代容器。 返回的Request對象之后會經過Scrapy處理,下載相應的內容,并調用設置的callback函數(函數可相同)。

  2. 在回調函數內,您可以使用 選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網頁內容,并根據分析的數據生成item。

  3. 最后,由spider返回的item將被存到數據庫(由某些 Item Pipeline處理)或使用 Feed exports存入到文件中。

雖然該循環對任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認spider。 之后將討論這些spider。

Spider

scrapy.spider.Spider 是最簡單的spider。每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 其僅僅請求給定的 start_urls / start_requests ,并根據返回的結果(resulting responses)調用 spider 的 parse 方法。

name

定義 spider 名字的字符串(string)。spider 的名字定義了 Scrapy 如何定位(并初始化) spider ,所以其必須是唯一的。不過您可以生成多個相同的 spider 實例(instance),這沒有任何限制。 name 是 spider 最重要的屬性,而且是必須的。

如果該 spider 爬取單個網站(single domain),一個常見的做法是以該網站(domain)(加或不加后綴 )來命名 spider 。 例如,如果 spider 爬取 mywebsite.com ,該spider通常會被命名為 mywebsite 。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。 當 OwsiteMiddleware 啟用時, 域名不在列表中的URL不會被跟進。

start_urls

URL 列表。當沒有制定特定的 URL 時,spider 將從該列表中開始進行爬取。 因此,第一個被獲取到的頁面的 URL 將是該列表之一。 后續的 URL 將會從獲取到的數據中提取。

start_requests()

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取的第一個 Request。

當 spider 啟動爬取并且未制定 URL 時,該方法被調用。 當指定了URL時,make_requests_from_url() 將被調用來創建Request 對象。 該方法僅僅會被 Scrapy 調用一次,因此您可以將其實現為生成器。

該方法的默認實現是使用 start_urls 的url生成 Request。

如果您想要修改最初爬取某個網站的Request對象,您可以重寫(override)該方法。 例如,如果您需要在啟動時以POST 登錄某個網站,你可以這么寫:

def start_requests(self): 
  return [scrapy.FormRequest("http://www.example.com/login",
                             formdata={'user': 'john', 'pass': 'secret'}, 
                             callback=self.logged_in)] 

def logged_in(self, response): 
## here you would extract links to follow and return Requests for 
## each of them, with another callback 
  pass

parse

當response沒有指定回調函數時,該方法是Scrapy處理下載的response的默認方法。

parse 負責處理response并返回處理的數據以及(/或)跟進的URL。 Spider 對其他的Request的回調函數也有相同的要求。

該方法及其他的Request回調函數必須返回一個包含 Request 及(或) Item 的可迭代的對象。

參數: response– 用于分析的response

closed(reason)

當spider關閉時,該函數被調用。

啟動方式

start_urls

start_urls 是一個列表

start_requests

使用 start_requests() 重寫 start_urls ,要使用 Request() 方法自己發送請求:

def start_requests(self): 
  """重寫 start_urls 規則""" 
  yield scrapy.Request(url='http://quotes.toscrape.com/page/1/', callback=self.parse)

scrapy.Request

scrapy.Request 是一個請求對象,創建時必須制定回調函數。

數據保存

可以使用 -o 將數據保存為常見的格式(根據后綴名保存)

支持的格式有下面幾種:

  • json

  • jsonlines

  • jl

  • csv

  • xml

  • marshal

  • pickle

案例:Spider 樣例

讓我們來看一個例子:

## -*- coding: utf-8 -*- 
import scrapy 

class Quotes2Spider(scrapy.Spider): 
  name = 'quotes2' 
  allowed_domains = ['toscrape.com'] 
  start_urls = ['http://quotes.toscrape.com/page/2/'] 
  def parse(self, response): 
    quotes = response.css('.quote')
    for quote in quotes: 
      text = quote.css('.text::text').extract_first() 
      auth = quote.css('.author::text').extract_first() 
      tages = quote.css('.tags a::text').extract() 
      yield dict(text=text,auth=auth,tages=tages)

url拼接

import urllib.parse 
urllib.parse.urljoin('http://quotes.toscrape.com/', '/page/2/') 
Out[6]: 'http://quotes.toscrape.com/page/2/' 
urllib.parse.urljoin('http://quotes.toscrape.com/page/2/', '/page/3/') 
Out[7]: 'http://quotes.toscrape.com/page/3/'

關于Python scrapy框架scrapy.Spider的用法就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

楚雄市| 克山县| 拉萨市| 巨鹿县| 洮南市| 察哈| 怀化市| 长沙县| 聊城市| 阜城县| 庄浪县| 崇仁县| 中西区| 如东县| 察雅县| 灯塔市| 苍溪县| 呼图壁县| 鄂托克旗| 靖边县| 伊宁县| 沽源县| 浮山县| 大石桥市| 磐石市| 民县| 静安区| 卢湾区| 武强县| 边坝县| 昭平县| 阳信县| 娄烦县| 宾川县| 巩义市| 凤台县| 石泉县| 玉环县| 越西县| 东宁县| 洞口县|