如何使用Scrapy的XPath或CSS選擇器提取網頁數據

要使用Scrapy的XPath或CSS選擇器提取網頁數據，首先需要創建一個Scrapy的Spider，并在Spider中定義要提取數據的規則。在Spider中，可以使用XPath或CSS選擇器來定位和提取頁面中所需的數據。

下面是一個使用XPath提取數據的示例：

import scrapy

class MySpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        data = {}
        data['title'] = response.xpath('//h1/text()').get()
        data['content'] = response.xpath('//div[@class="content"]/p/text()').getall()
        
        yield data

在上面的示例中，我們使用XPath提取了頁面中的標題和內容。response.xpath()方法用于定位節點，然后可以使用get()或getall()方法來獲取節點的文本內容。

類似地，可以使用CSS選擇器來提取數據：

import scrapy

class MySpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        data = {}
        data['title'] = response.css('h1::text').get()
        data['content'] = response.css('.content p::text').getall()
        
        yield data

在上面的示例中，我們使用CSS選擇器提取了相同的數據。response.css()方法用于定位節點，然后可以使用get()或getall()方法來獲取節點的文本內容。

通過使用XPath或CSS選擇器，可以更方便地提取網頁數據，并定制提取規則以適應不同的頁面結構和內容。

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

最新問答

相關標簽