Scrapy的內置數據結構主要是通過Selector和Item來解析網頁。
from scrapy import Selector
# 創建一個Selector對象
selector = Selector(text=html_content)
# 使用XPath選擇器提取數據
title = selector.xpath('//title/text()').extract_first()
import scrapy
class MyItem(scrapy.Item):
title = scrapy.Field()
content = scrapy.Field()
# 在爬蟲中使用Item
item = MyItem()
item['title'] = title
item['content'] = content
通過使用Selector和Item這兩種內置數據結構,可以方便地解析和提取網頁中的數據,并將其保存到Item中進行進一步處理。同時,Scrapy還提供了很多其他功能,如中間件、管道、下載器等,可以幫助更好地實現網頁數據的爬取和處理。