scrapy框架的簡單介紹

發布時間：2021-09-15 17:40:37 來源：億速云閱讀：146 作者：chen 欄目：編程語言

這篇文章主要介紹“scrapy框架的簡單介紹”，在日常操作中，相信很多人在scrapy框架的簡單介紹問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”scrapy框架的簡單介紹”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

1.Scrapy五大基本構成

Scrapy框架主要由五大組件組成，分別是調度器(Scheduler)、下載器(Downloader)、爬蟲（Spider）和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)；
調度器：可以假設成一個URL的優先隊列，由它來決定下一個要抓取的網址是什么，同時去除重復的網址；
下載器：是所有組件中負擔最大的，用于高速地下載網絡上的資源；
爬蟲：是用戶最關心的部份，用戶定制自己的爬蟲，用于從特定的網頁中提取自己需要的信息，也可以從中提取出鏈接，讓Scrapy繼續抓取下一個頁面；
實體管道：用于處理爬蟲提取的實體，要的功能是持久化實體、驗證實體的有效性、清除不需要的信息；
Scrapy引擎：是整個框架的核心，用來控制調試器、下載器、爬蟲，實際上引擎相當于計算機的CPU，控制著整個流程；

2.使用scrapy框架爬取網頁數據

第一步：首先要使用scrapy框架需要先安裝它，可以使用pip安裝scrapy框架，注意如果在Windows系統下直接使用pip命令行安裝可能會報錯，這時需要手動安裝幾個依賴庫如wheel、lxml、Twisted、pywin32等，報錯信息會提示你缺少哪個庫。
這里提一下Twisted插件的安裝，它的下載地址為： https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted ，進入后找到twisted，選擇下載對應的版本，其中cp表示python版本，下載完成后進入終端，輸入pip install Twisted-19.2.0-cp37-cp37m-win_amd64.whl，這里注意你下載的是哪個版本就輸入哪個版本的文件名，安裝完成后再輸入pip install scrapy就能成功安裝scrapy框架了；
第二步：創建爬蟲項目，創建儲存 scrapy 文件夾scrapy_python，然后在命令行工具中cd進入這個項目路徑，用 scrapy startproject 名稱命令新建項目；

scrapy框架的簡單介紹

這樣我們就成功的創建了一個scrapy項目，我們在PyCharm中看看

scrapy框架的簡單介紹

第三步：可以在剛剛創建的項目的spiders文件夾中創建一個蜘蛛文件，用于爬取網頁數據的，我們試著爬取一下csdn網站，那么新建蜘蛛的命令行是：scrapy genspider csdn www.csdn.net，其中csdn是你創建的蜘蛛的文件名，而www.csdn.net表示爬取的目標網址的域名，你想爬取哪個網站就使用哪個網站的域名。

第四步：如果要啟動我們創建的蜘蛛文件，我們可以使用命令行：scrapy crawl csdn，這里的csdn是蜘蛛文件中name的對應值；

scrapy框架的簡單介紹

第五步：想要測試爬去數據是否成功，我們可以在項目的模板中創建一個測試文件，如：start_spider.py，然后通過debug來進行項目調試，可以輸出我們想要爬取的網頁數據；

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "csdn",])

第六步：爬取數據時需要遵循爬蟲協議，它用來限定爬蟲程序可以爬取的內容范圍，位于scrapy 項目的 settings.py文件中默認 ROBOTSTXT_OBEY = True，即遵守此協議，當我們想要爬取的內容不符合該協議但仍要爬取時，可以設置 ROBOTSTXT_OBEY = False，表示不遵守此協議；
第七步：這樣我們就可以開始使用Xpath選擇器或者CSS選擇器來解析想要爬取的頁面數據了；

3.Xpath選擇器的介紹

XPath的全稱是XML Path Language，即XML路徑語言，它是一種在結構化文檔中定位信息的語言，XPath使用路徑表達式來選取XML文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的；
謂語用來查找某個特定的節點或者包含某個指定的值的節點，謂語嵌在方括號中，比如//body//a[1]表示選取屬于body 子元素的第一個 a 元素，//a[ @href ]表示選取所有擁有名為 href 的屬性的 a 元素等；
除了索引、屬性外，Xpath還可以使用便捷的函數來增強定位的準確性，如contains(s1,s2)表示如果s1中包含s2則返回true，反之返回false、text()表示獲取節點中的文本內容、starts-with()表示從起始位置匹配字符串；
使用XPath選取節點的常用語法有

表達式書寫方式	表達式意義
*	選擇HTML頁面中任意的節點
/	從根節點選取
//	從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置
.	選取當前節點
..	選取當前節點的父節點
/bookstore/book[1]	選取屬于 bookstore 子元素的第一個 book 元素
/bookstore/book[last()]	選取屬于 bookstore 子元素的最后一個 book 元素
/bookstore/book[last()-1]	選取屬于 bookstore 子元素的倒數第二個 book 元素
//title[ @lang ]	選取所有擁有名為 lang 的屬性的 title 元素
//title[ @lang =’eng’]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00
//*	選取文檔中的所有元素
//title[@*]	選取所有帶有屬性的 title 元素
//book/title ， //book/price	選取 book 元素的所有 title 和 price 元素
//title , //price	選取文檔中的所有 title 和 price 元素
child::book	選取所有屬于當前節點的子元素的 book 節點
child::text()	選取當前節點的所有文本子節點
/bookstore/book/title	選取所有 title 節點
/bookstore/book/price/text()	選取 price 節點中的所有文本
//*	任意元素

使用XPath

我們來通過XPath選擇器爬取網站中我們想要爬取的信息，如下圖我們來爬去今日推薦中的標題
scrapy框架的簡單介紹

import scrapy
class CsdnSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       # 選擇所有class="company_name"的h4元素下的a元素的文本 
       result = response.xpath('//h4[@class="company_name"]/a/text()').extract()
       # 將得到的文本列表循環 
       for i in result:
           print(i)

我們來看一下輸出打印，看看是不是我們想要的結果

scrapy框架的簡單介紹

到此，關于“scrapy框架的簡單介紹”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注億速云網站，小編會繼續努力為大家帶來更多實用的文章！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

scrapy框架的簡單介紹

1.Scrapy五大基本構成

2.使用scrapy框架爬取網頁數據

3.Xpath選擇器的介紹

使用XPath

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

scrapy框架的簡單介紹

1.Scrapy五大基本構成

2.使用scrapy框架爬取網頁數據

3.Xpath選擇器的介紹

使用XPath

猜你喜歡

最新資訊

相關推薦

相關標簽