您好,登錄后才能下訂單哦!
前幾天給大家分享了如何在Windows下創建網絡爬蟲虛擬環境及如何安裝Scrapy,還有Scrapy安裝過程中常見的問題總結及其對應的解決方法,感興趣的小伙伴可以戳鏈接進去查看。關于Scrapy的介紹,之前也在文章中提及過,今天小編帶大家進入Scrapy爬蟲框架,創建Scrapy爬蟲框架的第一個項目,具體過程如下所示。
1、進入虛擬環境,不知道進入的環境的小伙伴可以戳這篇文章:在Windows下如何創建指定的虛擬環境和在Windows下如何創建虛擬環境(默認情況下)。進入到環境之后可以通過“pip list”命令查看Scrapy是否安裝成功,如下圖所示。
可以看到Scrapy已經安裝成功。
2、這里小編欲將Scrapy項目放到demo文件夾下,所以先退回到上級目錄中去,如下圖所示。
3、爾后開始新建Scrapy項目,輸入創建Scrapy爬蟲項目命令“scrapy startproject article”,其中article是爬蟲項目的名稱,可以自行更改的。輸入創建命令之后,稍等片刻,系統會根據模板進行創建項目,模板所在的目錄是“D:pythonDemo?8Septemberdemoscrapy_demoLibsite-packagesscrapy emplatesproject”,與你的爬蟲環境相關,如下圖所示,等待項目創建完成。當然我們可以自定義爬蟲模板,不過目前來看,Scrapy爬蟲框架提供的模板夠我們用的了,我們能把Scrapy搞明白也就可以了。
4、根據上圖提示,首先進入到article文件夾下,輸入命令“cd article”,之后通過“dir”查看目錄,也可以通過“tree /f”生成文件目錄的樹形結構,如下圖所示,可以很清晰的看到Scrapy創建命令生成的文件。
頂層的article文件夾是項目名。
第二層中包含的是一個與項目名同名的文件夾article和一個文件scrapy.cfg,這個與項目同名的文件夾article是一個模塊,所有的項目代碼都在這個模塊內添加,而scrapy.cfg文件是整個Scrapy項目的配置文件。
第三層中有5個文件和一個文件夾,其中__init__.py是個空文件,作用是將其上級目錄變成一個模塊;items.py是定義儲對象的文件,決定爬取哪些項目;middlewares.py文件是中間件,一般不用進行修改,主要負責相關組件之間的請求與響應;pipelines.py是管道文件,決定爬取后的數據如何進行處理和存儲;settings.py是項目的設置文件,設置項目管道數據的處理方法、爬蟲頻率、表名等;spiders文件夾中放置的是爬蟲主體文件(用于實現爬蟲邏輯)和一個__init__.py空文件。
5、在Windows文件夾下也可以很清晰的看到新建的Scrapy文件,如下圖所示。
6、當然,也可以通過Pycharm導入項目的方式進行查看項目文件,此時更加的清晰,如下圖所示。
7、點擊各個項目文件,可以查看其中的內容,其中settings.py文件的內容如下圖所示,其他的文件內容在此就不再贅述了。
至此,第一個Scrapy爬蟲項目的創建及Scrapy爬蟲項目中的文件解析介紹就先到這里了,下一步開始進行Scrapy爬蟲項目的進階內容,敬請期待~~
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。