Python網絡爬蟲框架scrapy的結構是什么

發布時間：2023-04-26 11:50:38 來源：億速云閱讀：134 作者：iii 欄目：開發技術

本篇內容介紹了“Python網絡爬蟲框架scrapy的結構是什么”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

scrapy不是一個簡單的函數功能庫，而是一個爬蟲框架

爬蟲框架：

ENGINE ：已有的，核心，控制所有模塊之間的數據流，根據條件觸發事件
SCHEDULER：已有的，對所有的爬蟲請求進行調度管理
ITEM PIPELINES ：框架出口，用戶編寫，以流水線方式處理Spider產生的爬取項，由一組操作順序組成，類似流水線，每個操作是一個item pipline類型，可能操作包括：清理，檢驗和查重爬取項中的HTML數據，將數據存儲到數據庫
SPIDERS ：框架入口，用戶編寫，解析downloader返回的響應，產生爬取項，以及額外的爬取請求
DOWNLOADER ：已有的，根據請求下載網頁
2個MIDDLEWARE：Download Middleware：實施Engine，Scheduler和Downloader之間用戶可配置的控制，即用戶可以修改、丟棄、新增請求或響應。Spider Middleware，對spider的請求和爬取項的再處理。修改、丟棄、新增請求或爬取項。

相同點：兩者都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線。兩者可用性好，文檔豐富，入門簡單。兩者都沒有處理js、提交表單、應對驗證碼等功能（可擴展）

不同點：

“Python網絡爬蟲框架scrapy的結構是什么”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站