中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

網絡爬蟲以及Scrapy的介紹

發布時間:2020-08-26 16:49:12 來源:億速云 閱讀:129 作者:Leah 欄目:編程語言

網絡爬蟲以及Scrapy的介紹?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

網絡爬蟲

是指程序可以自動獲取多個頁面中的所有信息。如果使用某種技術(如正則表達式、XPath 等)來提取頁面中所有的鏈接(<a.../> 元素),然后順著這些鏈接遞歸打開對應的頁面,最后提取頁面中的信息,這就是網絡爬蟲。

我們來分析網絡爬蟲具體要做哪些核心工作:

通過網絡向指定的 URL 發送請求,獲取服務器響應內容。

使用某種技術(如正則表達式、XPath 等)提取頁面中我們感興趣的信息。

高效地識別響應頁面中的鏈接信息,順著這些鏈接遞歸執行此處介紹的第 1、2、3 步;使用多線程有效地管理網絡通信交互。

如果直接使用 Python 內置的 urllib 和 re 模塊是否能寫出自己的網絡爬蟲呢?答案是肯定的,只是比較復雜。就像我們要從廣州去韶關,走路可以去嗎?答案是肯定的,只是比較麻煩。

下面繼續分析網絡爬蟲的核心工作:

向 URL 發送請求,獲取服務器響應內容。這個核心工作其實是所有網絡爬蟲都需要做的通用工作。一般來說,通用工作應該由爬蟲框架來實現,這樣可以提供更穩定的性能,開發效率更高。

提取頁面中我們感興趣的信息。這個核心工作不是通用的!每個項目感興趣的信息都可能有所不同,但使用正則表達式提取信息是非常低效的,原因是正則表達式的設計初衷主要是處理文本信息,而 HTML 文檔不僅是文本文檔,而且是結構化文檔,因此使用正則表達式來處理 HTML 文檔并不合適。使用 XPath 提取信息的效率要高得多。

識別響應頁面中的鏈接信息。使用正則表達式可以實現這個核心工作,但是效率太低,使用 XPath 會更高效。

多線程管理:這個核心工作是通用的,應該由框架來完成。

現在來回答上面提出的問題,本章有存在的意義嗎?當然有,本章并不介紹使用 urllib、re 模塊這種簡陋的工具來實現正則表達式,而是通過專業的爬蟲框架 Scrapy 來實現爬蟲。

Scrapy 是一個專業的、高效的爬蟲框架,它使用專業的 Twisted 包(基于事件驅動的網絡引擎包)高效地處理網絡通信,使用 lxml(專業的 XML 處理包)、cssselect 高效地提取 HTML 頁面的有效信息,同時它也提供了有效的線程管理。

一言以蔽之,上面列出的網絡爬蟲的核心工作,Scrapy 全部提供了實現,開發者只要使用 XPath 或 css 選擇器定義自己感興趣的信息即可。

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

长丰县| 泽普县| 南昌市| 沈阳市| 福建省| 高阳县| 洞口县| 德化县| 乌什县| 稷山县| 西峡县| 梁河县| 平邑县| 工布江达县| 吐鲁番市| 高密市| 辽源市| 龙州县| 兴隆县| 南康市| 余江县| 西昌市| 南和县| 玉树县| 灵台县| 江油市| 东乡县| 合水县| 祁阳县| 金寨县| 行唐县| 股票| 田林县| 普陀区| 乌鲁木齐市| 西昌市| 陆河县| 台北县| 潜山县| 清远市| 迁西县|