中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

網絡爬蟲是什么意思

發布時間:2020-09-21 10:08:16 來源:億速云 閱讀:267 作者:Leah 欄目:編程語言

這期內容當中小編將會給大家帶來有關網絡爬蟲是什么意思,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

下面我們來分析網絡爬蟲具體要做哪些核心工作:

通過網絡向指定的 URL 發送請求,獲取服務器響應內容。

使用某種技術(如正則表達式、XPath 等)提取頁面中我們感興趣的信息。

高效地識別響應頁面中的鏈接信息,順著這些鏈接遞歸執行此處介紹的第 1、2、3 步;

使用多線程有效地管理網絡通信交互。

如果直接使用 Python 內置的 urllib 和 re 模塊是否能寫出自己的網絡爬蟲呢?答案是肯定的,只是比較復雜。就像我們要從廣州去韶關,走路可以去嗎?答案是肯定的,只是比較麻煩。

下面繼續分析網絡爬蟲的核心工作:

向 URL 發送請求,獲取服務器響應內容。這個核心工作其實是所有網絡爬蟲都需要做的通用工作。一般來說,通用工作應該由爬蟲框架來實現,這樣可以提供更穩定的性能,開發效率更高。提取頁面中我們感興趣的信息。這個核心工作不是通用的!每個項目感興趣的信息都可能有所不同,但使用正則表達式提取信息是非常低效的,原因是正則表達式的設計初衷主要是處理文本信息,而 HTML 文檔不僅是文本文檔,而且是結構化文檔,因此使用正則表達式來處理 HTML 文檔并不合適。使用 XPath 提取信息的效率要高得多。識別響應頁面中的鏈接信息。使用正則表達式可以實現這個核心工作,但是效率太低,使用 XPath 會更高效。多線程管理:這個核心工作是通用的,應該由框架來完成。

上述就是小編為大家分享的網絡爬蟲是什么意思了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

河池市| 泗水县| 子洲县| 蒙城县| 信阳市| 海丰县| 古田县| 永济市| 陇西县| 九龙坡区| 平潭县| 游戏| 临武县| 灵丘县| 崇州市| 定兴县| 浏阳市| 晋中市| 小金县| 宽甸| 锦州市| 沅陵县| 修文县| 贵阳市| 敦煌市| 南涧| 朝阳区| 新乐市| 化隆| 兖州市| 同仁县| 西乡县| 肥城市| 永济市| 保山市| 合肥市| 台安县| 汉阴县| 都昌县| 务川| 扶余县|