中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

手把手教你寫網絡爬蟲(2):迷你爬蟲架構

發布時間:2020-06-25 22:24:06 來源:網絡 閱讀:1261 作者:Lickm 欄目:編程語言

介紹

大家好!回顧上一期,我們在介紹了爬蟲的基本概念之后,就利用各種工具橫沖直撞的完成了一個小爬蟲,目的就是猛、糙、快,方便初學者上手,建立信心。對于有一定基礎的讀者,請不要著急,以后我們會學習主流的開源框架,打造出一個強大專業的爬蟲系統!不過在此之前,要繼續打好基礎,本期我們先介紹爬蟲的種類,然后選取最典型的通用網絡爬蟲,為其設計一個迷你框架。有了自己對框架的思考后,再學習復雜的開源框架就有頭緒了。

今天我們會把更多的時間用在思考上,而不是一根筋的coding。用80%的時間思考,20%的時間敲鍵盤,這樣更有利于進步。

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


語言&環境

語言:帶足彈藥,繼續用Python開路!

手把手教你寫網絡爬蟲(2):迷你爬蟲架構



threadingthreading庫可以在單獨的線程中執行任何的在Python中可以調用的對象。Python 2.x中的thread模塊已被廢棄,用戶可以使用threading模塊代替。在Python 3中不能再使用thread模塊。為了兼容性,Python 3將thread重命名為_thread。


queuequeue模塊中提供了同步的、線程安全的隊列類,包括FIFO(先入先出)隊列Queue,LIFO(后入先出)隊列LifoQueue,和優先級隊列PriorityQueue。這些隊列都實現了鎖原語,能夠在多線程中直接使用。可以使用隊列來實現線程間的同步。


rePython 自1.5版本起增加了re模塊,它提供Perl風格的正則表達式模式。re模塊使 Python語言擁有全部的正則表達式功能。


argparsePython用于解析命令行參數和選項的標準模塊,用于代替已經過時的optparse模塊。argparse模塊的作用是用于解析命令行參數。


configparser讀取配置文件的模塊。


爬蟲的種類

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


網絡爬蟲按照系統結構和實現技術,大致可以分為以下幾種類型:通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。


通用網絡爬蟲

通用網絡爬蟲又稱全網爬蟲(Scalable Web Crawler),爬取對象從一些種子 URL 擴充到整個 Web。主要為門戶站點搜索引擎和大型 Web 服務提供商采集數據。

通用網絡爬蟲的結構大致可以分為頁面爬取模塊 、頁面分析模塊、鏈接過濾模塊、頁面存儲模塊、URL 隊列、初始 URL 集合幾個部分。為提高工作效率,通用網絡爬蟲會采取一定的爬取策略。 常用的爬取策略有:深度優先策略、廣度優先策略。

1) 深度優先策略(DFS):其基本方法是按照深度由低到高的順序,依次訪問下一級網頁鏈接,直到不能再深入為止。

2) 廣度優先策略(BFS):此策略按照網頁內容目錄層次深淺來爬取頁面,處于較淺目錄層次的頁面首先被爬取。 當同一層次中的頁面爬取完畢后,爬蟲再深入下一層繼續爬取。


聚焦網絡爬蟲

聚焦網絡爬蟲(Focused Crawler),又稱主題網絡爬蟲(Topical Crawler),是指選擇性地爬取那些與預先定義好的主題相關頁面的網絡爬蟲。 和通用網絡爬蟲相比,聚焦爬蟲只需要爬取與主題相關的頁面,極大地節省了硬件和網絡資源,保存的頁面也由于數量少而更新快,還可以很好地滿足一些特定人群對特定領域信息的需求。我們之前爬的歌單就屬于這一種。


增量式網絡爬蟲

增量式網絡爬蟲(Incremental Web Crawler)是 指 對 已 下 載 網 頁 采 取 增 量式更新和只爬取新產生的或者已經發生變化網頁的爬蟲,它能夠在一定程度上保證所爬取的頁面是盡可能新的頁面。 和周期性爬取和刷新頁面的網絡爬蟲相比,增量式爬蟲只會在需要的時候爬取新產生或發生更新的頁面 ,并不重新下載沒有發生變化的頁面,可有效減少數據下載量,及時更新已爬取的網頁,減小時間和空間上的耗費,但是增加了爬取算法的復雜度和實現難度。現在比較火的輿情爬蟲一般都是增量式網絡爬蟲。


深網爬蟲

Web 頁面按存在方式可以分為表層網頁(Surface Web)和深層網頁(Deep Web,也稱 Invisible Web Pages 或 Hidden Web)。 表層網頁是指傳統搜索引擎可以索引的頁面,以超鏈接可以到達的靜態網頁為主構成的 Web 頁面。Deep Web 是那些大部分內容不能通過靜態鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關鍵詞才能獲得的 Web 頁面。例如那些用戶注冊后內容才可見的網頁就屬于 Deep Web。


一個迷你框架

下面以比較典型的通用爬蟲為例,分析其工程要點,設計并實現一個迷你框架。架構圖如下:

手把手教你寫網絡爬蟲(2):迷你爬蟲架構

代碼結構:

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


config_load.py    配置文件加載

crawl_thread.py    爬取線程

mini_spider.py    主線程

spider.conf    配置文件

url_table.py    url隊列、url表

urls.txt    種子url集合

webpage_parse.py    網頁分析

webpage_save.py    網頁存儲


看看配置文件里有什么內容:

spider.conf

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


Step 1. 采用BFS還是DFS?

理論上,這兩個算法都能夠在大致相同的時間里爬取整個互聯網上的內容。但顯然各個網站最重要的網頁應該是它的首頁。在極端情況下,如果只能下載非常有限的網頁,那么應該下載的所有網站的首頁,如果把爬蟲再擴大些,應該爬取從首頁直接鏈接的網頁,因為這些網頁是網站設計者自己認為相當重要的網頁。在這個前提下,顯然BFS明顯優于DFS。事實上在搜索引擎的爬蟲里,主要采用的就是BFS。我們的框架采取這種策略。

抓取深度可以通過配置文件中的max_depth設置,只要沒到達指定深度,程序就會不停的將解析出的url放入隊列中:

mini_spider.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


Step 2. 初始URL集合、URL隊列

我們來看看通用爬蟲如何下載整個互聯網。假設從一家門戶網站的首頁出發,先下載這個網頁(深度=0),然后通過分析這個網頁,可以找到頁面里的所有超鏈接,也就等于知道了這家門戶網站首頁所直接連接的全部網頁,諸如京東理財、京東白條,京東眾籌等(深度=1)。接下來訪問、下載并分析京東理財等網頁,又能找到其他相連的網頁(深度=2)。讓計算機不停的做下去,就能下載整個網站。

在這個過程中,我們需要一個“初始URL集合”保存門戶的首頁,還需要一個“URL隊列”保存分析網頁得到的超鏈接。

mini_spider.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


url_table.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


Step 3. 記錄哪些網頁已經下載過的小本本——URL表。

在互聯網上,一個網頁可能被多個網頁中的超鏈接所指向。這樣在遍歷互聯網這張圖的時候,這個網頁可能被多次訪問到。為了防止一個網頁被下載和解析多次,需要一個URL表記錄哪些網頁已經下載過。再遇到這個網頁的時候,我們就可以跳過它。

crawl_thread.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


Step 4. 多個抓取線程

為了提升爬蟲性能,需要多個抓取線程,從URL隊列獲取鏈接進行處理。多線程并沒什么毛病,但Python的多線程可能會引起很多人的質疑,這源于Python設計之初的考慮:GIL。GIL的全稱是Global Interpreter Lock(全局解釋器鎖),某個線程想要執行,必須先拿到GIL,并且在一個Python進程中,GIL只有一個。結果就是Python里一個進程永遠只能同時執行一個線程,這就是為什么在多核CPU上,Python的多線程效率并不高。那么我們為什么還要用Python多線程呢?

CPU密集型代碼(各種循環處理、編解碼等等),在這種情況下,由于計算工作多,ticks計數很快就會達到閾值,然后觸發GIL的釋放與再競爭(多個線程來回切換當然是需要消耗資源的),Python下的多線程對CPU密集型代碼并不友好。

IO密集型代碼(文件處理、網絡爬蟲等),多線程能夠有效提升效率(單線程下有IO操作會進行IO等待,造成不必要的時間浪費,而開啟多線程能在線程A等待時,自動切換到線程B,可以不浪費CPU的資源,從而能提升程序執行效率)。Python的多線程對IO密集型代碼比較友好。

所以,對于IO密集的爬蟲程序,使用Python多線程是沒問題的。

crawl_thread.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


Step 5. 頁面分析模塊

從網頁中解析出URLs或者其他有用的數據。這個是上期重點介紹的,可以參考之前的代碼。


Step 6. 頁面存儲模塊

保存頁面的模塊,目前將文件保存為文件,以后可以擴展出多種存儲方式,如mysqlmongodb,hbase等等。

webpage_save.py

手把手教你寫網絡爬蟲(2):迷你爬蟲架構


寫到這里,整個框架已經清晰的呈現在大家眼前了,千萬不要小看它,不管多么復雜的框架都是在這些基本要素上擴展出來的。


下一步

基礎知識的學習暫時告一段落,希望能夠幫助大家打下一定的基礎。下期開始為大家介紹強大成熟的爬蟲框架Scrapy,它提供了很多強大的特性來使得爬取更為簡單高效,更多精彩,敬請期待!

最后,初學者進階的福音

想學習,基礎不夠?沒關系,我們提供免費提供VIP基礎學習課程,讓你快速入門,掌握Python!

 

有基礎的小伙伴想學習項目實戰?沒問題,每晚八點都有博士大牛帶你學習操作項目!

 

只要你有一顆想學習的心,我們隨時歡迎~


手把手教你寫網絡爬蟲(2):迷你爬蟲架構




向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

班玛县| 温泉县| 九寨沟县| 岳池县| 吴旗县| 乐业县| 毕节市| 新丰县| 衡东县| 青浦区| 女性| 德保县| 乌拉特中旗| 芷江| 丰都县| 山阴县| 福州市| 阆中市| 吉木萨尔县| 安庆市| 保靖县| 都江堰市| 会宁县| 蒲城县| 平罗县| 定兴县| 白山市| 太仆寺旗| 三门县| 贵定县| 平武县| 兴宁市| 申扎县| 阿克苏市| 庆阳市| 双峰县| 中山市| 龙州县| 赣榆县| 襄垣县| 锦屏县|