Python中的爬蟲框架,有Cola、Scrapy、PySpider、Portia常見的幾種。
1.Cola
Cola是一個分布式的爬蟲框架,對于用戶來說,只需編寫幾個特定的函數,而無需關注分布式運行的細節,任務會自動分配到多臺機器上,整個過程對用戶是透明的。
2.Scrapy
Scrapy是一個為爬取網站數據,提取結構性數據而編寫的應用框架,Scrapy可以應用在包括數據挖掘、信息處理或存儲歷史數據等一系列的程序中。
3.PySpider
pyspider是一個利用python實現的網絡爬蟲系統,使用PySpider可以在瀏覽器界面中編寫腳本,且PySpider具有調度和爬取結果實時查看功能,PySpider可以在后端中使用常用的數據庫進行爬取結果并存儲,還能定時設置任務與任務優先級等。
4.Portia
Portia是一個開源可視化爬蟲工具,Portia是創建一個蜘蛛來從頁面提取數據,使用Portia可以在不會任何編程基礎的情況下對網站進行爬取。