Python寫爬蟲都會使用什么庫

發布時間：2020-07-09 15:21:53 來源：億速云閱讀：155 作者：Leah 欄目：編程語言

今天就跟大家聊聊有關Python寫爬蟲都會使用什么庫，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結了以下內容，希望大家根據這篇文章可以有所收獲。

Python爬蟲，全稱Python網絡爬蟲，是一種按照一定的規則，自動地抓取萬維網信息的程序或腳本，主要用于抓取證券交易數據、天氣數據、網站用戶數據和圖片數據等，Python為支持網絡爬蟲正常功能實現，內置了大量的庫，主要有幾種類型。下面本篇文章就來給大家介紹。

一、Python爬蟲網絡庫

Python爬蟲網絡庫主要包括：urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、Unirest for Python、hyper、PySocks、treq以及aiohttp等。

二、Python網絡爬蟲框架

Python網絡爬蟲框架主要包括：grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。

三、HTML/XML解析器?

●　lxml：C語言編寫高效HTML/ XML處理庫。支持XPath。

●　cssselect：解析DOM樹和CSS選擇器。

●　pyquery：解析DOM樹和jQuery選擇器。

●　BeautifulSoup：低效HTML/ XML處理庫，純Python實現。

●　html5lib：根據WHATWG規范生成HTML/ XML文檔的DOM。該規范被用在現在所有的瀏覽器上。

●　feedparser：解析RSS/ATOM feeds。

●　MarkupSafe：為XML/HTML/XHTML提供了安全轉義的字符串。

●　xmltodict：一個可以讓你在處理XML時感覺像在處理JSON一樣的Python模塊。

●　xhtml2pdf：將HTML/CSS轉換為PDF。

●　untangle：輕松實現將XML文件轉換為Python對象。

四、文本處理

用于解析和操作簡單文本的庫。

●　difflib：（Python標準庫）幫助進行差異化比較。

●　Levenshtein：快速計算Levenshtein距離和字符串相似度。

●　fuzzywuzzy：模糊字符串匹配。

●　esmre：正則表達式加速器。

●　ftfy：自動整理Unicode文本，減少碎片化。

五、特定格式文件處理

解析和處理特定文本格式的庫。

●　tablib：一個把數據導出為XLS、CSV、JSON、YAML等格式的模塊。

●　textract：從各種文件中提取文本，比如 Word、PowerPoint、PDF等。

●　messytables：解析混亂的表格數據的工具。

●　rows：一個常用數據接口，支持的格式很多（目前支持CSV，HTML，XLS，TXT：將來還會提供更多！）。

看完上述內容，你們對Python寫爬蟲都會使用什么庫有進一步的了解嗎？如果還想了解更多知識或者相關內容，請關注億速云行業資訊頻道，感謝大家的支持。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python寫爬蟲都會使用什么庫

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Python寫爬蟲都會使用什么庫

猜你喜歡

最新資訊

相關推薦

相關標簽