中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python 爬蟲網頁內容提取工具xpath

發布時間:2020-08-10 16:47:12 來源:ITPUB博客 閱讀:208 作者:程序員啟航 欄目:編程語言

上一節,我們詳述了lxml.html的各種操作,接下來我們熟練掌握一下XPath,就可以熟練的提取網頁內容了。

XPath 是什么?

XPath的全稱是 XML Path Language,即XML 路徑語言,是一種在XML(HTML)文檔中查找信息的語言。它有4點特性:

  • XPath 使用路徑表達式在 XML 文檔中進行導航
  • XPath 包含一個標準函數庫
  • XPath 是 XSLT 中的主要元素
  • XPath 是一個 W3C 標準

Python 爬蟲網頁內容提取工具xpath

我們從網頁中提取數據,主要應用前兩點。

XPath 路徑表達式

使用XPath我們可以很容易定位到網頁中的節點,也就是找到我們關心的數據。這些路徑跟電腦目錄、網址的路徑很相似,通過 / 來表示路徑的深度。

XPath 標注函數庫

頭內建了100多個函數,當然我們提取數據用到的有限,也就不用記住全部100多個函數了。

Xpath 的節點(Node)

XPath中的核心就是節點(Node),定義了7種不同類型的節點: 元素(Element)、屬性(Attribute)、文本(Text)、命名空間(Namespace)、處理指令(processing-instruction)、注釋(Comment)和文檔節點(Document nodes)
這些節點組成一棵節點樹,樹的根節點被稱為文檔節點。
其中注釋就是html里面的注釋:``
而命名空間、處理指令和網頁數據提取基本沒關系,這里就不再詳述。

下面我們以一個簡單的html文檔為例,來解釋不同的節點及其關系。

<html> <body>     <div>ABC</div>     <ul id="menu">         <li>home</li>         <li>python</li>     </ul> </body> </html>

這段html中的節點有:

  • 文檔節點:  <html>
  • 元素節點: <li>python</li>
  • 屬性節點:  id="menu"

XPath 節點的關系

節點間的關系完全照搬人類傳宗接代的輩分關系,但只是直系關系,沒有叔叔、大伯之類的旁系關系。
還是以上面的html文檔為例來說明節點關系:

父(Parent)

每個元素節點(Element)及其屬性都有一個父節點。
比如,body的父是html,而body是div、ul 的父親。

子(Children)

每個元素節點可以有零個、一個或多個子。
比如,body有兩個子:div,ul,而ul也有兩個子:兩個li。

同輩(Sibling)

同輩有相同的父輩節點。
比如,div和ul是同輩。

先輩(Ancestor)

某節點的父輩及其以上輩分的節點。
比如,li的父輩有:ul、div、body、html

后代(Descendant)

某節點的子及其子孫節點。
比如,body的后代有:div、ul、li。

XPath節點的選取

選取節點,也就是通過路徑表達來實現。這是我們在網頁提取數據時的關鍵, 要熟練掌握

下表是比較有用的路徑表達式:

表達式 說明
nodename 選取當前節點的名為nodename的所有子節點。
/ 從根節點選取,在路徑中間時表示一級路徑
// 從當前節點開始選擇文檔中的節點,可以是多級路徑
. 從當前節點開始選取
.. 從父節點開始選取
@ 按屬性選取

接下來通過具體的示例來加深對路徑表達的理解:

路徑表達式 解釋
/html/body/ul/li 從根節點開始依照路徑選取li元素。返回多個。
//ul/li[1] 還是選取li元素,但是路徑多級跳躍到ul/li。[1]表示只取第一個li。
//li[last()] 還是選取li,但路徑更跳躍。[last()]表示取最后一個li元素。
//li[@class] 選取根節點的名為li且有class屬性的所有后代。
//li[@class=”item”] 選擇根節點的名為li且class屬性為item的所有后代。
//body/*/li 選取body的名為li的孫子節點。 * 是通配符,表示任何節點。
//li[@*] 選取所有帶屬性的li元素。
//body/div ` ` //body/ul 選取body的所有div和ul元素。
body/div 相對路徑,選取當前節點的body元素的子元素div。絕對路徑以 / 開始。

XPath函數

Xpath的函數很多,涉及到錯誤、數值、字符串、時間等等,然而我們從網頁中提取數據的時候只會用到很少的一部分。其中最重要的就是字符串相關的函數,比如contains()函數。

contains(a, b)

如果字符串a包含字符串b,則返回true,否則返回false。
比如: contains(‘猿人學Python’, ‘Python’),返回true
那么它用在什么時候呢?我們知道,一個html標簽的class是可以有多個屬性值的,比如:

<div class="post-item text-red text-center">     ... </div>

這段html中div有三個class值,第一個表面它是一條發布的消息,后面兩個是對格式做了更多的設置。如果我們想提取網頁中所有發布的消息,只需要匹配到 post-item  即可,這時候就可以用上contains了:

doc.xpath('//div[contains(@class, "post-item")]')

跟contains()類似的字符串匹配的函數還有:

  • starts-with(string1, string2) 判斷string1是否以string2開頭
  • ends-with(string1, string2) 判斷string1是否以string2結尾
  • matches(string, pattern) 通過正則表達式匹配

然而,在lxml的xpath中使用ends-with(), matches() 會報錯

In [232]: doc.xpath('//ul[ends-with(@id, "u")]') --------------------------------------------------------------------------- XPathEvalError                            Traceback (most recent call last) <ipython-input-232-79a4afc46a75> in <module>() ----> 1 doc.xpath('//ul[ends-with(@id, "u")]') src/lxml/etree.pyx in lxml.etree._Element.xpath() src/lxml/xpath.pxi in lxml.etree.XPathElementEvaluator.__call__() src/lxml/xpath.pxi in lxml.etree._XPathEvaluatorBase._handle_result() XPathEvalError: Unregistered function

lxml 竟然不支持ends-with(), matches()函數
到lxml官方網站去看看,原來它說了只支持 XPath 1.0:

lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way.

接著又在Wikipedia上找到Xpath 2.0 和 1.0 的差異對比,果然ends-with(), matches() 只屬于2.0。下圖中,粗體部分是1.0包含的,其它是2.0也有的:

Python 爬蟲網頁內容提取工具xpath
XPath 2.0 和 1.0 的差異

好了,Xpath在網頁內容提取中要用到的部分已經講完了


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

石屏县| 阿拉善左旗| 新竹县| 韶山市| 泰兴市| 开化县| 左权县| 潞城市| 石河子市| 拉孜县| 罗田县| 西乌珠穆沁旗| 和顺县| 龙岩市| 石家庄市| 海晏县| 泰宁县| 泗水县| 疏附县| 江都市| 陵水| 海兴县| 通河县| 于都县| 蒙山县| 潜江市| 广汉市| 尖扎县| 布尔津县| 汉沽区| 抚宁县| 渭源县| 噶尔县| 江门市| 玉山县| 建湖县| 栾城县| 巴东县| 互助| 汾阳市| 剑川县|