如何使用lxml模塊獲取標簽內所有文本

發布時間：2021-11-10 18:24:22 來源：億速云閱讀：384 作者：柒染欄目：大數據

如何使用lxml模塊獲取標簽內所有文本，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

python3使用lxml獲取如下形式的文本時出現了問題。

例：

獲取的內容為12345

最開始對html文本使用 etree.HTML(html)解析，得到Element對象。

from lxml import etree
str="""
<div>
<a href="xxxx">123</a>
<a href="xxxx">45</a>
<div>
""
root= etree.HTML(str)
root.xpath("//div//text()")

發現并沒有直接獲取12345文本方法

后來網上調查發現lxml操作html有一個專門的html模塊html，然后找到了解決該問題的關鍵方法text_content()，這個方法在上面的寫法中是不存在的于是解決方案如下。

from lxml import html
root = html.fromstring('''<div><a href="xxxx">123</a><a href="xxxx">45</a><div>''')

root.xpath("//div").text_content()

關于如何使用lxml模塊獲取標簽內所有文本問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站