要使用XPath解析HTML,可以使用Python中的lxml庫。以下是一個簡單的例子:
pip install lxml
import requests
from lxml import etree
url = 'https://example.com' # 要解析的網頁URL
response = requests.get(url)
html = response.text
tree = etree.HTML(html)
xpath
方法來執行XPath查詢,并返回符合條件的所有元素:# 例如,獲取所有的標題元素
titles = tree.xpath('//h1')
# 例如,提取所有標題的文本內容
for title in titles:
print(title.text)
通過以上步驟,就可以使用XPath解析HTML并提取需要的內容了。在XPath表達式中,可以使用各種定位元素的語法來選擇元素,例如標簽名、屬性、層級關系等。具體的XPath語法可以參考XPath教程。