在使用BeautifulSoup處理HTML中的特殊字符和轉義序列時,可以使用BeautifulSoup的prettify()方法來獲取整個HTML文檔的標準格式化表示,這樣可以自動處理特殊字符和轉義序列。另外,可以使用BeautifulSoup的get_text()方法來獲取HTML文檔中的純文本內容,這樣可以過濾掉特殊字符和轉義序列,只保留純文本內容。
下面是一個使用BeautifulSoup處理HTML中特殊字符和轉義序列的示例代碼:
from bs4 import BeautifulSoup
html = "<html><body><p>This is a "special" character & this is a <b>tag</b></p></body></html>"
soup = BeautifulSoup(html, 'html.parser')
# 獲取整個HTML文檔的標準格式化表示
formatted_html = soup.prettify()
print(formatted_html)
# 獲取HTML文檔中的純文本內容
text_content = soup.get_text()
print(text_content)
運行以上代碼后,formatted_html將輸出格式化后的HTML文檔,text_content將輸出HTML文檔中的純文本內容,特殊字符和轉義序列都已被處理。