小白，BeautifulSoup初步整理，后續添加

發布時間：2020-06-28 04:18:55 來源：網絡閱讀：796 作者：2407586063 欄目：編程語言

form bs4 import BeautifulSoup
要導入bs4模塊
注意BeautifulSoup大小寫
soup = BeautifulSoup('html','html.parser')
第一個參數html為要解析的html文檔，html是字符串

解析到soup中后才可以開始使用

soup中用的比較多的方法為find_all()
用法有：
soup.find_all('a')//找出所有的a標簽中的內容，返回的是一個數組，數組中的每個元素又是BeautifulSoup對象
find_all()中還可以加屬性查詢，如：soup.findall('a'，class=''),如果有多個，可以soup.findall('a'，class=['c1','c2']),class_中的內容為樣式，只要查找的內容中有其中一個樣式就行
如：
s = '''<a href='xxx' class='c1'>aaaaaaa</a>
<a href='xxx' class='c2'></a>
<a href='xxx' class='c1 c3'></a>
<a href='xxx' class='c1 c2'></a>'''
這里面的都可以找出來
還有一種寫法：
soup.find_all('a'，attrs={'class':re.compile('')}),使用正則表達式，

拿到查找內容后，如果要解析標簽中的內容
find_all()要循環取
假設拿到其中一個,以a標簽為例
拿到的a1 = '<a href='xxx' class='c1'>'
拿鏈接：href = a1['href']
拿標簽中的內容：content = a1.string

BeautifulSoup中還有find方法，用法與find_all()一樣，只是該方法只取第一個符合條件的

注：如果標簽不是成對的，如：<span><img src='xxxx' ></span>
此時，你用find('img')是拿不到img標簽的，你需要取到他的上級成對標簽span
然后在解析span標簽中的內容，如
span = soup.find('span'),假設拿到的是'<span><img src='xxxx' ></span>'
此時你需要解析他的子標簽，使用children屬性
span.children
此時返回的結果是list_itrator對象，要么使用for循環去取，沒試過，要么使用next(list_itrator)取，可以拿到第一個子標簽<img>
然后拿到src的值：src = next(list_itrator)['src']
當然如果標簽是成對的，直接使用find('img')
注：
使用BeautifulSoup，以后所有返回帶有標簽內容的對象都是BeautifulSoup對象（個人理解）
如果要分析的內容太多，可以將需要的字符串內容截取到合適的地方，因為BeautifulSoup解析實在是太耗時間了，雖然方便

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

小白，BeautifulSoup初步整理，后續添加

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

小白，BeautifulSoup初步整理，后續添加

猜你喜歡

最新資訊

相關推薦

相關標簽