python3爬蟲如何獲取html內容及各屬性值

發布時間：2021-05-23 13:47:48 來源：億速云閱讀：363 作者：小新欄目：開發技術

小編給大家分享一下python3爬蟲如何獲取html內容及各屬性值，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

今天用到BeautifulSoup解析爬下來的網頁數據

首先導入包from bs4 import BeautifulSoup

然后可以利用urllib請求數據

記得要導包

import urllib.request

然后調用urlopen，讀取數據

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

這里我們就不請求數據了，直接用本地的html代碼，如下

注意：”'xxx”'是多行注釋

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帥
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析數據 python3 必須傳入參數二'html.parser' 得到一個對象，接下來獲取對象的相關屬性
html=BeautifulSoup(html,'html.parser')
# 讀取title內容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是一個list 通過下標可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取數據還可以通過BeautifulSoup的select方法
html.select()
#按標簽名查找 
soup.select('title')
soup.select('body')
# 按類名查找
soup.select('.sister')
# 按id名查找
# p標簽中id為link的標簽
soup.select('p #link')
#取標簽里面的值
soup.p.string
#取標簽里屬性值 通過href獲取
html['href']

以上是“python3爬蟲如何獲取html內容及各屬性值”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python3爬蟲如何獲取html內容及各屬性值

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

python3爬蟲如何獲取html內容及各屬性值

猜你喜歡

最新資訊

相關推薦

相關標簽