中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python3爬蟲如何獲取html內容及各屬性值

發布時間:2021-05-23 13:47:48 來源:億速云 閱讀:363 作者:小新 欄目:開發技術

小編給大家分享一下python3爬蟲如何獲取html內容及各屬性值,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

今天用到BeautifulSoup解析爬下來的網頁數據

首先導入包from bs4 import BeautifulSoup

然后可以利用urllib請求數據

記得要導包

import urllib.request

然后調用urlopen,讀取數據

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

這里我們就不請求數據了,直接用本地的html代碼,如下

注意:”'xxx”'是多行注釋

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帥
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析數據 python3 必須傳入參數二'html.parser' 得到一個對象,接下來獲取對象的相關屬性
html=BeautifulSoup(html,'html.parser')
# 讀取title內容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是一個list 通過下標可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取數據還可以通過BeautifulSoup的select方法
html.select()
#按標簽名查找 
soup.select('title')
soup.select('body')
# 按類名查找
soup.select('.sister')
# 按id名查找
# p標簽中id為link的標簽
soup.select('p #link')
#取標簽里面的值
soup.p.string
#取標簽里屬性值 通過href獲取
html['href']

以上是“python3爬蟲如何獲取html內容及各屬性值”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

永善县| 郴州市| 湛江市| 武清区| 上高县| 定陶县| 鄢陵县| 含山县| 鄂伦春自治旗| 开平市| 乡宁县| 高清| 贵港市| 达拉特旗| 潞西市| 武平县| 洛川县| 甘南县| 治多县| 牡丹江市| 黎平县| 昌黎县| 青阳县| 古蔺县| 西昌市| 阜新市| 许昌县| 许昌市| 内黄县| 海伦市| 正镶白旗| 中卫市| 昌吉市| 桐梓县| 沅陵县| 临安市| 普洱| 天峻县| 杭锦后旗| 贺州市| 岚皋县|