中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲中異常捕獲及標簽過濾的方法

發布時間:2022-02-19 16:08:03 來源:億速云 閱讀:208 作者:iii 欄目:開發技術

這篇文章主要介紹了python爬蟲中異常捕獲及標簽過濾的方法的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇python爬蟲中異常捕獲及標簽過濾的方法文章都會有所收獲,下面我們一起來看看吧。

增加異常捕獲,更容易現問題的解決方向

import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen處增加兩個異常捕獲:
            1、如果頁面出現錯誤或者服務器不存在時,會拋HTTP錯誤代碼
            2、如果url寫錯了或者是鏈接打不開時,會拋URLError錯誤
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup處增加異常捕獲是因為BeautifulSoup對象中有時候標簽實際不存在時,會返回None值;
    因為不知道,所以調用了就會導致拋出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html,更好的實現數據展示效果

  • get_text():獲取文本信息

# 此處代碼同上面打開url代碼一致,故此處省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'電影評價數:{data}')
print(f'電影評價數:{data.get_text()}')

運行后的結果顯示如下:

電影評價數:<span class="pl">(38054人評價)</span>
電影評價數:(38054人評價)
  • find() 方法是過濾HTML標簽,查找需要的單個標簽

實際find方法封裝是調用了正則find_all方法,把find_all中的limt參數傳1,獲取單個標簽

1.name:可直接理解為標簽元素

2.attrs:字典格式,放屬性和屬性值 {"class": "indent"}

3.recursive:遞歸參數,布爾值,為真時遞歸查詢子標簽

4.text:標簽的文本內容匹配 , 是標簽的文本,標簽的文本

  • find_all() 方法是過濾HTML標簽,查找需要的標簽組

使用方法適合find一樣的,無非就是多了個limit參數(篩選數據)

必須注意的小知識點:

#   下面兩種寫法,實際是一樣的功能,都是查詢id為text的屬性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})
#   如果是class的就不能class="x x x"了,因為class是python中類的關鍵字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

關于“python爬蟲中異常捕獲及標簽過濾的方法”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“python爬蟲中異常捕獲及標簽過濾的方法”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

南昌市| 临汾市| 松原市| 石台县| 荔浦县| 拉萨市| 康乐县| 达拉特旗| 土默特右旗| 灌云县| 府谷县| 淮北市| 湖口县| 鸡东县| 交口县| 客服| 张家界市| 开鲁县| 高要市| 南和县| 紫阳县| 邮箱| 南溪县| 泸西县| 吉林省| 永泰县| 宜兰市| 陵川县| 广州市| 大渡口区| 灵石县| 昌平区| 阳泉市| 扎兰屯市| 达拉特旗| 兰坪| 濮阳市| 古蔺县| 西平县| 常熟市| 沧源|