您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關使用Python怎么爬取網站圖片并保存,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
第一步,導入模塊
import requests from bs4 import BeautifulSoup
requests用來請求html頁面,BeautifulSoup用來解析html
第二步,獲取目標html頁面
hd = {'user-agent': 'chrome/10'} # 偽裝自己是個(chrome)瀏覽器=-= def download_all_html(): try: url = 'https://www.bilibili.com/' # 將要爬取網站的地址 request = requests.get(url, timeout=30, headers=hd) # 獲取改網站的信息 request.raise_for_status() # 判斷狀態碼是否為200,!=200顯然爬取失敗 request.encoding = request.apparent_encoding # 設置編碼格式 return request.text # 返回html頁面 except: return ''
第三步,分析網站html構造
1、顯示網站html代碼
2、找到圖片位置
3、分析
第四步,直接上代碼注釋夠詳細=-=
def parse_single_html(html): soup = BeautifulSoup(html, 'html.parser') # 解析html,可以單獨去了解一下他的使用 divs = soup.find_all('div', class_='card-pic') # 獲取滿足條件的div,find_all(所有) for div in divs: # 瞞住條件的div有多個,我們單獨獲取 p = div.find('p') # 有源代碼可知,每個div下都有一個p標簽,存儲圖片的title,獲取p標簽 if p == None: continue title = p['title'] # 獲取p標簽中的title屬性,用來做圖片的名稱 img = div.find('img')['src'] # 獲取圖片的地址 if img[0:6] != 'https:': # 根據源代碼發現,有的地址缺少"https:"前綴 img = 'https:' + img # 如果缺少,我們給他添上就行啦,都據情況而定 response = requests.get(img) # get方法得到圖片地址(有的是post、put)基本是get with open('./Img/{}.png'.format(title), 'wb') as f: # 創建用來保存圖片的.png文件 f.write(response.content) # 注意,'wb'中的b 必不可少!! parse_single_html(download_all_html()) # 最后調用我們寫的兩個函數就行啦,
上述就是小編為大家分享的使用Python怎么爬取網站圖片并保存了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。