要使用Pycharm爬取網頁文本和圖片,你可以使用以下步驟:
requests
和beautifulsoup4
。import requests
from bs4 import BeautifulSoup
requests
庫發送HTTP請求獲取網頁內容。url = "https://example.com" # 替換為你想要爬取的網頁URL
response = requests.get(url)
BeautifulSoup
庫解析網頁內容。soup = BeautifulSoup(response.content, 'html.parser')
BeautifulSoup
的方法選擇和提取你想要的文本內容。text = soup.get_text() # 獲取網頁所有的文本內容
BeautifulSoup
的方法選擇和提取你想要的圖片。images = soup.find_all('img') # 找到網頁中的所有<img>標簽
for img in images:
img_url = img['src'] # 圖片的URL
img_response = requests.get(img_url) # 請求圖片的URL
with open('image.jpg', 'wb') as f:
f.write(img_response.content) # 將圖片內容寫入文件
注意:上述代碼中的https://example.com
和image.jpg
需要替換為你想要爬取的網頁URL和保存圖片的文件名。
希望這能幫到你!