要使用Python爬蟲爬取前10頁的內容,你可以使用requests
庫來獲取網頁內容,然后使用BeautifulSoup
庫來解析HTML并提取所需信息。以下是一個簡單的示例,展示了如何爬取一個網站的前10頁內容:
首先,確保你已經安裝了requests
和beautifulsoup4
庫。如果沒有安裝,可以使用以下命令安裝:
pip install requests beautifulsoup4
接下來,你可以使用以下代碼來爬取前10頁的內容:
import requests
from bs4 import BeautifulSoup
# 替換為目標網站的URL
url = 'https://example.com'
# 設置要爬取的頁面范圍
start_page = 1
end_page = 10
# 遍歷頁面并爬取內容
for page in range(start_page, end_page + 1):
# 構建請求URL
request_url = f'{url}/page/{page}'
# 發送HTTP請求并獲取響應
response = requests.get(request_url)
# 檢查請求是否成功
if response.status_code == 200:
# 解析HTML內容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所需信息,例如標題、鏈接等
# 這里只是一個示例,你需要根據實際需求來提取相關信息
for item in soup.find_all('div', class_='item'):
title = item.find('h2').text
link = item.find('a')['href']
print(f'Title: {title}, Link: {link}')
else:
print(f'Failed to retrieve page {page}')
請注意,這個示例僅適用于具有固定頁面結構和類名的網站。你需要根據目標網站的實際HTML結構來調整代碼。同時,如果目標網站有反爬蟲策略,你可能需要添加額外的請求頭、使用代理IP或設置延遲等來避免被封禁。