怎么用python爬取多個網頁內容

要用Python爬取多個網頁內容，可以使用requests庫來發送HTTP請求，然后使用BeautifulSoup庫來解析HTML頁面。以下是一個示例代碼，用于爬取多個網頁的標題和正文內容：

import requests
from bs4 import BeautifulSoup

# 定義要爬取的多個網頁URL列表
urls = [
    'http://www.example.com/page1',
    'http://www.example.com/page2',
    'http://www.example.com/page3'
]

for url in urls:
    # 發送HTTP GET請求獲取網頁內容
    response = requests.get(url)

    # 使用BeautifulSoup解析HTML頁面
    soup = BeautifulSoup(response.content, 'html.parser')

    # 獲取網頁標題
    title = soup.title.string

    # 獲取網頁正文內容
    content = soup.find('body').get_text()

    # 打印網頁標題和正文內容
    print('標題:', title)
    print('正文內容:', content)

上述代碼中，首先定義了要爬取的多個網頁URL列表。然后使用循環遍歷每個URL，發送HTTP GET請求獲取網頁內容。接著使用BeautifulSoup庫解析HTML頁面，獲取網頁標題和正文內容。最后打印出標題和正文內容。

請注意，代碼中使用的是requests庫來發送HTTP請求，所以需要先安裝這個庫。可以使用pip命令進行安裝：

pip install requests

同樣地，還需要安裝BeautifulSoup庫：

pip install beautifulsoup4

需要根據自己的需求對代碼進行適當的修改，例如處理異常、保存數據等。

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

最新問答

相關標簽