使用Python編寫爬蟲可以輕松爬取房屋信息,以下是一個簡單的示例代碼:
import requests
from bs4 import BeautifulSoup
# 定義爬取房屋信息的函數
def get_house_info(url):
# 發送HTTP請求獲取網頁內容
response = requests.get(url)
# 使用BeautifulSoup解析網頁內容
soup = BeautifulSoup(response.content, 'html.parser')
# 使用CSS選擇器定位房屋信息的元素
house_list = soup.select('.house-list li')
# 遍歷每個房屋信息元素,提取房屋標題和價格
for house in house_list:
title = house.select_one('.title').text.strip()
price = house.select_one('.price').text.strip()
print(f'房屋標題:{title},價格:{price}')
# 獲取下一頁的鏈接
next_page = soup.select_one('.next')
if next_page:
next_url = next_page['href']
# 遞歸調用自身爬取下一頁的房屋信息
get_house_info(next_url)
# 調用函數開始爬取
get_house_info('http://example.com/house-list')
以上代碼使用了requests庫發送HTTP請求獲取網頁內容,并使用BeautifulSoup庫解析網頁內容。通過CSS選擇器定位到房屋信息的元素,并提取房屋標題和價格。如果有下一頁的鏈接,則遞歸調用自身爬取下一頁的房屋信息。
請注意,網站的結構可能會有所不同,你需要根據目標網站的實際情況調整代碼中的選擇器和解析邏輯。此外,爬取網站的合法性和隱私保護也需要遵守相關法律法規。