在Python中進行數據爬蟲和數據清洗的過程通常包括以下步驟:
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://example.com'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')
# 提取表格數據
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele]) # 去除空值
# 將提取的數據轉換為pandas DataFrame
df = pd.DataFrame(data)
# 去除空值
df.dropna(inplace=True)
# 去除重復值
df.drop_duplicates(inplace=True)
# 去除重復行
df.drop_duplicates(inplace=True)
# 數據類型轉換
df['column_name'] = pd.to_numeric(df['column_name'], errors='coerce')
# 其他數據清洗操作...
# 保存到CSV文件
df.to_csv('cleaned_data.csv', index=False)
# 保存到Excel文件
df.to_excel('cleaned_data.xlsx', index=False)
# 保存到數據庫(以SQLite為例)
import sqlite3
conn = sqlite3.connect('example.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)
conn.close()
通過以上步驟,您可以在Python中進行數據爬蟲和數據清洗。請注意,根據您的需求和目標網站的結構,您可能需要對這些步驟進行適當的調整。