數據清洗是指對數據進行預處理,包括去除重復值、缺失值處理、異常值處理等操作。下面是一些常見的數據清洗操作的示例代碼:
df = df.drop_duplicates()
df = df.dropna()
df = df.fillna(value)
df = df.interpolate()
df = df[np.abs(df['column'] - df['column'].mean()) <= (3 * df['column'].std())]
q1 = df['column'].quantile(0.25)
q3 = df['column'].quantile(0.75)
iqr = q3 - q1
df = df[(df['column'] >= q1 - 1.5 * iqr) & (df['column'] <= q3 + 1.5 * iqr)]
以上代碼只是示例,具體的數據清洗操作需要根據具體的數據情況進行調整和擴展。