中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python中的數據清洗方法是什么

發布時間:2023-03-27 15:24:22 來源:億速云 閱讀:134 作者:iii 欄目:開發技術

這篇文章主要講解了“Python中的數據清洗方法是什么”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“Python中的數據清洗方法是什么”吧!

這里數據清洗需要用到的庫是pandas庫,下載方式還是在終端運行 : pip install pandas.

首先我們需要對數據進行讀取

import pandas as pd
 
data = pd.read_csv(r'E:\PYthon\用戶價值分析 RFM模型\data.csv')
pd.set_option('display.max_columns', 888)  # 大于總列數
pd.set_option('display.width', 1000)
print(data.head())
print(data.info())

第3行是對數據進行讀取,pandas庫里面有讀取函數調用即可,csv格式是讀取寫入速度最快的。

第4,5行是為了讀取的實話顯示全部的列,是因為很多列的話pycharm會把中間一些列隱藏掉,所以我們這為了他不隱藏就加這兩行代碼。

第6行是顯示表頭,我們可以看到有什么字段,列名

第7行是顯示表的基本信息,每一列有多少數據,字段是什么類型的數據。非空的數據有多少,所以我們第一步就可以看得到基本那一列有空值了。

Python中的數據清洗方法是什么

空值處理

data.info()后我們可以看到大部分數據都有541909行,所以我們大致猜到是Description ,CustomerID 列漏結果了

# 空值處理
print(data.isnull().sum())  # 空值中和,查看每一列的空值
 
# 空值刪除
data.drop(columns=['Description'], inplace=True)
print(data.info())
data.isnull()判斷是否為空。data.isnumll().sum()計算空值數量。

第5行進行空值刪除,這里先刪除Description列的空值,inplace=True意思是對數據進行修改,如果沒有inplace=True,則不對data進行修改,打印數據還是和之前一樣,或者重新定義一個變量進行賦值。

由于這一列空值數據比較少,這一列數據對我們數據分析沒有那么重要,所以我們選擇刪除這一整列。

我們這個表是對客戶進行篩選的,所以以CustomerID為準,強制刪除其他列

# CustomerID有空值
# 刪除所有列的空值
data.dropna(inplace=True)
# print(data.info())
print(data.isnull().sum())  # 由于CustomerID為必須字段,所以強制刪除其他列,以CustomerID為準

這里我們先對其他字段進行類型轉換

類型轉換

# 轉換為日期類型
data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
 
# CustomerID 轉換為整型
data['CustomerID'] = data['CustomerID'].astype('int')
print(data.info())

以上我們處理了空值,接下來我們處理異常值。

異常值處理

查看表的基本數據分布可以使用describe

print(data.describe())

可以看到數據Quantity 列中最小值為-80995.這列明顯有異常值,所以需要對這一列進行異常值篩選。

只需要大于0的值。

Python中的數據清洗方法是什么

data = data[data['Quantity'] > 0]
print(data)

打印一下就只有397924行了。

重復值處理

# 查看重復值
print(data[data.duplicated()])

Python中的數據清洗方法是什么

有5194行重復值,這里的重復值是完全重復的,所以是沒用的數據我們可以進行刪除。

刪除重復值

# 刪除重復值
data.drop_duplicates(inplace=True)
 
print(data.info())

刪除后對原來的表進行保存,再去查看一下表的基本信息

Python中的數據清洗方法是什么

現在還剩下392730條數據。數據到這一步就完成了數據清洗。

感謝各位的閱讀,以上就是“Python中的數據清洗方法是什么”的內容了,經過本文的學習后,相信大家對Python中的數據清洗方法是什么這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

五家渠市| 抚远县| 西乌珠穆沁旗| 张家川| 壤塘县| 太仓市| 宁阳县| 韩城市| 江源县| 新干县| 阜阳市| 衡东县| 老河口市| 防城港市| 盐亭县| 荥阳市| 芷江| 射洪县| 阳原县| 牟定县| 安吉县| 察哈| 桑植县| 昔阳县| 白河县| 建湖县| 大冶市| 连山| 申扎县| 水富县| 天气| 林甸县| 九寨沟县| 綦江县| 犍为县| 湛江市| 宝坻区| 喀什市| 定日县| 鄄城县| 五常市|