中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么在python中實現數據預處理

發布時間:2021-05-07 17:22:59 來源:億速云 閱讀:185 作者:Leah 欄目:編程語言

這篇文章將為大家詳細講解有關怎么在python中實現數據預處理,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。

python的五大特點是什么

python的五大特點:1.簡單易學,開發程序時,專注的是解決問題,而不是搞明白語言本身。2.面向對象,與其他主要的語言如C++和Java相比, Python以一種非常強大又簡單的方式實現面向對象編程。3.可移植性,Python程序無需修改就可以在各種平臺上運行。4.解釋性,Python語言寫的程序不需要編譯成二進制代碼,可以直接從源代碼運行程序。5.開源,Python是 FLOSS(自由/開放源碼軟件)之一。

1、缺失數據的處理

導入的數據存在缺失是經常發生的,最簡單的處理方式是刪除缺失的數據行。使用 pandas 中的 .dropna() 刪除含有缺失值的行或列,也可以 對特定的列進行缺失值刪除處理 。

dfNew = dfData.dropna(axis = 0))  # 刪除含有缺失值的行

有時也會填充缺失值或替換缺失值,在此就不做介紹了。

2、重復數據的處理

對于重復數據,通常會刪除重復行。使用 pandas 中的 .duplicated() 可以查詢重復數據的內容,使用 .drop_duplicated() 可以刪除重復數據,也可以對指定的數據列進行去重。

 dfNew = dfData.drop_duplicates(inplace=True)  # 刪除重復的數據行

3、異常值處理

數據中可能包括異常值, 是指一個樣本中的數值明顯偏離樣本集中其它樣本的觀測值,也稱為離群點。異常值可以通過箱線圖、正態分布圖進行識別,也可以通過回歸、聚類建模進行識別。

箱線圖技術是利用數據的分位數識別其中的異常點。箱形圖分析也超過本文的內容,不能詳細介紹了。只能籠統地說通過觀察箱形圖,可以查看整體的異常情況,進而發現異常值。

    dfData.boxplot()  # 繪制箱形圖

關于怎么在python中實現數據預處理就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

武义县| 宜良县| 临沭县| 乐业县| 汾阳市| 巫溪县| 台东市| 高邑县| 武安市| 莫力| 乌拉特中旗| 黄大仙区| 四会市| 镇雄县| 新化县| 越西县| 黄冈市| 广水市| 神池县| 乌什县| 故城县| 宕昌县| 呼玛县| 澄江县| 张家川| 达孜县| 修水县| 嘉禾县| 岫岩| 杨浦区| 平湖市| 通城县| 白河县| 沁水县| 通河县| 吉水县| 普格县| 炉霍县| 德江县| 文昌市| 鄂尔多斯市|