如何使用pandas解決常見的預處理任務

發布時間：2021-11-30 14:58:35 來源：億速云閱讀：181 作者：小新欄目：大數據

這篇文章主要為大家展示了“如何使用pandas解決常見的預處理任務”，內容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“如何使用pandas解決常見的預處理任務”這篇文章吧。

數據預處理常用的處理步驟，包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等，下面使用 pandas 解決這些最常見的預處理任務。

找出異常值常用兩種方法：

標準差法：異常值平均值上下1.96個標準差區間以外的值
分位數法：小于 1/4分位數減去 1/4和3/4分位數差的1.5倍，大于3/4減去 1/4和3/4分位數差的1.5倍，都為異常值

技能1 ：標準差法

import pandas as pd  df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})  # 異常值平均值上下1.96個標準差區間以外的值 meangrade = df['a'].mean() stdgrade = df['a'].std() toprange = meangrade + stdgrade * 1.96 botrange = meangrade - stdgrade * 1.96  # 過濾區間外的值 copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能2：分位數法

q1 = df['a'].quantile(.25) q3 = df['a'].quantile(.75) iqr = q3-q1 toprange = q3 + iqr * 1.5 botrange = q1 - iqr * 1.5  copydf = df copydfcopydf = copydf.drop(copydf[copydf['a']         > toprange].index) copydfcopydf = copydf.drop(copydf[copydf['a']         < botrange].index) copydf

技能3：處理空值

np.nan 是 pandas 中常見空值，使用 dropna 過濾空值，axis 0 表示按照行，1 表示按列，how 默認為 any ，意思是只要有一個 nan 就過濾某行或某列，all 所有都為 nan

# axis 0 表示按照行，all 此行所有值都為 nan df.dropna(axis=0, how='all')

技能4：充填空值

空值一般使用某個統計值填充，如平均數、眾數、中位數等，使用函數 fillna：

# 使用a列平均數填充列的空值，inplace true表示就地填充 df["a"].fillna(df["a"].mean(), inplace=True)

技能5：修復不合適值

假如某門課最高分100，如果出現 -2， 120 這樣的值，顯然不合理，使用布爾類型的Series對象修改數值：

df.loc[(df['a'] < -2,'a')] = 0 df.loc[(df['a'] >= 100,'a')] = 100

技能6：過濾重復值

過濾某列重復值，使用 drop_duplicated 方法，第一個參數為列名，keep關鍵字等于last：最后一次出現此值行：

df.drop_duplicates(['Names'], keep='last')

技能7：apply 元素級：去掉特殊字符

某列單元格含有特殊字符，如標點符號，使用元素級操作方法 apply 干掉它們：

import string exclude = set(string.punctuation)  def remove_punctuation(x):     x = ''.join(ch for ch in x if ch not in exclude)     return x # 原df Out[26]:        a       b 0   c,d  edc.rc 1     3       3 2  d ef       4  # 過濾a列標點 In [27]: dfdf.a = df.a.apply(remove_punctuation)  In [28]: df                 Out[28]:        a       b 0    cd  edc.rc 1     3       3 2  d ef       4

技能8：cut 數據分箱

將百分制分數轉為A,B,C,D四個等級，bins 被分為 [0,60,75,90,100]，labels 等于['D', 'C', 'B', 'A']：

# 生成20個[0,100]的隨機整數 In [30]: a = np.random.randint(1,100,20)                    In [31]: a                                     Out[31]:  array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43])  # cut分箱 In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              Out[33]:  [D, D, D, B, D, ..., D, A, A, D, D] Length: 20 Categories (4, object): [D < C < B < A]

技能9：rank 排名

rank 方法，生成數值排名，ascending 為False，分值越大，排名越靠前：

In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  In [53]: df['a'].rank(ascending=False)                    Out[53]:  0    4.0 1    2.0 2    1.0 3    3.0 4    5.0

技能10：category列轉數值

某列取值只可能為有限個枚舉值，往往需要轉為數值，使用get_dummies，或自己定義函數：

pd.get_dummies(df['a'])

自定義函數，結合 apply:

def c2n(x):     if x=='A':         return 95     if x=='B':         return 80  df['a'].apply(c2n)

以上結合數據預處理的十個小任務，分別找到對應pandas中的實現。

以上是“如何使用pandas解決常見的預處理任務”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何使用pandas解決常見的預處理任務

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何使用pandas解決常見的預處理任務

猜你喜歡

最新資訊

相關推薦

相關標簽