詳解python pandas 分組統計的方法

發布時間：2020-09-23 20:21:17 來源：腳本之家閱讀：501 作者：kingsam_ 欄目：開發技術

首先，看看本文所面向的應用場景：我們有一個數據集df，現在想統計數據中某一列每個元素的出現次數。這個在我們前面文章《如何畫直方圖》中已經介紹了方法，利用value_counts()就可以實現（具體回看文章）

但是，現在，我們考慮另外一個場景，我們假如要想統計其中兩列元素出現次數呢？舉個栗子：

在df數據集中，如果我們想統計A、B兩列的元素的出現情況，也就是說，得到如下表。

詳解python pandas 分組統計的方法

從上面的最后一列可以看到，在A、B兩列中，1 2 出現了2次，1 4 出現1次，1 6出現1次，2 3出現了2次， 2 4 出現1次， 3 1出現了1次

具體實現的代碼：

import pandas as pd
df=pd.DataFrame([[1,2,2],[1,4,5],[1,2,4],[1,6,3],[2,3,1],[2,4,1],[2,3,5],[3,1,1]],columns=['A','B','C'])

gp=df.groupby(by=['A','B'])
gp.size()

所以，如果想統計更多列，只要在groupby()中的by參數添加就可以，例如統計3列。

gp=df.groupby(by=['A','B','C'])

由gp.size()得到的是可以mulitiindex Series。

下面，要轉化成DataFrame的結構。

newdf=gp.size()
newdf.reset_index(name='times')

詳解python pandas 分組統計的方法

其中name中參數就是我們可以為最后一列添加新的名字，例如這里的“times”

這個時候newdf已經是DataFrame的類型了。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持億速云。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站