Pandas0.25有什么新功能

發布時間：2021-07-10 11:45:31 來源：億速云閱讀：170 作者：小新欄目：開發技術

這篇文章主要介紹Pandas0.25有什么新功能，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

一、四個置頂的警告！

從 0.25 起，pandas 只支持 Python 3.53 及以上版本了，不再支持 Python 2.7，還在使用 Python 2 的朋友可要注意了，享受不了新功能了，不過，貌似用 Python 2 做數據分析這事兒估計已經絕跡了吧！

Pandas0.25有什么新功能

下一版 pandas 將只支持 Python 3.6 及以上版本了，這是因為 f-strings 的緣故嗎？嘿嘿。

Pandas0.25有什么新功能

徹底去掉了 Panel，N 維數據結構以后要用 xarray 了。說起來慚愧，呆鳥還沒用過 Panel 呢，它怎么就走了。。。。

Pandas0.25有什么新功能

read_pickle() 與 read_msgpack() ，只向后兼容到 0.20.3。上一篇文章剛介紹過 read_pickle() ，它就也要離我們而去了嗎？-_-||

看完了這四大警告，咱們再看下 0.25 帶來了哪些新東西。

二、新增功能

1. Groupby 的命名聚合（Named Aggregation）

這可是個新功能，能直接為指定的聚合輸出列命名。先創建一個 DataFrame 示例。

animals = pd.DataFrame({ '品種' : [ '貓' , '狗' , '貓' , '狗' ],   

'身高' : [ 9.1 , 6.0 , 9.5 , 34.0 ],   

'體重' : [ 7.9 , 7.5 , 9.9 , 198.0
]})

animals

命名聚合示例，居然還支持中文誒！不過，這里是為了演示清晰才寫的中文變量名，平時，該用英文還是要用英文的。

animals.groupby( '品種'
).agg(
最低=pd.NamedAgg(column=
'身高' , aggfunc= 'min' 
),
最高=pd.NamedAgg(column=
'身高' , aggfunc= 'max' 
),
平均體重=pd.NamedAgg(column=
'體重' 
, aggfunc=np.mean),
)

這么寫看起來還是有些繁瑣，很不 Pythonic，好在 pandas 提供了更簡單的寫法，只需傳遞一個 Tuple 就可以了，Tuple 里的第一個元素是指定列，第二個元素是聚合函數，看看下面的代碼，是不是少敲了好多下鍵盤：

animals.groupby( '品種'
).agg(
最低=(
'身高' 
, min),
最高=(
'身高' 
, max),
平均體重=(
'體重' 
, np.mean),
)

這里還可以進一步偷懶，只寫 min 或 max ，連單引號都不寫了。

Pandas 提供了一種叫 pandas.NameAgg 的命名元組（ namedtuple ），但如上面的代碼所示，直接使用 Tuple 也沒問題。

這兩段代碼的效果是一樣的，結果都如下圖所示。

Pandas0.25有什么新功能

命名聚合取代了已經廢棄的 dict-of-dicts 重命名方式，看了一下，之前的操作還真是挺復雜的，這里就不贅述了，有興趣回顧的朋友，可以自己看下用 dict 重命名 groupby.agg() 輸出結果（已廢棄）這部分內容。

命名聚合還支持 Series 的 groupby 對象，因為 Series 無需指定列名，只要寫清楚要應用的函數就可以了。

animals.groupby( '品種'
).身高.agg(
最低=min,
最高=max,
)

Pandas0.25有什么新功能

更多有關命名聚合的介紹，詳見官方文檔 Named aggregation 。

2. Groupby 聚合支持多個 lambda 函數

0.25 版有一個黑科技，以 list 方式向 agg() 函數傳遞多個 lambda 函數。為了減少鍵盤敲擊量，真是無所不用其極啊！

animals.groupby( '品種' ).身高.agg([ 
lambda x: x.iloc[ 0 ], lambda x: x.iloc[ -1 
]
])

Pandas0.25有什么新功能

animals.groupby( '品種' ).agg([
lambda x: x.iloc[ 0 ] - x.iloc[ 1 ],
lambda x: x.iloc[ 0 ] + x.iloc[ 1 
]
])

Pandas0.25有什么新功能

0.25 版前，這樣操作會觸發 SpecificationError 。

Pandas0.25有什么新功能

觸發 SpecificationError

這個功能也有個小遺憾，多 lambda 函數的輸出沒有像命名聚合那樣可以自定義命名，還要后面手動修改，有些不方便，不知道是我沒找到，還是真沒有……

3. 優化了 MultiIndex 顯示輸出

MultiIndex 輸出的每行數據以 Tuple 顯示，且垂直對齊，這樣一來， MultiIndex 的結構顯示的更清晰了。

pd.MultiIndex.from_product([[ 'a' , 'abc' ], range( 500 )])

Pandas0.25有什么新功能

之前，是這樣的

Pandas0.25有什么新功能

現在，是這樣的

真是貨比貨得扔，以前沒感覺，現在一比較，有沒有覺得大不相同呢？

4. 精簡顯示 Series 與 DataFrame

超過 60 行的 Series 與 DataFrame，pandas 會默認最多只顯示 60 行（見 display.max_rows 選項）。這種設置依然會占用大量垂直屏幕空間。因此，0.25 版引入了 display.min_rows 選項，默認只顯示 10 行：

數據量小的 Series 與 DataFrame，顯示 max_row 行數據，默認為 60 行，前 30 行與后 30 行；數據量大的 Series 與 DataFrame，如果數據量超過 max_rows ，只顯示 min_rows 行，默認為 10 行，即前 5 行與后 5 行。

最大與最小行數這種雙重選項，允許在數據量較小時，比如數據量少于 60 行，顯示全部數據，在數據量較大時，則只顯示數據摘要。

要去掉 min_rows 的設置，可以把該選項設置為 None ：

pd.options.display.min_rows = None

sales_date1 = pd.date_range( '20190101' , periods=1000, freq= 'D'
)
amount1 = np.arange(1000)
cols = [
'銷售金額' 
]
sales1 = pd.DataFrame(amount1,index=sales_date1,columns=cols)

Pandas0.25有什么新功能

min_rows

在 VSCode 里顯示正常，只顯示了前 5 行與后 5 行，但貌似 Jupyter Notebook 6.0 目前貌似還不支持這個設置，還是顯示前 30 行與后 30 行。圖片太長，這里就不截圖了。如果 Jupyter 可以的話，請告訴我。

5. json_normalize() 支持 max_level

json_normalize() 支持按層級（level）讀取，增加了 max_level 控制參數。

from pandas.io.json import
json_normalize
data = [{
'CreatedBy' : { 'Name' : 'User001' },
'Lookup' : { 'TextField' : 'Some text' , 
'UserField' : { 'Id' : 'ID001' , 'Name' : 'Name001' }},
'Image' : { 'a' : 'b' 
}
}]

0.25 以前是這樣的，所有層級都讀取出來了：

json_normalize(data)

Pandas0.25有什么新功能

0.25 以后是這樣的，可以通過 max_level 參數控制讀取的 JSON 數據層級：

json_normalize(data, max_level= 1 )

Pandas0.25有什么新功能

6. 增加 explode() 方法，把 list “炸 ” 成行

Series 與 DataFrame 增加了 explode() 方法，把 list 形式的值轉換為單獨的行。

df = pd.DataFrame([{ '變量1' : 'a,b,c' , '變量2' : 1 
},
{
'變量1' : 'd,e,f' , '變量2' : 2 
}])

Pandas0.25有什么新功能

df.assign(變量 1 =df.變量 1. str.split( ',' )).explode( '變量1' )

Pandas0.25有什么新功能

以后再拆分這樣的數據就簡單多了。具體官方文檔說明詳見 section on Exploding list-like column 。

7. SparseDataFrame 被廢棄了

0.25 以前專門有 SparseDataFrame() ，生成稀疏矩陣，0.25 以后，這個函數被廢棄了，改成 pd.DataFrame 里的 pd.SparseArray() 了，函數統一了，但是要多敲幾下鍵盤了。

0.25 以前是這樣的：

pd.SparseDataFrame({ "A" : [0, 1]})

0.25 以后是這樣的：

pd.DataFrame({ "A" : pd.SparseArray([0, 1])})

輸出的結果都是一樣的：

8. 對 DataFrame Groupby 后，Groupby.apply 對每組只處理一次

df = pd.DataFrame({ "a" : [ "x" , "y" ], "b" : [ 1 , 2
]})
df
def func (group) : print(group.name) return 
group
df.groupby(
'a' ).apply(func)

有沒有想到，0.25 以前輸出的結果居然是這樣的：

Pandas0.25有什么新功能

0.25以前

Pandas0.25有什么新功能

0.25以后

這樣才正常嘛~~！

9. 用 Dict 生成的 DataFrame，終于支持列排序啦

data = [
{
'姓 名' : '張三' , '城 市' : '北京' , '年 齡' : 18 
},
{
'姓 名' : '李四' , '城 市' : '上海' , '年 齡' : 19 , '愛 好' : '打游戲' 
},
{
'姓 名' : '王五' , '城 市' : '廣州' , '年 齡' : 20 , '財務狀況' : '優' 
}
]
pd.DataFrame(data)

以前是亂序的，全憑 pandas 的喜好：

Pandas0.25有什么新功能

現在，我的字典終于我做主了！

Pandas0.25有什么新功能

10. Query() 支持列名空格了

用上面的 data 生成一個示例 DataFrame，注意列名是有空格的。

df = pd.DataFrame(data)

現在用反引號（`）括住列名，就可以直接查詢了：

df.query( '`年齡` <19' )

Pandas0.25有什么新功能

好了，本文就先介紹 pandas 0.25 的這些改變，其實，0.25 還包括了很多優化，比如，對 DataFrame GroupBy 后 ffill , bfill 方法的調整，對類別型數據的 argsort 的缺失值排序， groupby 保留類別數據的數據類型等，如需了解，詳見官方文檔 What's new in 0.25.0 。

以上是“Pandas0.25有什么新功能”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas0.25有什么新功能

一、四個置頂的警告！

二、新增功能

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas0.25有什么新功能

一、四個置頂的警告！

二、新增功能

猜你喜歡

最新資訊

相關推薦

相關標簽