Pandas如何避免使用for循環

發布時間：2021-05-30 18:00:38 來源：億速云閱讀：662 作者：小新欄目：開發技術

這篇文章將為大家詳細講解有關Pandas如何避免使用for循環，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

前言

使用Pandas dataframe執行數千甚至數百萬次計算仍然是一項挑戰。你不能簡單的將數據丟進去，編寫Python for循環，然后希望在合理的時間內處理數據。

Pandas是為一次性處理整個行或列的矢量化操作而設計的，循環遍歷每個單元格、行或列并不是它的設計用途。所以，在使用Pandas時，你應該考慮高度可并行化的矩陣運算。

本文將教你如何使用Pandas設計使用的方式，并根據矩陣運算進行思考。在此過程中，我們將向你展示一些實用的節省時間的技巧和竅門，這些技巧和技巧將使你的Pandas代碼比那些可怕的Python for循環更快地運行！

數據準備

在本文中，我們將使用經典的鳶尾花數據集。

Pandas如何避免使用for循環

現在讓我們建立一個標準線，用Python for循環來測量我們的速度。我們將通過循環遍歷每一行來設置要在數據集上執行的計算，然后測量整個操作的速度。這將為我們提供一個基準，以了解我們的新優化對我們有多大幫助。

Pandas如何避免使用for循環

在上面的代碼中，我們創建了一個基本函數，它使用If-Else語句根據花瓣的長度選擇花的類。我們編寫了一個for循環，通過循環dataframe對每一行應用函數，然后測量循環的總時間。

在i7-8700k計算機上，循環運行5次平均需要0.01345秒。

使用.iterrows()

我們可以做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows() 函數。

在上一節中編寫for循環時，我們使用了 range() 函數。然而，當我們在Python中對大范圍的值進行循環時，生成器往往要快得多。

Pandas的 .iterrows() 函數在內部實現了一個生成器函數，該函數將在每次迭代中生成一行Dataframe。更準確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對（元組）。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運行速度要快得多！

生成器（Generators）

生成器函數允許你聲明一個行為類似迭代器的函數，也就是說，它可以在for循環中使用。這大大簡化了代碼，并且比簡單的for循環更節省內存。

考慮這樣一個例子，我們想把1到1000之間的所有數字加起來。下面代碼的第一部分說明了如何使用for循環來實現這一點。

如果列表很小，比如長度為1000，那就很好了。當你想要處理一個龐大的列表時，比如10億個浮點數，問題就出現了。使用for循環，在內存中創建了大量的內存huge列表，并不是每個人都有無限的RAM來存儲這樣的東西！Python中的range()函數也做同樣的事情，它在內存中構建列表

代碼的第(2)節演示了使用Python生成器對數字列表求和。生成器將創建元素并僅在需要時將它們存儲在內存中。一次一個。這意味著，如果必須創建10億個浮點數，那么只能一次將它們存儲在內存中。Python中的xrange()函數使用生成器來構建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應內存，那么使用for循環和range函數會更好。這是因為每次訪問list值時，生成器和xrange都會重新生成它們，而range是一個靜態列表，并且內存中已存在整數以便快速訪問。

Pandas如何避免使用for循環

下面我們修改了代碼，使用.iterrows()代替常規的for循環。在我上一節測試所用的同一臺機器上，平均運行時間為0.005892秒，速度提高了2.28倍！

Pandas如何避免使用for循環

使用.apply()

iterrows()函數極大地提高了速度，但我們還遠遠沒有完成。請始終記住，當使用為向量操作設計的庫時，可能有一種方法可以在完全沒有for循環的情況下最高效地完成任務。

為我們提供此功能的Pandas功能是 .apply() 函數。apply()函數接受另一個函數作為輸入，并沿著DataFrame的軸（行、列等）應用它。在傳遞函數的這種情況下，lambda通常可以方便地將所有內容打包在一起。

在下面的代碼中，我們已經完全用.apply()和lambda函數替換了for循環，打包所需的計算。這段代碼的平均運行時間是0.0020897秒，比原來的for循環快6.44倍。

Pandas如何避免使用for循環

apply()之所以快得多，是因為它在內部嘗試遍歷Cython迭代器。如果你的函數針對Cython進行了優化，.apply()將使你的速度更快。額外的好處是，使用內置函數可以生成更干凈、更可讀的代碼！

最后

前面我們提到過，如果你正在使用一個為向量化操作設計的庫，你應該總是在沒有for循環的情況下尋找一種方法來進行任何計算。

類似地，以這種方式設計的許多庫，包括Pandas，都將具有方便的內置函數，可以執行你正在尋找的精確計算，但速度更快。

Pandas的 .cut() 函數將一組bin定義為輸入，這些bin定義了If-Else的每個范圍和一組標簽。這與我們用 compute_class() 函數手動編寫有完全相同的操作。

看下面的代碼，看看.cut()是如何工作的。我們又一次得到了更干凈、更可讀的代碼。最后，.cut()函數平均運行0.001423秒，比原來的for循環快了9.39倍!

Pandas如何避免使用for循環

關于“Pandas如何避免使用for循環”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas如何避免使用for循環

前言

數據準備

使用.iterrows()

使用.apply()

最后

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas如何避免使用for循環

前言

數據準備

使用.iterrows()

使用.apply()

最后

猜你喜歡

最新資訊

相關推薦

相關標簽