數據分析利器之Pandas

發布時間：2020-08-04 16:07:02 來源：ITPUB博客閱讀：123 作者：HULK一線技術雜談欄目：編程語言

Pandas是一個python的開源庫，它基于Numpy，提供了多種高性能且易于使用的數據結構。Pandas最初被用作金融數據分析工具而開發，由于它有著強大的功能，目前廣泛應用于數據分析、機器學習以及量化投資等。下面來跟隨作者一起認識下Pandas吧！

1 如何開始

Pandas安裝方式十分簡單，如果使用Anaconda，Anaconda默認就已經為我們安裝好了Pandas，直接拿來用就可以了，推薦使用這種方式。

如果不用Anaconda，只需執行如下命令即可：

pip install pandas

像其他python庫一樣，使用之前需要導入，通常采用如下方式：

import pandas as pd

2 Pandas數據結構

Pandas的數據結構包括 Series、 DataFrame以及 Panel，這些數據結構基于 Numpy，因此效率很高。其中 DataFrame最為常用，是Pandas最主要的數據結構。所有Pandas數據結構都是值可變的，除 Series外都是大小（Size）可變的， Series大小不可變。

Series

Series是一維的類似的數組的對象，它包含一個數組的數據（任意NumPy的數據類型）和一個與數組關聯的索引。

>>> import pandas as pd>>> import numpy as np>>> s = pd.Series(np.random.randn(4))>>> s0    0.1027801    1.5230012    1.7700673    0.437553dtype: float64

可以看到Pandas默認為我們生成了索引，它的結構如下表所示：

0	1	2	3
0.102780	1.523001	1.770067	0.437553

我們也可以使用 index關鍵字為其指定索引：

>>> s = pd.Series(np.random.randn(4), index=['a', 'b', 'c', 'd'])>>> sa   -0.316668b    0.083363c   -0.520227d   -1.024034dtype: float64

DataFrame

DataFrame是二維的、類似表格的對象，是使用最為廣泛的Pandas數據結構。DataFrame有行和列的索引，訪問便捷。它可以被看作是Series的字典：

>>> data = {'name': ['張三', '李四', '王五'],...         'gender': ['M', 'F', 'M'],...         'height': [174, 160, 185],...         'weight': [80, 48, 70]}>>> frame = pd.DataFrame(data)>>> frame  name gender  height  weight0   張三      M     174      801   李四      F     160      482   王五      M     185      70

結構如下表所示

	name	gender	height	weight
0	張三	M	174	80
1	李四	F	160	48
2	王五	M	185	70

一方面，我們可以使用 columns關鍵字指定DataFrame列的順序，DataFrame的列將會嚴格按照 columns所指定的順序排列；另一方面，與Series相同，我們可以使用 index關鍵字為其指定索引：

>>> frame2 = pd.DataFrame(data, columns=['name', 'gender', 'weight'],...     index=['one', 'two', 'three'])>>> >>> frame2      name gender  weightone     張三      M      80two     李四      F      48three   王五      M      70

需要注意的是，DataFrame的同一列允許有不同類型的值（數字，字符串，布爾等），這便意味著：我們可以將 王五的 weight設置為 F。

3 數據訪問和遍歷

DataFrame支持按下標訪問：

>>> frame2.iloc[0]
name      張三
gender     M
weight    80
Name: one, dtype: object

>>> frame2.iloc[0]['weight']
80

也支持按索引訪問：

>>> frame2.loc['two']
name      李四
gender     F
weight    48
Name: two, dtype: object

>>> frame2.loc['two']['name']
'李四'

因此，DataFrame也支持如下兩種遍歷方式：

>>> for i in range(0, len(frame2)):...     print(frame2.iloc[i])*** 輸出結果略 ***

>>> for index, row in frame2.iterrows():...     print(row)*** 輸出結果略 ***

4 添加和刪除列

如果我們想增加一列，也非常方便，如計算BMI指數：

>>> frame['BMI'] = frame['weight']/(frame['height']*frame['height']/10000)>>> frame  name gender  height  weight        BMI0   張三      M     174      80  26.4235701   李四      F     160      48  18.7500002   王五      M     185      70  20.452885

僅需一行代碼而無需遍歷。

刪除列：

>>> del frame2['gender']>>> frame2      name  weightone     張三      80two     李四      48three   王五      70

5 添加和刪除行

添加行

>>> frame3 = pd.DataFrame([['小紅', 46], ['小明', 68]], columns = ['name', 'weight'], index=['four', 'five'])>>> frame4 = frame2.append(frame3)>>> frame4      name  weightone     張三      80two     李四      48three   王五      70four    小紅      46five    小明      68

刪除行

>>> frame4.drop('four')      name  weightone     張三      80two     李四      48three   王五      70five    小明      68

6 數據篩選

按下標取出前兩條記錄

>>> frame[:2]  name gender  height  weight       BMI0   張三      M     174      80  26.423571   李四      F     160      48  18.75000

按其他條件篩選

如找到BMI>20的記錄：

>>> mask = (frame['BMI'] > 20)>>> frame.loc[mask]  name gender  height  weight        BMI0   張三      M     174      80  26.4235702   王五      M     185      70  20.452885

DataFrame還支持許多其他的操作，篇幅有限，在此不一一展開。

7 Panel

Panel是三維的數據結構，可以看作是DataFrame的字典，這種數據結構使用很少，此處略過不提。

Pandas實戰

學習技術是為了更好的工作和生活，拋開應用，技術也就失去了存在的意義。本文開篇中提到，Pandas作為數據分析工具的一個重要應用場景是量化投資，在此我想分享一下使用pandas的一個場景：

我想篩選出A股市場中過去60個交易日表現好的那些股票。關于表現好，也許每個人都有自己的看法，我的標準如下

漲幅夠大，區間累計漲幅達60%以上
回撤小，區間內任意單個交易日跌幅不超過7%，包括高開低走7%（套人的不算好股票）；區間內任意連續兩個交易日累計跌幅不超過10%，包括連續兩個交易日高開低走10%

我使用的數據源是TuShare，它提供了A股復權日線圖，不過它沒有提供復權數據的每日漲跌幅，所以我們需要對他進行處理：

>>> import tushare as ts>>> import talib as tl>>> data = ts.get_k_data('300573', autype='qfq')>>> data['p_change'] = tl.ROC(data['close'], 1)

此處使用了TALib，一個開源的金融數據分析工具。

完成初步的數據處理之后，我們就可以運行篩選條件了，截取代碼片段如下：

threshold = 60
if len(data) < threshold:
    return False
data = data.tail(n=threshold)

ratio_increase = (data.iloc[-1]['close'] - data.iloc[0]['close']) / data.iloc[0]['close']
if ratio_increase < 0.6:
    return False

for i in range(1, len(data)):
    if data.iloc[i - 1]['p_change'] < -7 \
            or (data.iloc[i]['close'] - data.iloc[i]['open'])/data.iloc[i]['open'] * 100 < -7 \
            or data.iloc[i - 1]['p_change'] + data.iloc[i]['p_change'] < -10 \
            or (data.iloc[i]['close'] - data.iloc[i - 1]['open']) / data.iloc[i - 1]['open'] * 100 < -10:
        return False

return True

最后的結果如下：

[('603986', '兆易創新'), ('603882', '金域醫學'), ('603501', '韋爾股份'), ('300782', '卓勝微'), ('300622', '博士眼鏡'), ('300502', '新易盛'), ('300492', '山鼎設計'), ('300433', '藍思科技'), ('300223', '北京君正'), ('002917', '金奧博'), ('002892', '科力爾'), ('002876', '三利譜'), ('002850', '科達利'), ('002819', '東方中科'), ('002600', '領益智造'), ('002241', '歌爾股份'), ('000049', '德賽電池')]

可以看到其中科技股獨領風騷，誰讓我們大A是科技牛呢？

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

數據分析利器之Pandas

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

數據分析利器之Pandas

猜你喜歡

最新資訊

相關推薦

相關標簽