十分鐘搞定pandas(持續更新中)

發布時間：2020-05-26 11:31:34 來源：網絡閱讀：986 作者：Eynjay 欄目：大數據

本文是對pandas官方網站上《10 Minutes to pandas》的一個簡單的翻譯，原文在這里。這篇文章是對pandas的一個簡單的介紹，詳細的介紹請參考：Cookbook 。習慣上，我們會按下面格式引入所需要的包：

In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: import matplotlib.pyplot as plt

一、創建對象

可以通過 Data Structure Intro Setion 來查看有關該節內容的詳細信息。

1、可以通過傳遞一個list對象來創建一個Series，pandas會默認創建整型索引：

In [4]: s = pd.Series([1,3,5,np.nan,6,8])
In [5]: s
Out[5]:
 0   1.0
 1   3.0
 2   5.0
 3   NaN
 4   6.0
 5   8.0
 dtype: float64

2、通過傳遞一個numpy array，時間索引以及列標簽來創建一個DataFrame：

In [6]: dates = pd.date_range('20130101', periods=6)
In [7]: dates
Out[7]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
       '2013-01-05', '2013-01-06'],
       dtype='datetime64[ns]', freq='D')
In [8]: df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
In [9]: df
Out[9]: 
                  A      B     C     D
          2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
          2013-01-02  1.212112 -0.173215  0.119209 -1.044236
          2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
          2013-01-04  0.721555 -0.706771 -1.039575  0.271860
          2013-01-05 -0.424972  0.567020  0.276232 -1.087401
          2013-01-06 -0.673690  0.113648 -1.478427  0.524988

3、通過傳遞一個能夠被轉換成類似序列結構的字典對象來創建一個DataFrame：

In [10]: df2 = pd.DataFrame({ 'A' : [1.],
   ....:                     'B' : pd.Timestamp('20130102'),  
   ....:                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),   
   ....:                     'D' : np.array([3] * 4,dtype='int32'),   
   ....:                     'E' : pd.Categorical(["test","train","test","train"]),   
   ....:                     'F' : 'foo' })   
   ....: 
 In [11]: df2
 Out[11]:      
      A      B    C   D    E    F
 0  1.0 2013-01-02  1.0  3   test  foo
 1  1.0 2013-01-02  1.0  3  train  foo
 2  1.0 2013-01-02  1.0  3   test  foo
 3  1.0 2013-01-02  1.0  3  train  foo

4、查看不同列的數據類型：

In [12]: df2.dtypes
Out[12]: 
A           float64
B       datetime64[ns]
C           float32
D            int32
E          category
F            object
dtype: object

5、如果你使用的是IPython，使用Tab自動補全功能會自動識別所有的屬性以及自定義的列，下圖中是所有能夠被自動識別的屬性的一個子集：

In [13]: df2.<TAB>
df2.A                  df2.bool
df2.abs                df2.boxplot
df2.add                df2.C
df2.add_prefix             df2.clip
df2.add_suffix             df2.clip_lower
df2.align               df2.clip_upper
df2.all                df2.columns
df2.any                df2.combine
df2.append               df2.combine_first
df2.apply               df2.compound
df2.applymap              df2.consolidate
df2.D

二、查看數據

詳情請參閱：Basics Section

1、查看frame中頭部和尾部的數據（默認5行）：

In [14]: df.head()
Out[14]: 
           A         B    C       D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
In [15]: df.tail(3)
Out[15]:             
              A    B         C      D
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

2、顯示索引、列和底層的numpy數據：

In [16]: df.index
Out[16]: DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04', 
                '2013-01-05', '2013-01-06'],              
                dtype='datetime64[ns]', freq='D')
In [17]: df.columns
Out[17]: Index(['A', 'B', 'C', 'D'], dtype='object')
In [18]: df.values
Out[18]: array([[ 0.4691, -0.2829, -1.5091, -1.1356],
            [ 1.2121, -0.1732,  0.1192, -1.0442],       
            [-0.8618, -2.1046, -0.4949,  1.0718],       
            [ 0.7216, -0.7068, -1.0396,  0.2719],       
            [-0.425 ,  0.567 ,  0.2762, -1.0874],       
            [-0.6737,  0.1136, -1.4784,  0.525 ]])

3、 describe()函數對于數據的快速統計匯總：

In [19]: df.describe()
Out[19]:  
             A         B      C       D
       count  6.000000  6.000000  6.000000  6.000000
       mean   0.073711  -0.431125  -0.687758  -0.233103
       std   0.843157  0.922818  0.779887  0.973118
       min   -0.861849  -2.104569  -1.509059  -1.135632
       25%   -0.611510  -0.600794  -1.368714  -1.076610
       50%   0.022070  -0.228039  -0.767252  -0.386188
       75%   0.658444  0.041933  -0.034326  0.461706
       max   1.212112  0.567020  0.276232  1.071804

4、對數據的轉置：

In [20]: df.T
Out[20]:
     2013-01-01  2013-01-02  2013-01-03  2013-01-04  2013-01-05  2013-01-06
A    0.469112    1.212112   -0.861849    0.721555   -0.424972   -0.673690
B   -0.282863   -0.173215   -2.104569   -0.706771    0.567020    0.113648
C   -1.509059    0.119209   -0.494929   -1.039575    0.276232   -1.478427
D   -1.135632   -1.044236    1.071804    0.271860   -1.087401    0.524988

5、按軸進行排序

axis = 0代表的是行，也就是index。axis = 1代表的是列，也就是columns。
axis = 1，指的是沿著行進行運算，代表了橫軸，那axis = 0，就是沿著列進行運算，代表了縱軸。

In [21]: df.sort_index(axis=1, ascending=False)
Out[21]: 
        D     C     B       A
2013-01-01 -1.135632 -1.509059 -0.282863  0.469112
2013-01-02 -1.044236  0.119209 -0.173215  1.212112
2013-01-03  1.071804 -0.494929 -2.104569 -0.861849
2013-01-04  0.271860 -1.039575 -0.706771  0.721555
2013-01-05 -1.087401  0.276232  0.567020 -0.424972
2013-01-06  0.524988 -1.478427  0.113648 -0.673690

6、按值進行排序

In [22]: df.sort_values(by='B')
Out[22]:       
          A        B      C       D
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-06 -0.673690  0.113648 -1.478427  0.524988
2013-01-05 -0.424972  0.567020  0.276232 -1.087401

三、選擇

雖然標準的Python/Numpy的選擇和設置表達式都能夠直接派上用場，但是作為工程使用的代碼，我們推薦使用經過優化的pandas數據訪問方式： .at, .iat, .loc, .iloc 和 .ix詳情請參閱Indexing and Selecing Data 和 MultiIndex / Advanced Indexing。

很常用的但是原文中沒說的一個查詢：通過行號和列名定位單元格，比如取出第三行的pname字段的值，我的辦法：

df.iloc[2].pname，如果你明確知道行索引可以用loc：df.loc[index].pname；最后是萬能式：df.ix[2][pname]或df.ix[index][2]，索引與列，均可為序號或名稱

（一）獲取

1、選擇一個單獨的列，這將會返回一個Series，等同于df.A：

In [23]: df['A']
Out[23]:
 2013-01-01    0.469112
 2013-01-02    1.212112
 2013-01-03   -0.861849
 2013-01-04    0.721555
 2013-01-05   -0.424972
 2013-01-06   -0.673690
 Freq: D, Name: A, dtype: float64

2、通過[]進行選擇，這將會對行進行切片

In [24]: df[0:3]
Out[24]:  
           A       B       C      D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
In [25]: df['20130102':'20130104']
Out[25]:    
           A       B        C      D
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860

（二）通過標簽選擇

更多閱讀查看 Selection by Label

1、使用標簽來獲取一個交叉的區域

In [26]: df.loc[dates[0]]
Out[26]: 
A   0.469112
B   -0.282863
C   -1.509059
D   -1.135632
Name: 2013-01-01 00:00:00, dtype: float64

2、通過標簽來在多個軸上進行選擇

In [27]: df.loc[:,['A','B']]
Out[27]:       
          A         B
2013-01-01  0.469112 -0.282863
2013-01-02  1.212112 -0.173215
2013-01-03 -0.861849 -2.104569
2013-01-04  0.721555 -0.706771
2013-01-05 -0.424972  0.567020
2013-01-06 -0.673690  0.113648

3、標簽切片

In [28]: df.loc['20130102':'20130104',['A','B']]
Out[28]:     
           A        B
2013-01-02  1.212112 -0.173215
2013-01-03 -0.861849 -2.104569
2013-01-04  0.721555 -0.706771

4、對于返回的對象進行維度縮減

In [29]: df.loc['20130102',['A','B']]
Out[29]:
 A    1.212112
 B   -0.173215
 Name: 2013-01-02 00:00:00, dtype: float64

5、獲取一個標量

In [30]: df.loc[dates[0],'A']
Out[30]: 0.46911229990718628

6、快速訪問一個標量（與上一個方法等價）

In [31]: df.at[dates[0],'A']
Out[31]: 0.46911229990718628

（三）通過位置選擇

1、使用iloc通過傳遞數值（行號，不能是標簽）進行位置選擇（選擇的是行）

In [32]: df.iloc[3]
Out[32]:
 A    0.721555
 B   -0.706771
 C   -1.039575
 D    0.271860
 Name: 2013-01-04 00:00:00, dtype: float64

2、通過數值進行切片，與numpy/python中的情況類似

In [33]: df.iloc[3:5,0:2]
Out[33]:      
          A        B
2013-01-04  0.721555 -0.706771
2013-01-05 -0.424972  0.567020

3、通過指定一個位置的列表，與numpy/python中的情況類似

In [34]: df.iloc[[1,2,4],[0,2]]
Out[34]:      
          A         C
2013-01-02  1.212112  0.119209
2013-01-03   -0.861849 -0.494929
2013-01-05  -0.424972  0.276232

4、對行進行切片

In [35]: df.iloc[1:3,:]
Out[35]:          
          A       B        C       D
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03  -0.861849 -2.104569 -0.494929  1.071804

5、對列進行切片

In [36]: df.iloc[:,1:3]
Out[36]:       
        B       C
2013-01-01 -0.282863 -1.509059
2013-01-02 -0.173215  0.119209
2013-01-03 -2.104569 -0.494929
2013-01-04 -0.706771 -1.039575
2013-01-05  0.567020  0.276232
2013-01-06  0.113648 -1.478427

6、獲取特定的值

In [37]: df.iloc[1,1]
Out[37]: -0.17321464905330858

7、快速訪問一個標量（等同于前面的方法）

In [38]: df.iat[1,1]
Out[38]: -0.17321464905330858

（四）布爾索引

1、使用一個單獨列的值來選擇數據：

In [39]: df[df.A > 0]
Out[39]:         
           A       B        C       D
 2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
 2013-01-02  1.212112 -0.173215  0.119209 -1.044236
 2013-01-04  0.721555 -0.706771 -1.039575  0.271860

2、(獲取所有DataFrame中滿足條件的數據：

In [40]: df[df > 0]
Out[40]:       
         A         B        C      D
2013-01-01  0.469112       NaN       NaN     NaN
2013-01-02  1.212112       NaN       0.119209     NaN
2013-01-03     NaN       NaN       NaN  1.071804
2013-01-04  0.721555       NaN       NaN  0.271860
2013-01-05     NaN       0.567020       0.276232     NaN
2013-01-06     NaN       0.113648       NaN  0.524988

3、使用isin()方法來過濾：

在索引index中搜索，這是最基本的查詢了：

比如查詢數據中是否有‘2013-01-01’ 這天的數據：
if len(df.query('index == "{0}"'.format('2013-01-01')) )>0:

In [41]: df2 = df.copy()
In [42]: df2['E'] = ['one', 'one','two','three','four','three']
In [43]: df2
Out[43]:        
            A      B       C      D      E
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632    one
2013-01-02  1.212112 -0.173215  0.119209 -1.044236    one
2013-01-03  -0.861849 -2.104569 -0.494929  1.071804   two
2013-01-04  0.721555 -0.706771 -1.039575  0.271860   three
2013-01-05 -0.424972  0.567020  0.276232 -1.087401   four
2013-01-06 -0.673690  0.113648 -1.478427  0.524988  three
In [44]: df2[df2['E'].isin(['two','four'])]
Out[44]:          
          A        B     C       D      E
2013-01-03 -0.861849 -2.104569  -0.494929  1.071804   two
2013-01-05 -0.424972  0.567020  0.276232 -1.087401  four

（五）設置

按條件修改列值：

list(df['colName'].apply(lambda x:1 if x>np.mean(df(traindf['colName'])) else 0))#大于該列平均值則為1

1、設置一個新的列：

In [45]: s1 = pd.Series([1,2,3,4,5,6], index=pd.date_range('20130102', periods=6))
In [46]: s1
Out[46]: 
2013-01-02    1
2013-01-03    2
2013-01-04    3
2013-01-05    4
2013-01-06    5
2013-01-07    6
Freq: D, dtype: int64
In [47]: df['F'] = s1

2、通過標簽設置新的值：

In [48]: df.at[dates[0],'A'] = 0

3、通過位置設置新的值：

In [49]: df.iat[0,1] = 0

4、通過一個numpy數組設置一組新值：

In [50]: df.loc[:,'D'] = np.array([5] * len(df))

5、上述操作結果如下：

In [51]: df
Out[51]:         
           A         B       C    D   F
2013-01-01  0.000000  0.000000  -1.509059  5  NaN
2013-01-02  1.212112  -0.173215  0.119209  5  1.0
2013-01-03  -0.861849  -2.104569  -0.494929  5  2.0
2013-01-04  0.721555  -0.706771  -1.039575  5  3.0
2013-01-05  -0.424972  0.567020  0.276232  5  4.0
2013-01-06  -0.673690  0.113648  -1.478427  5  5.0

6、通過where操作來設置新的值：

In [52]: df2 = df.copy()
In [53]: df2[df2 > 0] = -df2
In [54]: df2Out[54]:        
         A      B    C    D  F
2013-01-01  0.000000  0.000000 -1.509059 -5  NaN
2013-01-02 -1.212112 -0.173215 -0.119209 -5 -1.0
2013-01-03 -0.861849 -2.104569 -0.494929 -5 -2.0
2013-01-04 -0.721555 -0.706771 -1.039575 -5 -3.0
2013-01-05 -0.424972 -0.567020 -0.276232 -5 -4.0
2013-01-06 -0.673690 -0.113648 -1.478427 -5 -5.0

四、缺失值處理

在pandas中，使用np.nan來代替缺失值，這些值將默認不會包含在計算中，詳情請參閱：Missing Data Section。

1、 reindex()方法可以對指定軸上的索引進行改變/增加/刪除操作，這將返回原始數據的一個拷貝：

In [55]: df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
In [56]: df1.loc[dates[0]:dates[1],'E'] = 1
In [57]: df1
Out[57]:         
           A         B       C  D   F   E
2013-01-01  0.000000  0.000000  -1.509059  5  NaN  1.0
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0
2013-01-03  -0.861849 -2.104569  -0.494929  5  2.0  NaN
2013-01-04  0.721555 -0.706771  -1.039575  5  3.0  NaN

2、去掉包含缺失值的行：

In [58]: df1.dropna(how='any')
Out[58]:          
          A     B      C  D   F   E
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0

3、對缺失值進行填充：

In [59]: df1.fillna(value=5)
Out[59]:         
           A         B       C  D   F    E
2013-01-01  0.000000  0.000000  -1.509059  5  5.0  1.0
2013-01-02  1.212112 -0.173215  0.119209  5  1.0  1.0
2013-01-03  -0.861849 -2.104569  -0.494929  5  2.0  5.0
2013-01-04  0.721555 -0.706771  -1.039575  5  3.0  5.0

4、對數據進行布爾填充：

In [60]: pd.isna(df1)
Out[60]:      
           A    B     C     D     F    E
2013-01-01  False  False  False  False  True   False
2013-01-02  False  False  False  False  False  False
2013-01-03  False  False  False  False  False   True
2013-01-04  False  False  False  False  False   True

五、相關操作

詳情請參與 Basic Section On Binary Ops

（一）統計（相關操作通常情況下不包括缺失值）

1、執行描述性統計：

In [61]: df.mean()
Out[61]: 
A   -0.004474
B   -0.383981
C   -0.687758
D    5.000000
F    3.000000
dtype: float64

2、在其他軸上進行相同的操作：

In [62]: df.mean(1)
Out[62]: 
2013-01-01    0.872735
2013-01-02    1.431621
2013-01-03    0.707731
2013-01-04    1.395042
2013-01-05    1.883656
2013-01-06    1.592306
Freq: D, dtype: float64

3、對于擁有不同維度，需要對齊的對象進行操作。Pandas會自動的沿著指定的維度進行廣播：

In [63]: s = pd.Series([1,3,5,np.nan,6,8], index=dates).shift(2)
In [64]: s
Out[64]: 
2013-01-01    NaN
2013-01-02    NaN
2013-01-03    1.0
2013-01-04    3.0
2013-01-05    5.0
2013-01-06    NaN
Freq: D, dtype: float64
In [65]: df.sub(s, axis='index')
Out[65]:        
              A         B         C   D    F
2013-01-01       NaN       NaN       NaN  NaN  NaN
2013-01-02       NaN       NaN       NaN  NaN  NaN
2013-01-03    -1.861849    -3.104569    -1.494929  4.0  1.0
2013-01-04    -2.278445    -3.706771    -4.039575  2.0  0.0
2013-01-05    -5.424972    -4.432980    -4.723768  0.0 -1.0
2013-01-06       NaN       NaN       NaN  NaN  NaN

（二）應用

1、對數據應用函數：

In [66]: df.apply(np.cumsum)
Out[66]:       
             A       B      C   D    F
2013-01-01  0.000000  0.000000 -1.509059   5   NaN
2013-01-02  1.212112 -0.173215 -1.389850  10   1.0
2013-01-03  0.350263 -2.277784 -1.884779  15   3.0
2013-01-04  1.071818 -2.984555 -2.924354  20   6.0
2013-01-05  0.646846 -2.417535 -2.648122  25  10.0
2013-01-06  -0.026844 -2.303886 -4.126549  30  15.0
In [67]: df.apply(lambda x: x.max() - x.min())
Out[67]: 
A    2.073961
B    2.671590
C    1.785291
D    0.000000
F    4.000000
dtype: float64

（三）直方圖

具體請參照：Histogramming and Discretization

In [68]: s = pd.Series(np.random.randint(0, 7, size=10))
In [69]: s
Out[69]: 
0    4
1    2
2    1
3    2
4    6
5    4
6    4
7    6
8    4
9    4
dtype: int64
In [70]: s.value_counts()
Out[70]: 
4    5
6    2
2    2
1    1
dtype: int64

（四）字符串方法

Series對象在其str屬性中配備了一組字符串處理方法，可以很容易的應用到數組中的每個元素，如下段代碼所示。更多詳情請參考：Vectorized String Methods.

In [71]: s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
In [72]: s.str.lower()
Out[72]: 
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

六、合并

Pandas提供了大量的方法能夠輕松的對Series，DataFrame和Panel對象進行各種符合各種邏輯關系的合并操作。具體請參閱：Merging section

（一）連接

把一個字典插入表中形成新的一列：df['列名'][dict.keys()] = dict.values()

刪除一列：del df['列名']

In [73]: df = pd.DataFrame(np.random.randn(10, 4))
In [74]: df
Out[74]:  
       0       1      2      3
0 -0.548702  1.467327 -1.015962 -0.483075
1  1.637550 -1.217659 -0.291519 -1.745505
2 -0.263952  0.991460 -0.919069  0.266046
3 -0.709661  1.669052  1.037882 -1.705775
4 -0.919854 -0.042379  1.247642 -0.009920
5  0.290213  0.495767  0.362949  1.548106
6 -1.131345 -0.089329  0.337863 -0.945867
7 -0.932132  1.956030  0.017587 -0.016692
8 -0.575247  0.254161 -1.143704  0.215897
9  1.193555 -0.077118 -0.408530 -0.862495
# break it into pieces
In [75]: pieces = [df[:3], df[3:7], df[7:]]
In [76]: pd.concat(pieces)
Out[76]:  
      0       1      2        3
0  -0.548702  1.467327 -1.015962  -0.483075
1  1.637550  -1.217659 -0.291519  -1.745505
2  -0.263952  0.991460 -0.919069  0.266046
3  -0.709661  1.669052  1.037882  -1.705775
4  -0.919854  -0.042379  1.247642  -0.009920
5  0.290213  0.495767  0.362949  1.548106
6  -1.131345  -0.089329  0.337863  -0.945867
7  -0.932132  1.956030  0.017587  -0.016692
8  -0.575247  0.254161 -1.143704  0.215897
9  1.193555  -0.077118 -0.408530  -0.862495

（二）連接

Join 類似于SQL類型的合并，具體請參閱：Database style joining

In [77]: left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
In [78]: right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
In [79]: left
Out[79]: 
   key     lval
0  foo     1
1  foo     2
In [80]: right
Out[80]: 
   key     rval
0  foo     4
1  foo     5
In [81]: pd.merge(left, right, on='key')
Out[81]: 
   key     lval     rval
0  foo     1     4
1  foo     1     5
2  foo     2     4
3  foo     2     5

另一個能夠展示的例子：

In [82]: left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
In [83]: right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
In [84]: left
Out[84]: 
   key   lval
0  foo     1
1  bar     2
In [85]: right
Out[85]: 
   key   rval
0  foo     4
1  bar     5
In [86]: pd.merge(left, right, on='key')
Out[86]: 
   key    lval  rval
0  foo     1     4
1  bar     2     5

（三）附加

Append 將一行連接到一個DataFrame上，具體請參閱Appending：

In [87]: df = pd.DataFrame(np.random.randn(8, 4), columns=['A','B','C','D'])
In [88]: df
Out[88]:  
       A       B       C       D
0  1.346061  1.511763  1.627081  -0.990582
1  -0.441652  1.211526  0.268520  0.024580
2  -1.577585  0.396823  -0.105381  -0.532532
3  1.453749  1.208843  -0.080952  -0.264610
4  -0.727965  -0.589346  0.339969  -0.693205
5  -0.339355  0.593616  0.884345  1.591431
6  0.141809  0.220390  0.435589  0.192451
7  -0.096701  0.803351  1.715071  -0.708758
In [89]: s = df.iloc[3]
In [90]: df.append(s, ignore_index=True)
Out[90]:  
         A       B       C       D
  0  1.346061  1.511763  1.627081  -0.990582
  1  -0.441652  1.211526  0.268520  0.024580
  2  -1.577585  0.396823  -0.105381  -0.532532
  3  1.453749  1.208843  -0.080952  -0.264610
  4  -0.727965  -0.589346  0.339969  -0.693205
  5  -0.339355  0.593616  0.884345  1.591431
  6  0.141809  0.220390  0.435589  0.192451
  7  -0.096701  0.803351  1.715071  -0.708758
  8  1.453749  1.208843  -0.080952  -0.264610

七、分組

對于”group by”操作，我們通常是指以下一個或多個操作步驟：

l （Splitting）按照一些規則將數據分為不同的組；

l （Applying）對于每組數據分別執行一個函數；

l （Combining）將結果組合到一個數據結構中；

詳情請參閱：Grouping section

In [91]: df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',   
   ....:                           'foo', 'bar', 'foo', 'foo'],   
   ....:                    'B' : ['one', 'one', 'two', 'three',   
   ....:                           'two', 'two', 'one', 'three'],   
   ....:                    'C' : np.random.randn(8),   
   ....:                    'D' : np.random.randn(8)})   
   ....: 
   In [92]: df
   Out[92]:  
       A      B       C       D
   0  foo    one  -1.202872  -0.055224
   1  bar    one  -1.814470  2.395985
   2  foo    two  1.018601  1.552825
   3  bar   three  -0.595447  0.166599
   4  foo    two  1.395433  0.047609
   5  bar    two  -0.392670  -0.136473
   6  foo    one  0.007207  -0.561757
   7  foo  three  1.928123   -1.623033

1、分組并對每個分組執行sum函數：

In [93]: df.groupby('A').sum()
Out[93]:    
      C        D
A                     
bar  -2.802588  2.42611
foo  3.146492  -0.63958

2、通過多個列進行分組形成一個層次索引，然后執行函數：

In [94]: df.groupby(['A','B']).sum()
Out[94]: 
           C         D
 A   B                        
 bar one   -1.814470  2.395985    
     three  -0.595447  0.166599    
     two   -0.392670  -0.136473
 foo one   -1.195665  -0.616981    
     three  1.928123  -1.623033    
     two    2.414034  1.600434

八、重塑

詳情請參閱 Hierarchical Indexing 和 Reshaping。

（一）棧

In [95]: tuples = list(zip(*[['bar', 'bar', 'baz', 'baz', 
  ....:                      'foo', 'foo', 'qux', 'qux'],   
  ....:                     ['one', 'two', 'one', 'two',   
  ....:                      'one', 'two', 'one', 'two']]))   
  ....: 
In [96]: index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
In [97]: df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])In [98]: df2 = df[:4]
In [99]: df2
Out[99]:    
              A         B
first second                    
bar   one     0.029399  -0.542108      
       two     0.282696  -0.087302
baz   one    -1.575170  1.771208
     two     0.816482  1.100230

stack（）函數 “壓縮” 數據楨的列一個級別.

In [100]: stacked = df2.stack()
In [101]: stacked
Out[101]: 
first  second   
bar    one     A    0.029399
            B    -0.542108       
      two     A    0.282696               
                   B    -0.087302
baz    one     A    -1.575170  
            B    1.771208
      two     A    0.816482               
                   B    1.100230
dtype: float64

被“堆疊”數據楨或序列(有多個索引作為索引), 其stack()的反向操作是unstack(), 上面的數據默認反堆疊到上一級別:

In [102]: stacked.unstack()
Out[102]: 
                     A         B
first second                    
bar   one     0.029399 -0.542108 
     two     0.282696 -0.087302
baz   one    -1.575170  1.771208     
       two     0.816482  1.100230
In [103]: stacked.unstack(1)
Out[103]: 
second        one       two
first                      
bar   A  0.029399  0.282696      
       B -0.542108 -0.087302
baz   A -1.575170  0.816482     
       B  1.771208  1.100230
In [104]: stacked.unstack(0)
Out[104]: 
first        bar      baz
second                      
one    A  0.029399  -1.575170   
       B  -0.542108  1.771208
two    A  0.282696  0.816482   
       B  -0.087302  1.100230

（二）數據透視表，詳情請參閱：Pivot Tables.

In [105]: df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3, 
  .....:                    'B' : ['A', 'B', 'C'] * 4,
  .....:                    'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,   
  .....:                    'D' : np.random.randn(12),   
  .....:                    'E' : np.random.randn(12)})   
  .....: 
In [106]: df
Out[106]: 
        A  B    C         D         E
  0     one  A  foo  1.418757 -0.179666
  1     one  B  foo  -1.879024  1.291836
  2     two  C  foo  0.536826  -0.009614
  3    three  A  bar  1.006160  0.392149
  4     one  B  bar  -0.029716  0.264599
  5     one  C  bar  -1.146178  -0.057409
  6     two  A  foo   0.100900  -1.425638
  7    three  B  foo  -1.035018  1.024098
  8     one  C  foo   0.314665  -0.106062
  9     one  A  bar  -0.773723  1.824375
  10     two  B  bar   -1.170653  0.595974
  11    three  C  bar   0.648740  1.167115

可以從這個數據中輕松的生成數據透視表：

In [107]: pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])
Out[107]:
 C         bar       foo
 A     B                    
 one   A -0.773723  1.418757       
        B -0.029716  -1.879024      
        C -1.146178  0.314665
 three  A  1.006160      NaN      
        B     NaN  -1.035018      
        C  0.648740     NaN
 two   A     NaN  0.100900 
      B -1.170653     NaN      
      C     NaN  0.536826

九、時間序列

pandas有易用,強大且高效的函數用于高頻數據重采樣轉換操作(例如,轉換秒數據到5分鐘數據), 這是很普遍的情況，但并不局限于金融應用, 請參閱時間序列章節

In [108]: rng = pd.date_range('1/1/2012', periods=100, freq='S')
In [109]: ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
In [110]: ts.resample('5Min').sum()
Out[110]: 
2012-01-01    25083
Freq: 5T, dtype: int64

時區表示

In [111]: rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
In [112]: ts = pd.Series(np.random.randn(len(rng)), rng)
In [113]: ts
Out[113]:
 2012-03-06    0.464000
 2012-03-07    0.227371
 2012-03-08   -0.496922
 2012-03-09    0.306389
 2012-03-10   -2.290613
 Freq: D, dtype: float64
 In [114]: ts_utc = ts.tz_localize('UTC')
 In [115]: ts_utc
 Out[115]: 
 2012-03-06 00:00:00+00:00    0.464000
 2012-03-07 00:00:00+00:00    0.227371
 2012-03-08 00:00:00+00:00   -0.496922
 2012-03-09 00:00:00+00:00    0.306389
 2012-03-10 00:00:00+00:00   -2.290613
 Freq: D, dtype: float64

轉換到其它時區

In [116]: ts_utc.tz_convert('US/Eastern')
Out[116]:
2012-03-05 19:00:00-05:00    0.464000
2012-03-06 19:00:00-05:00    0.227371
2012-03-07 19:00:00-05:00    -0.496922
2012-03-08 19:00:00-05:00    0.306389
2012-03-09 19:00:00-05:00    -2.290613
Freq: D, dtype: float64

轉換不同的時間跨度

In [117]: rng = pd.date_range('1/1/2012', periods=5, freq='M')
In [118]: ts = pd.Series(np.random.randn(len(rng)), index=rng)
In [119]: ts
Out[119]: 
2012-01-31   -1.134623
2012-02-29   -1.561819
2012-03-31   -0.260838
2012-04-30    0.281957
2012-05-31    1.523962
Freq: M, dtype: float64
In [120]: ps = ts.to_period()
In [121]: ps
Out[121]: 
2012-01   -1.134623
2012-02   -1.561819
2012-03   -0.260838
2012-04    0.281957
2012-05    1.523962
Freq: M, dtype: float64
In [122]: ps.to_timestamp()
Out[122]: 
2012-01-01   -1.134623
2012-02-01   -1.5618192
012-03-01   -0.260838
2012-04-01    0.281957
2012-05-01    1.523962
Freq: MS, dtype: float64

轉換時段并且使用一些運算函數, 下例中, 我們轉換年報11月到季度結束每日上午9點數據

In [123]: prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
In [124]: ts = pd.Series(np.random.randn(len(prng)), prng)
In [125]: ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
In [126]: ts.head()
Out[126]: 
1990-03-01 09:00   -0.902937
1990-06-01 09:00    0.068159
1990-09-01 09:00   -0.057873
1990-12-01 09:00   -0.368204
1991-03-01 09:00   -1.144073
Freq: H, dtype: float64

十、分類

從0.15版本開始，pandas可以在DataFrame中支持Categorical類型的數據，詳細介紹參看：categorical introduction和API documentation。

In [127]: df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

1、將原始的grade轉換為Categorical數據類型：

In [128]: df["grade"] = df["raw_grade"].astype("category")
In [129]: df["grade"]
Out[129]: 
0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

2、將Categorical類型數據重命名為更有意義的名稱：

In [130]: df["grade"].cat.categories = ["very good", "good", "very bad"]

3、對類別進行重新排序，增加缺失的類別：

In [131]: df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])In [132]: df["grade"]
Out[132]: 
0    very good
1        good
2        good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]
4、  排序是按照Categorical的順序進行的而不是按照字典順序進行：

In [133]: df.sort_values(by="grade")
Out[133]: 
   id     raw_grade     grade
5   6         e   very bad
1   2         b      good
2   3         b      good
0   1         a  very good
3   4         a  very good
4   5         a  very good

5、對Categorical列進行排序時存在空的類別：

In [134]: df.groupby("grade").size()
Out[134]: 
grade
very bad     1
bad          0
medium       0
good         2
very good    3
dtype: int64

十一、畫圖

具體文檔參看：Plotting docs

In [135]: ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
In [136]: ts = ts.cumsum()
In [137]: ts.plot()
Out[137]: <matplotlib.axes._subplots.AxesSubplot at 0x1122ad630>

十分鐘搞定pandas(持續更新中)

對于DataFrame來說，plot是一種將所有列及其標簽進行繪制的簡便方法：

In [138]: df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
  .....:                   columns=['A', 'B', 'C', 'D'])   
  .....: 
In [139]: df = df.cumsum()
In [140]: plt.figure(); df.plot(); plt.legend(loc='best')
Out[140]: <matplotlib.legend.Legend at 0x115033cf8>

十分鐘搞定pandas(持續更新中)

十二、導入和保存數據

（一） CSV，參考：Writing to a csv file

1、寫入csv文件：

In [141]: df.to_csv('foo.csv')

2、從csv文件中讀取：

In [142]: pd.read_csv('foo.csv')
Out[142]: 
     Unnamed: 0          A          B         C          D
0    2000-01-01   0.266457  -0.399641 -0.219582   1.186860
1    2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
2    2000-01-03  -1.734933   0.530468  2.060811  -0.515536
3    2000-01-04  -1.555121   1.452620  0.239859  -1.156896
4    2000-01-05   0.578117   0.511371  0.103552  -2.428202
5    2000-01-06   0.478344   0.449933 -0.741620  -1.962409
6    2000-01-07   1.235339  -0.091757 -1.543861  -1.084753
..          
...        
...        
...       
...        
...
993  2002-09-20 -10.628548  -9.153563 -7.883146  28.313940
994  2002-09-21 -10.390377  -8.727491 -6.399645  30.914107
995  2002-09-22  -8.985362  -8.485624 -4.669462  31.367740
996  2002-09-23  -9.558560  -8.781216 -4.499815  30.518439
997  2002-09-24  -9.902058  -9.340490 -4.386639  30.105593
998  2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
999  2002-09-26 -11.856774 -10.671012 -3.216025  29.369368
[1000 rows x 5 columns]

（二）HDF5，參考：HDFStores

1、寫入HDF5存儲：

In [143]: df.to_hdf('foo.h6','df')

2、從HDF5存儲中讀取：

In [144]: pd.read_hdf('foo.h6','df')
Out[144]: 
               A        B      C        D
 2000-01-01   0.266457  -0.399641 -0.219582   1.186860
 2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
 2000-01-03  -1.734933   0.530468  2.060811  -0.515536
 2000-01-04  -1.555121   1.452620  0.239859  -1.156896
 2000-01-05   0.578117   0.511371  0.103552  -2.428202
 2000-01-06   0.478344   0.449933 -0.741620  -1.962409
 2000-01-07   1.235339  -0.091757 -1.543861  -1.084753
 ...               
 ...        
 ...       
 ...        
 ...
 2002-09-20 -10.628548  -9.153563 -7.883146  28.313940
 2002-09-21 -10.390377  -8.727491 -6.399645  30.914107
 2002-09-22  -8.985362  -8.485624 -4.669462  31.367740
 2002-09-23  -9.558560  -8.781216 -4.499815  30.518439
 2002-09-24  -9.902058  -9.340490 -4.386639  30.105593
 2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
 2002-09-26 -11.856774 -10.671012 -3.216025  29.369368
 [1000 rows x 4 columns]

（三）Excel，參考：MS Excel

1、寫入excel文件：

In [145]: df.to_excel('foo.xlsx', sheet_name='Sheet1')

2、從excel文件中讀取：

In [146]: pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
Out[146]:    
              A        B      C        D
2000-01-01   0.266457  -0.399641 -0.219582   1.186860
2000-01-02  -1.170732  -0.345873  1.653061  -0.282953
2000-01-03  -1.734933   0.530468  2.060811  -0.515536
2000-01-04  -1.555121   1.452620  0.239859  -1.156896
2000-01-05   0.578117   0.511371  0.103552  -2.428202
2000-01-06   0.478344   0.449933 -0.741620  -1.962409
2000-01-07   1.235339  -0.091757 -1.543861  -1.084753
...               
...        
...       
...        
...
2002-09-20 -10.628548  -9.153563 -7.883146  28.313940
2002-09-21 -10.390377  -8.727491 -6.399645  30.914107
2002-09-22  -8.985362  -8.485624 -4.669462  31.367740
2002-09-23  -9.558560  -8.781216 -4.499815  30.518439
2002-09-24  -9.902058  -9.340490 -4.386639  30.105593
2002-09-25 -10.216020  -9.480682 -3.933802  29.758560
2002-09-26 -11.856774 -10.671012 -3.216025  29.369368
[1000 rows x 4 columns]

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

十分鐘搞定pandas(持續更新中)

一、創建對象

二、查看數據

三、選擇

四、缺失值處理

五、相關操作

六、合并

七、分組

八、重塑

九、時間序列

十、分類

十一、畫圖

十二、導入和保存數據

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

十分鐘搞定pandas(持續更新中)

一、 創建對象

二、 查看數據

三、 選擇

四、 缺失值處理

五、相關操作

六、 合并

七、 分組

八、 重塑

九、時間序列

十、分類

十一、 畫圖

十二、 導入和保存數據

猜你喜歡

最新資訊

相關推薦

相關標簽

一、創建對象

二、查看數據

三、選擇

四、缺失值處理

六、合并

七、分組

八、重塑

十一、畫圖

十二、導入和保存數據