Pandas庫是什么及怎么使用

發布時間：2023-02-22 16:38:10 來源：億速云閱讀：312 作者：iii 欄目：開發技術

今天小編給大家分享一下Pandas庫是什么及怎么使用的相關知識點，內容詳細，邏輯清晰，相信大部分人都還太了解這方面的知識，所以分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后有所收獲，下面我們一起來了解一下吧。

Pandas的介紹

pandas 是基于NumPy 的一種工具，該工具是為解決數據分析任務而創建的。Pandas 納入了大量庫和一些標準的數據模型，提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現，它是使Python成為強大而高效的數據分析環境的重要因素之一。

2008年WesMcKinney開發出的庫
專門用于數據挖掘的開源python庫
以Numpy為基礎，借力Numpy模塊在計算方面性能高的優勢
基于matplotlib，能夠簡便的畫圖
獨特的數據結構

數據處理的時候經常性需要整理出表格，在這里介紹pandas常見使用：

參考鏈接：10 minutes to pandas https://pandas.pydata.org/docs/user_guide/10min.html#min

數據結構

Pandas常見的就兩種數據類型：Series和DataFrame，可以對應理解為向量和矩陣，前者是一維的，后者是二維的。在DF中類似統計學中的數據組織方式，一行代表一項數據，一列代表一種特征，用這種方式記憶能夠幫你更好理解DF。需要注意的是：在DF中index是行，column是列。

Pandas庫是什么及怎么使用

導入導出數據

常使用.csv格式的文件，我們在導入數據的時候使用pd.read_csv()，在導出數據的時候用df.write_csv(“/data/ymz.csv”).

# 讀入數據
In [144]: pd.read_csv("foo.csv")
Out[144]: 
     Unnamed: 0          A          B          C          D
0    2000-01-01   0.350262   0.843315   1.798556   0.782234
1    2000-01-02  -0.586873   0.034907   1.923792  -0.562651
2    2000-01-03  -1.245477  -0.963406   2.269575  -1.612566
3    2000-01-04  -0.252830  -0.498066   3.176886  -1.275581
4    2000-01-05  -1.044057   0.118042   2.768571   0.386039
..          ...        ...        ...        ...        ...
995  2002-09-22 -48.017654  31.474551  69.146374 -47.541670
996  2002-09-23 -47.207912  32.627390  68.505254 -48.828331
997  2002-09-24 -48.907133  31.990402  67.310924 -49.391051
998  2002-09-25 -50.146062  33.716770  67.717434 -49.037577
999  2002-09-26 -49.724318  33.479952  68.108014 -48.822030

[1000 rows x 5 columns]

# 寫出數據
In [143]: df.to_csv("foo.csv")

對數據進行操作

對數據操作包括增（創建），刪，改，查。

增加數據（創建數據）

相比較Series，我們更常使用DataFrame數據類型，常使用的創建DataFrame類型有兩種，一種是使用data創建（注意data得是一個二維list/array等），一種是使用字典創建。

1. 使用data創建DF

# 使用data導入
In [5]: dates = pd.date_range("20130101", periods=6)

In [6]: dates
Out[6]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [7]: df = pd.DataFrame(data=np.random.randn(6, 4), index=dates, columns=list("ABCD"))

In [8]: df
Out[8]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

2. 使用字典創建DF

# 使用字典
In [9]: df2 = pd.DataFrame(
   ...:     {
   ...:         "A": 1.0,
   ...:         "B": pd.Timestamp("20130102"),
   ...:         "C": pd.Series(1, index=list(range(4)), dtype="float32"),
   ...:         "D": np.array([3] * 4, dtype="int32"),
   ...:         "E": pd.Categorical(["test", "train", "test", "train"]),
   ...:         "F": "foo",
   ...:     }
   ...: )
   ...: 

In [10]: df2
Out[10]: 
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

3. 增加一行數據

1）使用loc在行尾增加

增加一行數據的方法有loc, iloc, append, concat, merge。這里介紹一下loc，loc[index]是在一行的最后增加數據。但是你需要注意loc[index]中的index，如果與已出現過的index相同，則會覆蓋原先index行，若不相同則才會增加一行數據。

Pandas庫是什么及怎么使用

2）使用concat將兩個DF合并

concat()也是一個增加數據常用的方法，常見于兩個表的拼接與爬蟲使用中，作用類似于append()，但是append()將在不久后被pandas舍棄，所以還是推薦使用concat()。

Pandas庫是什么及怎么使用

4. 增加一列數據

增加一列數據的方法直接用[]便可，例子如下：

Pandas庫是什么及怎么使用

Series用的比較少，案例如下：

In [3]: s = pd.Series([1, 3, 5, np.nan, 6, 8])

In [4]: s
Out[4]: 
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

刪除數據

對于刪除數據，我們使用drop()方法，并指定參數為index（行）或者column（列）

1. 刪除一行數據

Pandas庫是什么及怎么使用

2. 刪除一列數據

Pandas庫是什么及怎么使用

改動數據

改動一行，列數據常用loc()和[]方法。

1. 改動一行數據

改動一行我們使用loc[]=[…]進行更改。

Pandas庫是什么及怎么使用

2. 改動一列數據

改動一列數據我們使用[]進行更改。

Pandas庫是什么及怎么使用

查找數據

在查找數據的時候，我們常使用[]來查看行列數據，配合.T來將矩陣轉置。也可以使用head()，tail()來查看前幾行和后幾行數據。

1. 查看特定行數據

使用.loc[index]來查看特定行數據，或者[]。建議使用.loc[]方法或者.iloc[]方法，loc[]通過行的名字尋找，iloc[]通過索引尋找。

使用類似[0:2]來查看特定行數據，和python中list使用類似。這個方法其實是調用了__getitem__()方法。

Pandas庫是什么及怎么使用

2. 查看特定列數據

我們需要使用兩層[]嵌套來訪問數據，例如[ [“j”, “i”] ]。

Pandas庫是什么及怎么使用

3. 查看特定元素

確定第幾行第幾列后，使用.loc()方法或者.iloc()方法查找。

b = a.loc[ 1, "dir_name" ]

常用操作

數據分析時常用的兩個操作，轉置和計算統計量。

1. 轉置

使用.T便可以完成。

Pandas庫是什么及怎么使用

2. 計算統計量

使用.describe()。

Pandas庫是什么及怎么使用

3. 舍棄一列中多余重復數據

使用.drop_duplicates()

id_df = self.frames_meta_sub[['time_idx', 'pos_idx', 'slice_idx']].drop_duplicates()

4. 將特定列轉成numpy后處理

使用.to_numpy()方法將你所選擇的數據全部轉成二維的或者一維的ndarray，需要注意的是to_numpy()并不僅僅局限于數字，字符串也是可以轉換的（雖然這樣開銷比較大），ndarray能存儲字符串，這會讓你處理數據的過程變得異常簡單。有幾個維度取決于你取了幾行或者幾列。

df = df[ ["channel"] ]
ar = df.to_numpy()

5. 取出dataframe中特定位置的值

要取出 DataFrame 中特定位置的值，可以使用 .loc 或 .iloc 方法，具體取決于您想要使用的索引類型。

如果您使用標簽索引（例如，行和列都使用標簽名稱），則可以使用 .loc 方法。例如，如果您有一個名為 df 的 DataFrame，它具有行標簽為 row_label，列標簽為 column_label 的元素，則可以使用以下代碼獲取該元素的值：

value = df.loc[row_label, column_label]

如果您使用整數位置索引（例如，行和列都使用整數位置），則可以使用 .iloc 方法。例如，如果您有一個名為 df 的 DataFrame，它具有第一個行和第一個列的元素，則可以使用以下代碼獲取該元素的值：

value = df.iloc[0, 0]

請注意，索引從零開始，因此第一個行和第一個列的位置為 0。

以上就是“Pandas庫是什么及怎么使用”這篇文章的所有內容，感謝各位的閱讀！相信大家閱讀完這篇文章都有很大的收獲，小編每天都會為大家更新不同的知識，如果還想學習更多的知識，請關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas庫是什么及怎么使用

Pandas的介紹

數據結構

導入導出數據

對數據進行操作

增加數據（創建數據）

1. 使用data創建DF

2. 使用字典創建DF

3. 增加一行數據

4. 增加一列數據

刪除數據

1. 刪除一行數據

2. 刪除一列數據

改動數據

1. 改動一行數據

2. 改動一列數據

查找數據

1. 查看特定行數據

2. 查看特定列數據

3. 查看特定元素

常用操作

1. 轉置

2. 計算統計量

3. 舍棄一列中多余重復數據

4. 將特定列轉成numpy后處理

5. 取出dataframe中特定位置的值

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas庫是什么及怎么使用

Pandas的介紹

數據結構

導入導出數據

對數據進行操作

增加數據（創建數據）

1. 使用data創建DF

2. 使用字典創建DF

3. 增加一行數據

4. 增加一列數據

刪除數據

1. 刪除一行數據

2. 刪除一列數據

改動數據

1. 改動一行數據

2. 改動一列數據

查找數據

1. 查看特定行數據

2. 查看特定列數據

3. 查看特定元素

常用操作

1. 轉置

2. 計算統計量

3. 舍棄一列中多余重復數據

4. 將特定列轉成numpy后處理

5. 取出dataframe中特定位置的值

猜你喜歡

最新資訊

相關推薦

相關標簽