Pandas的功能及用法

發布時間：2021-08-23 02:59:32 來源：億速云閱讀：407 作者：chen 欄目：大數據

本篇內容介紹了“Pandas的功能及用法”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

1. 重要前言

做數據分析發現數據分析技能入門階段存在一個普遍性的問題，很多憑著興趣入坑的同學，都能夠很快熟悉Python基礎語法，然后不約而同的一頭扎進《利用Python進行數據分析》這本經典之中，硬著頭皮啃完之后，好像自己什么都會了一點，然而實際操作起來既不知從何操起，又漏洞百出。

2. pandas 簡介

江湖上流傳著這么一句話——分析不識潘大師（PANDAS），縱是老手也枉然。

Pandas是基于Numpy的專業數據分析工具，可以靈活高效的處理各種數據集，也是我們后期分析案例的神器。它提供了兩種類型的數據結構，分別是DataFrame和Series，我們可以簡單粗暴的把DataFrame理解為Excel里面的一張表，而Series就是表中的某一列，后面學習和用到的所有Pandas騷操作，都是基于這些表和列進行的操作（關于Pandas和Excel的形象關系，推薦張俊紅寫的《對比EXCEL，輕松學習Python數據分析》)。

這里有一點需要強調，Pandas和Excel、SQL相比，只是調用和處理數據的方式變了，核心都是對源數據進行一系列的處理，在正式處理之前，更重要的是謀定而后動，明確分析的意義，理清分析思路之后再處理和分析數據，往往事半功倍。

3. 創建、讀取、存儲

1、創建

在Pandas中我們想要構造下面這一張表應該如何操作呢？
Pandas的功能及用法
別忘了，第一步一定是先導入我們的庫——import pandas as pd

構造DataFrame最常用的方式是字典+列表，語句很簡單，先是字典外括，然后依次打出每一列標題及其對應的列值（此處一定要用列表），這里列的順序并不重要：

import pandas as pdimport numpy as npprint(pd.__version__)df1 = pd.DataFrame({
   
   
   '工資':[5000,7000,9000,8500],'績效分':[60,84,98,91],'備注':['不及格','良好','最佳','優秀']},   index=['老王','小劉','小趙','老龔'])df1

Pandas的功能及用法

左邊是jupyter notebook中dataframe的樣子，如果對應到excel中，他就是右邊表格的樣子，通過改變columns,index和values的值來控制數據。
PS: 如果我們在創建時不指定index，系統會自動生成從0開始的索引。

2、讀取

更多時候，我們是把相關文件數據直接讀進PANDAS中進行操作，這里介紹兩種非常接近的讀取方式，一種是CSV格式的文件，一種是EXCEL格式（.xlsx和xls后綴）的文件。
讀取csv文件：

df2 = pd.read_csv("/home/kg/liujinjie/phonebook/流量練習數據.csv",engine="python")df2.head()

Pandas的功能及用法
engine是使用的分析引擎，讀取csv文件一般指定python避免中文和編碼造成的報錯。而讀取Excel文件，則是一樣的味道：

df2 = pd.read_exce.("/home/kg/liujinjie/phonebook/流量練習數據.xls")df2.head()

Pandas的功能及用法
非常easy，其實read_csv和read_excel還有一些參數，比如header、sep、names等等，大家可以做額外了解。實踐中數據源的格式一般都是比較規整的，更多情況是直接讀取。

3、存儲

存儲起來一樣非常簡單粗暴且相似：

df2.to_csv("/home/kg/liujinjie/phonebook/sowhat.csv")df3.to_excel("/home/kg/liujinjie/phonebook/sowhat.xlsx")

4、數據源

流量來源	來源明細	訪客數	支付轉化率	客單價
一級	-A	35188	9.98%	54.3
一級	-B	28467	11.27%	99.93
一級	-C	13747	2.54%	0.08
一級	-D	5183	2.47%	37.15
一級	-E	4361	4.31%	91.73
一級	-F	4063	11.57%	65.09
一級	-G	2122	10.27%	86.45
一級	-H	2041	7.06%	44.07
一級	-I	1991	16.52%	104.57
一級	-J	1981	5.75%	75.93
一級	-K	1958	14.71%	85.03
一級	-L	1780	13.15%	98.87
一級	-M	1447	1.04%	80.07
二級	-A	39048	11.60%	91.91
二級	-B	3316	7.09%	66.28
二級	-C	2043	5.04%	41.91
三級	-A	23140	9.69%	83.75
三級	-B	14813	20.14%	82.97
四級	-A	216	1.85%	94.25
四級	-B	31	0.00%
四級	-C	17	0.00%
四級	-D	3	0.00%

4. 快速認識數據

這里以我們的案例數據為例，迅速熟悉查看N行，數據格式概覽以及基礎統計數據。

1、查看數據，掐頭看尾

很多時候我們想要對數據內容做一個總覽，用df.head()函數直接可以查看默認的前5行，與之對應，df.tail()就可以查看數據尾部的5行數據，這兩個參數內可以傳入一個數值來控制查看的行數，例如df.head(10)表示查看前10行數據。
Pandas的功能及用法

2、格式查看

df.info()幫助我們一步摸清各列數據的類型，以及缺失情況：
Pandas的功能及用法

3、統計信息概覽

df.describe() 快速計算數值型數據的關鍵統計指標，像平均數、中位數、標準差等等。
Pandas的功能及用法
我們本來有5列數據，為什么返回結果只有兩列？那是因為這個操作只針對數值型的列。其中count是統計每一列的有多少個非空數值，mean、std、min、max對應的分別是該列的均值、標準差、最小值和最大值，25%、50%、75%對應的則是分位數。

5. 列的基本處理方式

這里，我們采用SQL四大法寶的邏輯來簡單梳理針對列的基本處理方式——增、刪、選、改。

溫馨提示：使用Pandas時，盡量避免用行或者EXCEL操作單元格的思維來處理數據，要逐漸養成一種列向思維，每一列是同宗同源，處理起來是嗖嗖的快，just like HBase。

1、增

增加一列，用df[‘新列名’] = 新列值的形式，在原數據基礎上賦值即可：
Pandas的功能及用法

2、刪：

我們用drop函數制定刪除對應的列，axis = 1表示針對列的操作，inplace為True，則直接在源數據上進行修改，否則源數據會保持原樣。
Pandas的功能及用法

3、選：

想要選取某一列怎么辦？df[‘列名’]即可：
選取多列呢？需要用列表來傳遞：df[[‘第一列’,‘第二列’,‘第三列’…]]
Pandas的功能及用法

4、改：

好事多磨，復雜的針對特定條件和行列的篩選、修改，放在后面結合案例細講，這里只講一下最簡單的更改：df[‘舊列名’] = 某個值或者某列值，就完成了對原列數值的修改。
Pandas的功能及用法

6.常用數據類型及操作

1、字符串

字符串類型是最常用的格式之一了，Pandas中字符串的操作和原生字符串操作幾乎一毛一樣，唯一不同的是需要在操作前加上.str。

提示：我們最初用df2.info()查看數據類型時，非數值型的列都返回的是object格式，和str類型深層機制上的區別就不展開了，在常規實際應用中，我們可以先理解為object對應的就是str格式，int64對應的就是int格式，float64對應的就是float格式即可。

在案例數據中，我們發現來源明細那一列，可能是系統導出的歷史遺留問題，每一個字符串前面都有一個-符號，又丑又無用，所以把他給拿掉：
Pandas的功能及用法
一般來說清洗之后的列是要替換掉原來列的：

2、數值型

數值型數據，常見的操作是計算，分為與單個值的運算，長度相等列的運算。以案例數據為例，源數據訪客數我們是知道的，現在想把所有渠道的訪客都加上10000，怎么操作呢？

只需要選中訪客數所在列，然后加上10000即可，pandas自動將10000和每一行數值相加，針對單個值的其他運算（減乘除）也是如此。
Pandas的功能及用法
列之間的運算語句也非常簡潔。源數據是包含了訪客數、轉化率和客單價，而實際工作中我們對每個渠道貢獻的銷售額更感興趣。（銷售額 = 訪客數 X 轉化率 X 客單價）

對應操作語句：df[‘銷售額’] = df[‘訪客數’] * df[‘轉化率’] * df[‘客單價’]

但為什么瘋狂報錯？

導致報錯的原因，是數值型數據和非數值型數據相互計算導致的。PANDAS把帶%符號的轉化率識別成字符串類型，我們需要先拿掉百分號，再將這一列轉化為浮點型數據：
Pandas的功能及用法
要注意的是，這樣操作，把9.98%變成了9.98，所以我們還需要讓支付轉化率除以100，來還原百分數的真實數值：

然后，再用三個指標相乘計算銷售額：

3、時間類型

PANDAS中時間序列相關的水非常深，這里只對日常中最基礎的時間格式進行講解，對時間序列感興趣的同學可以自行查閱相關資料，深入了解。

以案例數據為例，我們這些渠道數據，是在2019年8月2日提取的，后面可能涉及到其他日期的渠道數據，所以需要加一列時間予以區分，在EXCEL中常用的時間格式是2019-8-3或者2019/8/3，我們用PANDAS來實現一下： Pandas的功能及用法
在實際業務中，一些時候PANDAS會把文件中日期格式的字段讀取為字符串格式，這里我們先把字符串2019-8-3賦值給新增的日期列，然后用to_datetime()函數將字符串類型轉換成時間格式：

轉換成時間格式（這里是datetime64）之后，我們可以用處理時間的思路高效處理這些數據，比如，我現在想知道提取數據這一天離年末還有多少天（‘2020-12-31’），直接做減法（該函數接受時間格式的字符串序列，也接受單個字符串）： Pandas的功能及用法
最后我們一起快速回顧下：

第一步，我們先了解PANDAS到底是個什么東西。
第二步，學習如何構建、讀入存儲數據。
第三步，拿到數據之后，怎么樣快速查看數據。
第四步，對數據有了基礎了解，就可以進行簡單的增刪選改了。
第五步，在了解基礎操作之后，對Pandas中基礎數據類型進行了初步照面。

“Pandas的功能及用法”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas的功能及用法

1. 重要前言

2. pandas 簡介

3. 創建、讀取、存儲

1、創建

2、讀取

3、存儲

4、數據源

4. 快速認識數據

1、查看數據，掐頭看尾

2、格式查看

3、統計信息概覽

5. 列的基本處理方式

1、增

2、刪：

3、選：

4、改：

6.常用數據類型及操作

1、字符串

2、數值型

3、時間類型

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Pandas的功能及用法

1. 重要前言

2. pandas 簡介

3. 創建、讀取、存儲

1、創建

2、 讀取

3、存儲

4、數據源

4. 快速認識數據

1、查看數據，掐頭看尾

2、 格式查看

3、統計信息概覽

5. 列的基本處理方式

1、增

2、刪：

3、選：

4、 改：

6.常用數據類型及操作

1、字符串

2、 數值型

3、時間類型

猜你喜歡

最新資訊

相關推薦

相關標簽

2、讀取

2、格式查看

4、改：

2、數值型