您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關如何用一行Python進行數據收集探索,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
簡易的Pandas之路
任何使用Python數據的人都會熟悉Pandas包。Pandas是大多數行和列格式數據的go-to包。如果你沒有Pandas,請確保在終端中使用pip install安裝:
pip install pandas
現在,讓我們看看Pandas包中的默認方法可以做些什么:
以下內容寫給不知道上面發生了什么的新手:
任何Pandas數據幀都有一個.descripe()返回上面的輸出的方法。但是,此方法中沒有注意到分類變量。在上面的示例中,輸出中完全省略了“ method ”列。
讓我們看看能不能解決這個問題。
Pandas分析
如果我告訴你僅用3行Python就可以產生以下統計信息,你會怎么想?但其實,如果不計算imports的話,總體上只用1行就夠。
要點:類型,唯一值,缺失值
分位數統計信息:例如最小值,Q1,中位數,Q3,最大值,范圍,四分位數范圍
描述性統計數據:例如平均值,眾數,標準偏差,總和,中位數絕對偏差,變異系數,峰度,偏度
常用值
直方圖
高相關變量Spearman,Pearson和Kendall矩陣的相關性突出顯示
缺失值矩陣,計數,熱圖和缺失值樹狀圖
(功能列表直接來自Pandas Profiling GitHub)
好吧,我們可以使用Pandas Profiling軟件包!要安裝Pandas Profiling軟件包,只需在終端中使用pip install即可:
pip install pandas_profiling
經驗豐富的數據分析人員可能會因為這些數據的松散甚至乍一看之下的“華而不實”而嗤之以鼻,但這對于快速獲得數據的第一手印象肯定是有用的:
我們首先看到的是概述,其中提供了關于數據和變量的一些非常高級的統計信息,以及變量之間的高相關性、高偏態性的警告等。
但這還不算什么。向下滾動我們會發現報告有多個部分,如果只是簡單地用圖片展示這個1行程序的輸出是不足以完全呈現這些內容的,所以我制作了一個gif:
我強烈建議大家自己去探索一下這個包的特性,畢竟,這里提到的只是一行代碼,在將來 的數據分析中,這個包可能會對你非常有用。
import pandas as pd import pandas_profiling pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/planets.csv').profile_report()
以上就是如何用一行Python進行數據收集探索,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。