您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關Python中missingno如何使用,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
pip install missingno
import missingno as msno
missingno一般配合numpy和pandas一起使用:
import numpy as np
import pandas as pd
案例中還會用到quilt,這是一個數據包管理器,可以讓你像管理代碼一樣管理數據,anaconda沒有內置,所以需要安裝一下。
from quilt.data.ResidentMario import missingno_data
collisions = missingno_data.nyc_collision_factors()
collisions = collisions.replace("nan", np.nan)
## 繪制缺失值矩陣圖
msno.matrix無效矩陣是一個數據密集的顯示,它可以快速直觀地看出數據完整度。
msno.matrix(collisions.sample(250))
空白越多說明缺失越嚴重
右側的迷你圖概述了數據完整性的一般形狀,并指出了數據集中具有最大和最小無效值的行數。需要說明的是,這個矩陣圖最多容納50個變量,超過此范圍的標簽開始重疊或變得不可讀,默認情況下,大尺寸顯示器會忽略它們。
如果要處理時間序列數據,則可以使用關鍵字參數指定周期性freq:
null_pattern = (np.random.random(1000).reshape((50, 20)) > 0.5).astype(bool)
null_pattern = pd.DataFrame(null_pattern).replace({False: None})
msno.matrix(null_pattern.set_index(pd.period_range('1/1/2011', '2/1/2015', freq='M')) , freq='BQ')
![](https://my-wechat.oss-cn-beijing.aliyuncs.com/image_20200403162803.png)
條形圖提供與矩陣圖相同的信息,但格式更簡單。msno.bar(collisions.sample(1000))
missingno相關性熱力圖可以顯示無效的相關性:一個變量的存在或不存在如何強烈影響的另一個的存在。
數值為1:兩個變量一個缺失另一個必缺失;
數值為-1:一個變量缺失另一個變量必然不缺失。
數值為0:變量缺失值出現或不出現彼此沒有影響。
熱力圖非常適合于選擇變量對之間的數據完整性關系,但是當涉及到較大的關系時,其解釋力有限,并且它不特別支持超大型數據集。
注:始終為滿或始終為空的變量沒有任何有意義的關聯,因此會從可視化中刪除。
msno.heatmap(collisions)
通過樹狀圖,可以更全面地觀察缺失變量的關聯性,揭示比關聯熱力圖更深刻的相關關系:
msno.dendrogram(collisions)
以上就是Python中missingno如何使用,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。