您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關如何進行R語言中的缺失值分析,文章內容質量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。
mice函數中的md.pattern()函數可生成一個以矩陣貨數據框形式展示缺失值模式的表格,將函數運用到sleep數據集中:
> library(mice)
> data(sleep,package="VIM")
> md.pattern(sleep)
BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD 運行結果可知,0表示變量列中有缺失值,1表示變量列中缺失值,第一行表示無缺失值,第二行表示除了span之外無缺失值,第一列表示各個缺失值模式實例個數,最后一列表示各模式中有缺失值的變量個數。可看到,sleep數據集有42例沒有缺失值,僅2個實例缺失span,9個實例同時缺失NanD和Dream,數據集總共包含42x0+2x1+.....1x3=38個缺失值
aggr()函數不僅僅繪制每個變量的缺失值數,而且繪制每個變量組合的缺失值數,代碼:
>library(VIM)
> aggr(sleep,prop=FALSE,numbers=TRUE)
運行結果:
左邊的圖可知缺失值數量,NonD有最大的缺失值數14個,右邊的圖顯示有2個哺乳動物缺失NonD、Dream、Sleep評分。42個動物沒有缺失值。
> aggr(sleep, prop = TRUE, numbers = TRUE)#生成相同圖形,但是用比例取代計數, numbers = FALSE默認時刪去數值型標簽。
> matrixplot(sleep)
運行結果如下:
數值型的數量被轉換到[0,1]區間,利用灰度表示,顏色淺表示數值小,深色表示數值大,紅色表示缺失值。
>marginplot(sleep[c("Gest","Dream")],pch=c(20),col=c("darkgray","red","blue"))#做夢時間和哺乳動物妊娠時間的關系,pch和col是繪制圖形的符號和顏色
運行結果如下:圖形的主體是Gest和Dream(兩個變量數據都完整)的散點圖。左邊的箱線圖展示的是 (深灰色 )與不包括 ( 紅色 )Gest 的Dream變量分布。注意,在灰度圖上紅色是更深的陰影。 四個紅點代表缺失了Gest得分的Dream值。在底部邊界上,可以看到,妊娠期和做夢時長呈現負相關,缺失妊娠期數據時動物的做夢時長一般更長。兩個變量均有缺失值的觀測個數在兩邊界交叉處 (左下角 )藍色標出。
關于如何進行R語言中的缺失值分析就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。