您好,登錄后才能下訂單哦!
這篇文章主要介紹了spss缺失值填補方法有幾種,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
spss缺失值填補方法有:1、均值插補,用該屬性的眾數來補齊缺失的值;2、利用同類均值插補;3、極大似然估計,通過觀測數據的邊際分布可以對未知參數進行極大似然估計;4、多重插補,根據某種選擇依據,選取最合適的插補值。
本教程操作環境:windows7系統、SPSS 26.0版、Dell G3電腦。
1、均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。
2、利用同類均值插補。同均值插補的方法都屬于單值插補,不同的是,它用層次聚類模型預測缺失變量的類型,再以該類型的均值插補。假設X=(X1,X2...Xp)為信息完全的變量,Y為存在缺失值的變量。
那么首先對X或其子集行聚類,然后按缺失個案所屬類來插補不同類的均值。如果在以后統計分析中還需以引入的解釋變量和Y做分析,那么這種插補方法將在模型中引入自相關,給分析造成障礙。
3、極大似然估計(Max Likelihood ,ML)。在缺失類型為隨機缺失的條件下,假設模型對于完整的樣本是正確的,那么通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。
這種方法也被稱為忽略缺失值的極大似然估計,對于極大似然的參數估計實際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。
4、多重插補(Multiple Imputation,MI)。多值插補的思想來源于貝葉斯估計,認為待插補的值是隨機的,它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值,然后再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。
擴展資料
缺失值產生的原因很多,裝備故障、無法獲取信息、與其他字段不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之后的數據可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特征。
對于缺失值的處理,從總體上來說分為刪除存在缺失值的個案和缺失值插補。對于主觀數據,人將影響數據的真實性,存在缺失值的樣本的其他屬性的真實值不能保證,那么依賴于這些屬性值的插補也是不可靠的,所以對于主觀數據一般不推薦插補的方法。插補主要是針對客觀數據,它的可靠性有保證。
感謝你能夠認真閱讀完這篇文章,希望小編分享的“spss缺失值填補方法有幾種”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。