spss缺失值填補方法有幾種

發布時間：2021-05-18 14:39:02 來源：億速云閱讀：1773 作者：小新欄目：互聯網科技

這篇文章主要介紹了spss缺失值填補方法有幾種，具有一定借鑒價值，感興趣的朋友可以參考下，希望大家閱讀完這篇文章之后大有收獲，下面讓小編帶著大家一起了解一下。

spss缺失值填補方法有：1、均值插補，用該屬性的眾數來補齊缺失的值；2、利用同類均值插補；3、極大似然估計，通過觀測數據的邊際分布可以對未知參數進行極大似然估計；4、多重插補，根據某種選擇依據，選取最合適的插補值。

本教程操作環境：windows7系統、SPSS 26.0版、Dell G3電腦。

1、均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的，就以該屬性存在值的平均值來插補缺失的值；如果缺失值是非定距型的，就根據統計學中的眾數原理，用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

2、利用同類均值插補。同均值插補的方法都屬于單值插補，不同的是，它用層次聚類模型預測缺失變量的類型，再以該類型的均值插補。假設X=（X1，X2...Xp）為信息完全的變量，Y為存在缺失值的變量。

那么首先對X或其子集行聚類，然后按缺失個案所屬類來插補不同類的均值。如果在以后統計分析中還需以引入的解釋變量和Y做分析，那么這種插補方法將在模型中引入自相關，給分析造成障礙。

3、極大似然估計（Max Likelihood ，ML）。在缺失類型為隨機缺失的條件下，假設模型對于完整的樣本是正確的，那么通過觀測數據的邊際分布可以對未知參數進行極大似然估計（Little and Rubin）。

這種方法也被稱為忽略缺失值的極大似然估計，對于極大似然的參數估計實際中常采用的計算方法是期望值最大化(Expectation Maximization，EM）。

4、多重插補（Multiple Imputation，MI）。多值插補的思想來源于貝葉斯估計，認為待插補的值是隨機的，它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值，然后再加上不同的噪聲，形成多組可選插補值。根據某種選擇依據，選取最合適的插補值。

擴展資料

缺失值產生的原因很多，裝備故障、無法獲取信息、與其他字段不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值，插值之后的數據可看作服從特定概率分布。另外，也可以刪除所有含缺失值的記錄，但這個操作也從側面變動了原始數據的分布特征。

對于缺失值的處理，從總體上來說分為刪除存在缺失值的個案和缺失值插補。對于主觀數據，人將影響數據的真實性，存在缺失值的樣本的其他屬性的真實值不能保證，那么依賴于這些屬性值的插補也是不可靠的，所以對于主觀數據一般不推薦插補的方法。插補主要是針對客觀數據，它的可靠性有保證。

感謝你能夠認真閱讀完這篇文章，希望小編分享的“spss缺失值填補方法有幾種”這篇文章對大家有幫助，同時也希望大家多多支持億速云，關注億速云行業資訊頻道，更多相關知識等著你來學習!

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站