最常見的插值方法是mean imputation(也叫mean substitution)
實際上,這個方法不推薦使用,在大部分情況下,沒有其他方法的時候可以采取這個方法。
原因:1: mean imputation沒有保持變量之間的關系(因為是觀察值的均值,如果說缺失數據是隨機缺失的,那么這個均值估計才是無偏的,也是這個方法實現的邏輯。
如果說只是估計均值(點估計),那么這個估計是無偏的,但是會讓標准差有偏。但是大部分的研究是對變量之間的關系感興趣,所以mean imputation不是一個好的選擇。
當y值缺失的時候,用mean imputation一般會降低x,y之間的相關性,但是如果是x缺失,用這種方法,會增加x,y之間的相關性)
2. single imputation(也就是單一值替換)會低估誤差的方差(error variation),因為這些替換值都是估計的,會存在誤差,但是統計軟件認為這些
值是真實的,所以會降低標准差的估計,會導致p-value的降低,增加Type I誤差的幾率。
建議方法: multiple imputation 和 maximum likelihood
處理缺失數據的三個標准:
1、非偏置的參數估計(unbiased parameter estimates): 不管你估計means, regressions或者是odds ratios,都希望參數估計可以准確代表真實的總體參數。
在統計項中,這意味着估計需要是無偏的。有缺失值可能會影響無偏估計,所以需要處理。
2、有效的能力(adequate power):刪除缺失數據會降低采樣的大小,因此會降低power。如果說問題是無偏的,那么得到的結果會是顯著的,那么會有足夠的能力來檢驗這個效力。
(have adequate power to detect your effects)。反之,整個檢測可能失效。
3、准確的標准差(accurate standard errors)(影響p值和置信區間):不僅需要參數估計無偏,還需要標准差估計准確,在統計推斷中才會有效。
這也是為什么mean imputation的填充方法不好的原因。
兩個推薦的關於缺失值的處理方法:multiple imptation 和 maximum likelihood
這兩個方法滿足前面處理缺失數據的三個標准。
方法的假設前提:這兩個方法要求數據是隨機缺失的————與缺失值無關。
滿足這個假設,那么這個估計(也就是說模型的參數(e.g.回歸系數)和標准差)是無偏的,並且不會缺少估計能力(no loss of power)。
multiple imputation(MI):
類似與以前的imputation方法,MI對缺失的數據補充估計值。但是為了捕捉這些估計值的不確定性,MI多次估計這個值。因為在imputation方法中有
內嵌的誤差,所以多次估計的值會相似,但不會一致。
這個結果是多個數據集合,所有沒有缺失的值有相同的值,並且每個數據集的imputed values的值都是有一點點區別的。(The result is multiple data sets
with identical values for alll of the non-missing values and slightly different valus for the imputed values in each data set.)
針對這些不同的數據集,都用已經選定好的模型進行擬合,合並這些模型的結果。因為這imputed values 里面有方差,所以在參數估計中也會存在方差,這樣
就可以准確的估計標准差和p值)
maximum likelihood:
第二種方法是利用最大似然估計分析所有的,非完全的數據集。這個方法不會impute任何數據,但是會利用每一個樣本中可提供的數據來計算最大似然估計。
采用最大似然估計的參數是在觀察數據中最有可能的參數的值。
當數據丟失的時候,我們可以條件化似然函數(factor the likelihood function)。這個似然是分開某些變量有完整數據和和全部的變量有完整數據的數據分開計算的。
這兩個似然函數同時最大化來找到估計值。與multiple imputation類似,這個方法給出無偏參數估計和標准差。這個方法的優點是沒有multiple imputation要求的那樣
需要仔細的選擇需要impute values。但是這種方法僅限於線性模型。
一般在處理缺失值中,可以采用回歸的方法或者是knn的方法擬合缺失值。
<以下內容來源 http://www.cnblogs.com/charlotte77/p/5606926.html>
1.直接刪除----適合缺失值數量較小,並且是隨機出現的,刪除它們對整體數據影響不大的情況
2.使用一個全局常量填充---譬如將缺失值用“Unknown”等填充,但是效果不一定好,因為算法可能會把它識別為一個新的類別,一般很少用
3.使用均值或中位數代替----優點:不會減少樣本信息,處理簡單。缺點:當缺失數據不是隨機數據時會產生偏差.對於正常分布的數據可以使用均值代替,如果數據是傾斜的,使用中位數可能更好。
4.插補法
