Akaike information criterion,AIC是什么?一個用來篩選模型的指標。AIC越小模型越好,通常選擇AIC最小的模型。第一句話好記,第二句話就呵呵了,小編有時候就會迷惑AIC越大越好還是越小越好。所以,還是要知其所以然的。
在AIC之前,我們需要知道Kullback–Leibler information或 Kullback–Leiblerdistance。對於一批數據,假設存在一個真實的模型f,還有一組可供選擇的模型g1、g2、g3…gi,而K-L 距離就是用模型 gi 去估計真實模型 f 過程中損失的信息。可見K-L 距離越小,用模型 gi 估計真實模型 f 損失的信息越少,相應的模型 gi 越好。
然后,問題來了。怎么計算每個模型 gi 和真實模型 f 的距離呢?因為我們不知道真實模型 f,所以沒辦法直接計算每個模型的K-L距離,但可以通過信息損失函數去估計K-L距離。日本統計學家Akaike發現log似然函數和K-L距離有一定關系,並在1974年提出Akaike information criterion,AIC。通常情況下,AIC定義為:AIC=2k-2ln(L),其中k是模型參數個數,L是似然函數。
-2ln(L)反映模型的擬合情況,當兩個模型之間存在較大差異時,差異主要體現在似然函數項-2ln(L),當似然函數差異不顯著時,模型參數的懲罰項2k則起作用,隨着模型中參數個數增加,2k增大,AIC增大,從而參數個數少的模型是較好的選擇。AIC不僅要提高模型擬合度,而且引入了懲罰項,使模型參數盡可能少,有助於降低過擬合的可能性。然后,選一個AIC最小的模型就可以了。
然而,咱們平常用的最多的SPSS軟件卻不直接給出AIC。不過不用擔心,以線性回歸為例,SPSS雖不給出AIC,但會給出殘差平方和,即殘差Residual對應的Sum of Squares。然后,AIC=nln(殘差平方和/n) 2k。其中模型參數個數k包括截距項和殘差項,其中殘差項往往被忽略。
比如,針對n=21的數據,某線性模型納入2個自變量x1和x2,k應為4。從SPSS給出的方差分析表,可知AIC=21*ln(21.809/21) 2*4=8.7941。
|
除AIC之外,還有很多模型選擇的指標,比如和AIC聯系比較密切的BIC,我們會在以后的文章和大家討論。