經常地,對一堆數據進行建模的時候,特別是分類和回歸模型,我們有很多的變量可供使用,選擇不同的變量組合可以得到不同的模型,例如我們有5個變量,2的5次方,我們將有32個變量組合,可以訓練出32個模型。但是哪個模型更加的好呢?
選擇最優模型的指導思想是從兩個方面去考察:一個是似然函數最大化,另一個是模型中的未知參數個數最小化。似然函數值越大說明模型擬合的效果越好,但是我們不能單純地以擬合精度來衡量模型的優劣,這樣回導致模型中未知參數越來越多,模型變得越來越復雜,會造成過擬合。所以一個好的模型應該是擬合精度和未知參數個數的綜合最優化配置。
目前常用有如下方法:
赤池信息量 akaike information criterion
AIC准則是由日本統計學家Akaike與1973年提出的,全稱是最小化信息量准則(Akaike Information Criterion)。它是擬合精度和參數個數的加權函數:
AIC=-2 ln(L) + 2 k
貝葉斯信息量 bayesian information criterion
AIC為模型選擇提供了有效的規則,但也有不足之處。當樣本容量很大時,在AIC准則中擬合誤差提供的信息就要受到樣本容量的放大,而參數個數的懲罰因子卻和樣本容量沒關系(一直是2),因此當樣本容量很大時,使用AIC准則選擇的模型不收斂與真實模型,它通常比真實模型所含的未知參數個數要多。BIC(Bayesian InformationCriterion)貝葉斯信息准則是Schwartz在1978年根據Bayes理論提出的判別准則,稱為SBC准則(也稱BIC),彌補了AIC的不足。SBC的定義為:
BIC=-2 ln(L) + ln(n)*k
QAIC
為了使用過度離散(或缺乏擬合),提出了改進的AIC准則QAIC:
QAIC=-2In(L)/c+2k
c是方差膨脹因子
hannan-quinn criterion
HQ=-2 ln(L) + ln(ln(n))*k
其中L是在該模型下的最大似然,n是數據數量,k是模型的變量個數。
在進行ARMA參數的選擇時,AIC准則和BIC准則的提出可以有效彌補根據自相關圖和偏自相關圖定階的主觀性,在有限的階數范圍內幫助我們尋找相對最優擬合模型。
注意這些規則只是刻畫了用某個模型之后相對“真實模型”的信息損失【因為不知道真正的模型是什么樣子,所以訓練得到的所有模型都只是真實模型的一個近似模型】,所以用這些規則不能說明某個模型的精確度,即三個模型A, B, C,在通過這些規則計算后,我們知道B模型是三個模型中最好的,但是不能保證B這個模型就能夠很好地刻畫數據,因為很有可能這三個模型都是非常糟糕的,B只是爛蘋果中的相對好的蘋果而已。
這些規則理論上是比較漂亮的,但是實際在模型選擇中應用起來還是有些困難的,例如上面我們說了5個變量就有32個變量組合,如果是10個變量呢?2的10次方,我們不可能對所有這些模型進行一一驗證AIC, BIC,HQ規則來選擇模型,工作量太大。