首先看幾個問題
1、實現參數的稀疏有什么好處?
一個好處是可以簡化模型、避免過擬合。因為一個模型中真正重要的參數可能並不多,如果考慮所有的參數作用,會引發過擬合。並且參數少了模型的解釋能力會變強。
2、參數值越小代表模型越簡單嗎?
是。越復雜的模型,越是會嘗試對所有的樣本進行擬合,甚至包括一些異常樣本點,這就容易造成在較小的區間里預測值產生較大的波動,這種較大的波動也反應了在這個區間的導數很大,而只有較大的參數值才能產生較大的導數。因此復雜的模型,其參數值會比較大。
一、AIC
1、簡介
AIC信息准則即Akaike information criterion,是衡量統計模型擬合優良性(Goodness of fit)的一種標准,由於它為日本統計學家赤池弘次創立和發展的,因此又稱赤池信息量准則。它建立在熵的概念基礎上,可以權衡所估計模型的復雜度和此模型擬合數據的優良性。
2、表達式
- k為參數數量
- L是似然函數
增加自由參數的數目提高了擬合的優良性,AIC鼓勵數據擬合的優良性但是盡量避免出現過擬合的情況。所以優先考慮的模型應是AIC值最小的那一個,假設在n個模型中作出選擇,可一次算出n個模型的AIC值,並找出最小AIC值對應的模型作為選擇對象。
一般而言,當模型復雜度提高(k)增大時,似然函數L也會增大,從而使AIC變小,但是k過大時,似然函數增速減緩,導致AIC增大,模型過於復雜容易造成過擬合現象。
二、BIC
1、簡介
BIC= Bayesian Information Criterions,貝葉斯信息准則。
2、表達式
BIC=ln(n)k-2ln(L)
- L是似然函數
- n是樣本大小
- K是參數數量
三、總結
1、共性
構造這些統計量所遵循的統計思想是一致的,就是在考慮擬合殘差的同事,依自變量個數施加“懲罰”。
2、不同點
- BIC的懲罰項比AIC大,考慮了樣本個數,樣本數量多,可以防止模型精度過高造成的模型復雜度過高。
- AIC和BIC前半部分是一樣的,BIC考慮了樣本數量,樣本數量過多時,可有效防止模型精度過高造成的模型復雜度過高。