因為光看模型在訓練集上的表現容易導致過擬合,因此回歸模型通常有兩種評價方式,一種是看驗證/交叉驗證的結果,另一種是對訓練集上的表現結果進行修正,常見指標有:AIC,BIC,Cp,adjusted R2。
用驗證/交叉驗證方式評價回歸模型性能的指標(Performance Evaluation Metric)通常有:
1. 平均絕對誤差(Mean Absolute Error, MAE):真實目標y與估計值y-hat之間差值的平均值
(注:m為測試集樣本數量,下同)
2. 均方誤差(Mean Squared Error, MSE):真實目標y與估計值y-hat之間差值的平方的平均值
對比平均絕對誤差,均方誤差對異常值更敏感。
3. 均方根誤差(Root Mean Squared Error, RMSE):均方誤差的方根,可從單位度量上衡量模型的效果
上述幾個驗證誤差或交叉驗證誤差越小,就代表模型的性能越好。
下面再說一下R2和adjusted R2:
決定系數(Coefficient of Determination)R2:目標的變化由特征引起的比例
R2的值是多少代表模型的性能好?誰也不知道。有的例子中,只要R2達到0.5-0.6就已經很好了。此外,從理論上來說,只要增加特征的個數,R2的值是一直增加的,不管這個特征x和目標y是否有關。因此,R2通常用於特征選擇。如果增加一個特征,模型的R2值上升很多,那就說明這個特征和目標有關。
adjusted R2:與R2類似,不過增加了懲罰項,因此adjusted R2一定小於等於R2。如果新增的特征沒有帶來任何有用的信息,那么adjusted R2會變小,只有在新增的特征帶來足夠多的信息(足夠抵消懲罰項)時,adjusted R2才會增加。其缺點是無法像R2一樣對模型進行解釋。
如果以R2為評價指標,容易讓模型出現過擬合現象,因此建議用調整的R2(adjusted R-squared)來選擇模型,用R2來解釋模型。