交叉驗證:擬合的好,同時預測也要准確
我們以K折交叉驗證(k-folded cross validation)來說明它的具體步驟。{A1,A2,A3,A4,A5,A6,A7,A8,A9}
為了簡化,取k=10。在原始數據A的基礎上,我們隨機抽取一組觀測,構成一個數據子集(容量固定),記為A1A1 重復以上過程10次,我們就會獲得一個數據子集集合
{A1,A2,A3,A4,A5,A6,A7,A8,A9,A10}
接下來,我們首先對模型M1M1進行交叉驗證,如下,
- 在{A2,A3,A4,A5,A6,A7,A8,A9,A10}基礎上構建模型M1,並對數據集A1進行驗證,將預測值與真值進行比較,在某一評價標准下,計算一個得分a1,1.
- 在{A1,A3,A4,A5,A6,A7,A8,A9,A10}基礎上構建模型M1,並對數據集A2進行驗證,將預測值與真值進行比較,在同一評價標准下,計算一個得分a1,2.
- ……
- 在{A1,A2,A3,A4,A5,A6,A7,A8,A9}基礎上構建模型,並對數據集A10進行驗證,將預測值與真值進行比較,在同一評價標准下,計算一個得分a1,10.
- a1=a1,1+a1,2+…+a1,10/10作為模型M1的綜合得分。
對每個模型都這樣過一遍,最后得到了每個模型的一個得分,按照得分,我們就可以選擇最合理的模型。
