隨機森林之oob error 估計
摘要:在隨機森林之Bagging法中可以發現Bootstrap每次約有1/3的樣本不會出現在Bootstrap所采集的樣本集合中,當然也就沒有參加決策樹的建立,那是不是意味着就沒有用了呢,答案是否定的。我們把這1/3的數據稱為袋外數據oob(out of bag),它可以用於取代測試集誤差估計方法.
在論文:
1:Bias,variance and prediction error for classification rules.<Robert Tibshiranni>
2: An Efficient Method To Estimate Baggin’s Generalization Error.<David H.Wolpert and William G.Macready>
3:Bagging Predictors,Machine Learning (1996)<Breiman>
中,作者都建議利用OOB error 估計作為泛化誤差估計的一個組成部分,並且Breiman在論文中給出了經驗性實例表明袋外數據誤差估計與同訓練集一樣大小的測試集得到的精度一樣,這樣也就表明袋外數據(oob)誤差估計是一種可以取代測試集的誤差估計方法。
袋外數據(oob)誤差的計算方法如下:
對於已經生成的隨機森林,用袋外數據測試其性能,假設袋外數據總數為O,用這O個袋外數據作為輸入,帶進之前已經生成的隨機森林分類器,分類器會給出O個數據相應的分類,因為這O條數據的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統計隨機森林分類器分類錯誤的數目,設為X,則袋外數據誤差大小=X/O;這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。