隨機森林有一個重要的優點就是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計。它可以在內部進行評估,也就是說在生成的過程中就可以對誤差建立一個無偏估計。
隨機森林在生成每顆決策樹時,會隨機且有放回的抽取樣本,每棵決策樹會有大概1/3的樣本未抽取到,這些樣本就是每棵樹的oob樣本。具體計算過程如下:
根據這種特點,我們可以對其進行oob估計,步驟如下:
1、計算決策樹對其對應的oob樣本的分類情況(約有1/3棵樹參與oob估計)
2、以投票的方式確定該樣本的分類
3、計算oob-error:分類錯誤的樣本數占總樣本數的比值
oob誤分率是隨機森林泛化誤差的一個無偏估計,它的結果近似於需要大量計算的k折交叉驗證。