一、隨機森林的定義
在集成學習中,我們知道bagging + 決策樹就構成了隨機森林。經典的機器學習模型是神經網絡,神經網絡預測精確,但是計算量很大。
隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質屬於機器學習的一大分支——集成學習(Ensemble Learning)方法。隨機森林的名稱中有兩個關鍵詞,一個是“隨機”,一個就是“森林”。“森林”我們很好理解,一棵叫做樹,那么成百上千棵就可以叫做森林了,這樣的比喻還是很貼切的,其實這也是隨機森林的主要思想--集成思想的體現。“隨機”的含義我們會在下邊部分講到。
其實從直觀角度來解釋,每棵決策樹都是一個分類器(假設現在針對的是分類問題),那么對於一個輸入樣本,N棵樹會有N個分類結果。而隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出,這就是一種最簡單的 Bagging 思想。
二、隨機森林的生成
前面提到,隨機森林中有許多的分類樹。我們要將一個輸入樣本進行分類,我們需要將輸入樣本輸入到每棵樹中進行分類。打個形象的比喻:森林中召開會議,討論某個動物到底是老鼠還是松鼠,每棵樹都要獨立地發表自己對這個問題的看法,也就是每棵樹都要投票。該動物到底是老鼠還是松鼠,要依據投票情況來確定,獲得票數最多的類別就是森林的分類結果。森林中的每棵樹都是獨立的,99.9%不相關的樹做出的預測結果涵蓋所有的情況,這些預測結果將會彼此抵消。少數優秀的樹的預測結果將會超脫於芸芸“噪音”,做出一個好的預測。將若干個弱分類器的分類結果進行投票選擇,從而組成一個強分類器,這就是隨機森林bagging的思想(關於bagging的一個有必要提及的問題:bagging的代價是不用單棵決策樹來做預測,具體哪個變量起到重要作用變得未知,所以bagging改進了預測准確率但損失了解釋性。)。下圖可以形象地描述這個情況:
有了樹我們就可以分類了,但是森林中的每棵樹是怎么生成的呢?
每棵樹的按照如下規則生成:
1)如果訓練集大小為N(總樣本為M,N<M) ,對於每棵樹而言,隨機且有放回地從訓練集中的抽取N個訓練樣本(這種采樣方式稱為bootstrap sample方法),作為該樹的訓練集;
從這里我們可以知道:每棵樹的訓練集都是不同的,而且里面包含重復的訓練樣本(理解這點很重要)。
為什么要隨機抽樣訓練集?
如果不進行隨機抽樣,每棵樹的訓練集都一樣,那么最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要;
為什么要有放回地抽樣?
有放回地抽樣才能保證每次抽取時可能的概率時一樣的,即為了達到獨立同分布,可保證每一顆決策樹都是相互獨立的,而隨機森林最后分類取決於多棵樹(弱分類器)的投票表決,這種表決應該是"求同",因此使用完全不同的訓練集來訓練每棵樹這樣對最終分類結果是沒有幫助的,這樣無異於是"盲人摸象"。
2)如果每個樣本的特征維度為M,指定一個常數m<<M,隨機地從M個特征中選取m個特征子集,每次樹進行分裂時,從這m個特征中選擇最優的;
3)每棵樹都盡最大程度的生長,並且沒有剪枝過程。
一開始我們提到的隨機森林中的“隨機”就是指的這里的兩個隨機性,即二重隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。由於它們的引入,使得隨機森林不容易陷入過擬合,並且具有很好得抗噪能力(比如:對缺省值不敏感)。
隨機森林分類效果(錯誤率)與兩個因素有關:
- 森林中任意兩棵樹的相關性:相關性越大,錯誤率越大;
- 森林中每棵樹的分類能力:每棵樹的分類能力越強,整個森林的錯誤率越低。
減小特征選擇個數m,樹的相關性和分類能力也會相應的降低;增大m,兩者也會隨之增大。所以關鍵問題是如何選擇最優的m(或者是范圍),這也是隨機森林唯一的一個參數。
三、袋外錯誤率(OOB)
上面我們提到,構建隨機森林的關鍵問題就是如何選擇最優的m,要解決這個問題主要依據計算袋外錯誤率oob error(out-of-bag error)。
隨機森林有一個重要的優點就是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計。它可以在內部進行評估,也就是說在生成的過程中就可以對誤差建立一個無偏估計。
我們知道,在構建每棵樹時,我們對訓練集使用了不同的bootstrap sample(隨機且有放回地抽取)。所以對於每棵樹而言(假設對於第k棵樹),大約有1/3的訓練實例沒有參與第k棵樹的生成,它們稱為第k棵樹的oob樣本。
而這樣的采樣特點就允許我們進行oob估計,它的計算方式如下:
(note:以樣本為單位)
1)對每個樣本,計算它作為oob樣本的樹對它的分類情況(約1/3的樹);
2)然后以簡單多數投票作為該樣本的分類結果;
3)最后用誤分個數占樣本總數的比率作為隨機森林的oob誤分率。
oob誤分率是隨機森林泛化誤差的一個無偏估計,它的結果近似於需要大量計算的k折交叉驗證。
四、隨機森林的優勢
- 在當前所有算法中,具有極好的准確率
- 能夠有效地運行在大數據集上
- 能夠處理具有高維特征(feature很多)的輸入樣本,而且不需要降維,不用做特征選擇
- 能夠評估各個特征在分類問題上的重要性
- 在生成過程中,能夠獲取到內部生成誤差的一種無偏估計
- 對於缺省值問題也能夠獲得很好得結果
- 容易做成並行化方法,速度比較快
- 可以進行可視化展示,便於分析
參考: