根據分類器數目的多少,分類計數可分為單分類器技術和多分類器技術。單分類器技術中比較有代表性的是貝葉斯和決策樹。多分類器組合思想起源於 集成學習算法。繼承學習算法是機器學習的一種新的學習思想,該學習算法把同一個問題分解到多個不同的模塊中,由多個學習器一起學習,共同解決 目標問題,從而提高分類器的泛化能力。將集成學習算法應用到數據挖掘的數據分類領域,最早是boosting和bagging。 一、Bootstrap 非參數統計中的一種重要的估計統計量方差進而進行區間估計的統計方法,也稱自助法,其核心思想和基本步驟如下: 1.采用重采樣技術從原始樣本中抽取一定數量(自己給定)的樣本,此過程允許重復采樣。 2.根據抽出的樣本計算給定的統計量。 3.重復1和2步驟N次,得到N個統計量。 4.計算上述N個統計量的樣本方差,得到統計量的方差。 例子 想要知道池塘里有多少條魚。可先抽取N條,做上記號,放回池塘。進行重復抽樣,抽取M次,每次N條,考察每次抽到魚中標有記號的比例,在 進行統計量的計算。 二、隨機森林研究概況 為克服決策樹的缺點,結合單分類器組成多分類器的思想很容易想到,也即:生成多棵決策樹,這些決策樹都有很高的分兩類精度,並讓所有決策樹 通過投票的形式進行決策,這就像多個專家一起開會討論,最后舉手表決一樣。這就是隨機森林的核心思想:多個弱分類器組成一個強分類器。 RF是利用Bootstrap進行重抽樣的組合分類器,本質是Bagging和Random Subspace的組合。理論和實證表明RF具有 1.高預測率 2.不易過擬合 3.容忍異常和噪聲。 理論界就隨機森林整體性能的優化主要分以下三方面: 1.引入新算法進行優化 2.將數據預處理融入RF 3.針對RF自身構建過程進行優化 三、訓練集產生 每棵決策樹都對應一個訓練子集,要構建n棵決策樹,就需要產生對應數量的訓練子集,從 原始訓練集中生成n個訓練子集就涉及到統計抽樣技術。 采用bagging或bootstrap生成訓練集,子集中存在一定重復,可避免陷入局部最后。每個訓練子集大小約為原始集的2/3. 四、隨機特征變量的選取 隨機特征變量是指RF算法在生成過程中,參與節點分裂特征比較的個數。由於RF在進行節點分裂時,不是所有特征都參與特征指標的計算,而是隨機的 選擇某幾個特征參與比較,參與的個數稱為隨機特征變量。隨機特征變量是為了使每棵樹之間的相關性減少,同時提升每棵樹的分類精度,從而提升整個 森林的性能而引入的。 在RF中,隨機特征變量的產生方法主要有: 1.隨機選擇輸入變量(Forest-RI),對於輸入變量隨機分組(每組變量的個數是一個定值),然后對於每組變量,利用CART算法產生一棵樹,並讓其充分 生長,不剪枝。 2.隨機組合輸入變量(Forest-RC)先將隨機特征進行線性組合,然后再作為輸入變量來構建RF。 五、隨機森林工作過程
六、隨機性的體現 1.訓練集隨機選取 2.隨機特征變量的隨機性 3.節點分裂時選擇最優特征時隨機的。 七、隨機森林的優點 1.數據集上表現良好 2.在當前的很多數據集上,相對其它算法有很大優勢。 3.能處理高維(特征很多)數據,且不用做特征選擇。 4.訓練后,能給出哪些特征比較重要。 5.創建森林時,對泛化誤差使用無偏估計 6.訓練速度快 7.易並行化 8.實現簡單 9.訓練過程中,能檢測到特征間的互相影響。