機器學習：用隨機森林來選擇特征

本文轉載自查看原文 2015-04-28 20:13 2681 博客機器學習

引言

之前了解到決策樹在選擇最好的特征進行數據集的划分就說到這種方法可以用來進行特征選擇，然后看了breiman主頁上相關的介紹，覺得這不愧是權威啊，不愧是隨機森林算法的提出者，講的很清楚，網址如下

特征重要性

在隨機森林中某個特征X的重要性的計算方法如下：

首先對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.這樣每棵決策樹可以得到一個errOOB1，K棵決策樹就由K個errOOB1

然后就是要遍歷所有的特征，來考察該特征的重要性，考察重要性的方式是，隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以理解為隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.這樣每棵決策樹可以得到一個errOOB2，K棵決策樹就由K個errOOB2

之所以可以用這個表達式來作為相應特征的重要性的度量值是因為：若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

那么對於特征X的重要性=∑(errOOB2-errOOB1)/Ktree,

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習--隨機森林機器學習之隨機森林與極限森林《機器學習技法》---隨機森林機器學習九大算法---隨機森林機器學習分類算法之隨機森林機器學習---算法---隨機森林算法機器學習總結（二）bagging與隨機森林 python機器學習——隨機森林算法隨機森林之特征選擇隨機森林之特征選擇