引言
之前了解到決策樹在選擇最好的特征進行數據集的划分就說到這種方法可以用來進行特征選擇,然后看了breiman主頁上相關的介紹,覺得這不愧是權威啊,不愧是隨機森林算法的提出者,講的很清楚,網址如下
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
特征重要性
在隨機森林中某個特征X的重要性的計算方法如下:
首先對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.這樣每棵決策樹可以得到一個errOOB1,K棵決策樹就由K個errOOB1
然后就是要遍歷所有的特征,來考察該特征的重要性,考察重要性的方式是,隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以理解為隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.這樣每棵決策樹可以得到一個errOOB2,K棵決策樹就由K個errOOB2
之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。
那么對於特征X的重要性=∑(errOOB2-errOOB1)/Ktree,