摘要:在隨機森林介紹中提到了隨機森林一個重要特征:能夠計算單個特征變量的重要性。並且這一特征在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估一個企業的信用度,關系到是否能夠有效地回收貸款。但是信用評估模型的數據特征有很多,其中不乏有很多噪音,所以需要計算出每一個特征的重要性並對這些特征進行一個排序,進而可以從所有特征中選擇出重要性靠前的特征。
一:特征重要性
在隨機森林中某個特征X的重要性的計算方法如下:
1:對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.
2: 隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.
3:假設隨機森林中有Ntree棵樹,那么對於特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。
二:特征選擇
在論文 Variable Selection using Random Forests中詳細的論述了基於隨機森林的特征選擇方法,這里我們進行一些回顧。
首先特征選擇的目標有兩個:
1:找到與應變量高度相關的特征變量。
2:選擇出數目較少的特征變量並且能夠充分的預測應變量的結果。
其次一般特征選擇的步驟為:
1:初步估計和排序
a)對隨機森林中的特征變量按照VI(Variable Importance)降序排序。
b)確定刪除比例,從當前的特征變量中剔除相應比例不重要的指標,從而得到一個新的特征集。
c)用新的特征集建立新的隨機森林,並計算特征集中每個特征的VI,並排序。
d)重復以上步驟,直到剩下m個特征。
2:根據1中得到的每個特征集和它們建立起來的隨機森林,計算對應的袋外誤差率(OOB err),將袋外誤差率最低的特征集作為最后選定的特征集。