隨機森林之特征選擇


摘要:隨機森林介紹中提到了隨機森林一個重要特征:能夠計算單個特征變量的重要性。並且這一特征在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估一個企業的信用度,關系到是否能夠有效地回收貸款。但是信用評估模型的數據特征有很多,其中不乏有很多噪音,所以需要計算出每一個特征的重要性並對這些特征進行一個排序,進而可以從所有特征中選擇出重要性靠前的特征。

 

一:特征重要性

在隨機森林中某個特征X的重要性的計算方法如下:

1:對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.

2:  隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.

3:假設隨機森林中有Ntree棵樹,那么對於特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

 

二:特征選擇

在論文 Variable Selection using Random Forests中詳細的論述了基於隨機森林的特征選擇方法,這里我們進行一些回顧。

首先特征選擇的目標有兩個:

1:找到與應變量高度相關的特征變量。

2:選擇出數目較少的特征變量並且能夠充分的預測應變量的結果。

其次一般特征選擇的步驟為:

1:初步估計和排序

a)對隨機森林中的特征變量按照VI(Variable Importance)降序排序。

b)確定刪除比例,從當前的特征變量中剔除相應比例不重要的指標,從而得到一個新的特征集。

c)用新的特征集建立新的隨機森林,並計算特征集中每個特征的VI,並排序。

d)重復以上步驟,直到剩下m個特征。

2:根據1中得到的每個特征集和它們建立起來的隨機森林,計算對應的袋外誤差率(OOB err),將袋外誤差率最低的特征集作為最后選定的特征集。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM