隨機森林之特征選擇

本文轉載自查看原文 2013-11-28 10:41 21333 雲計算&大數據/ 隨機森林/ 特征選擇

摘要：在隨機森林介紹中提到了隨機森林一個重要特征：能夠計算單個特征變量的重要性。並且這一特征在很多方面能夠得到應用,例如在銀行貸款業務中能否正確的評估一個企業的信用度,關系到是否能夠有效地回收貸款。但是信用評估模型的數據特征有很多,其中不乏有很多噪音,所以需要計算出每一個特征的重要性並對這些特征進行一個排序,進而可以從所有特征中選擇出重要性靠前的特征。

一：特征重要性

在隨機森林中某個特征X的重要性的計算方法如下：

1：對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.

2: 隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(就可以隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.

3：假設隨機森林中有Ntree棵樹,那么對於特征X的重要性=∑(errOOB2-errOOB1)/Ntree,之所以可以用這個表達式來作為相應特征的重要性的度量值是因為：若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

二：特征選擇

在論文 Variable Selection using Random Forests中詳細的論述了基於隨機森林的特征選擇方法,這里我們進行一些回顧。

首先特征選擇的目標有兩個：

1：找到與應變量高度相關的特征變量。

2：選擇出數目較少的特征變量並且能夠充分的預測應變量的結果。

其次一般特征選擇的步驟為：

1：初步估計和排序

a)對隨機森林中的特征變量按照VI（Variable Importance）降序排序。

b)確定刪除比例,從當前的特征變量中剔除相應比例不重要的指標，從而得到一個新的特征集。

c)用新的特征集建立新的隨機森林,並計算特征集中每個特征的VI,並排序。

d)重復以上步驟,直到剩下m個特征。

2：根據1中得到的每個特征集和它們建立起來的隨機森林,計算對應的袋外誤差率(OOB err),將袋外誤差率最低的特征集作為最后選定的特征集。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 隨機森林之特征選擇隨機森林特征選擇特征選擇-隨機森林可以衡量特征的重要程度隨機森林算法OOB_SCORE最佳特征選擇隨機森林算法OOB_SCORE最佳特征選擇特征選擇-邏輯回歸（L2正則化）、隨機森林機器學習：用隨機森林來選擇特征特征選擇---SelectKBest 特征選擇 mRMR特征選擇