機器學習:用隨機森林來選擇特征


   

引言

   

之前了解到決策樹在選擇最好的特征進行數據集的划分就說到這種方法可以用來進行特征選擇,然后看了breiman主頁上相關的介紹,覺得這不愧是權威啊,不愧是隨機森林算法的提出者,講的很清楚,網址如下

   

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

   

   

特征重要性

   

在隨機森林中某個特征X的重要性的計算方法如下:

   

首先對於隨機森林中的每一顆決策樹,使用相應的OOB(袋外數據)數據來計算它的袋外數據誤差,記為errOOB1.這樣每棵決策樹可以得到一個errOOB1K棵決策樹就由KerrOOB1

   

然后就是要遍歷所有的特征,來考察該特征的重要性,考察重要性的方式是,隨機地對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以理解為隨機的改變樣本在特征X處的值),再次計算它的袋外數據誤差,記為errOOB2.這樣每棵決策樹可以得到一個errOOB2K棵決策樹就由KerrOOB2

   

之所以可以用這個表達式來作為相應特征的重要性的度量值是因為:若給某個特征隨機加入噪聲之后,袋外的准確率大幅度降低,則說明這個特征對於樣本的分類結果影響很大,也就是說它的重要程度比較高。

   

那么對於特征X的重要性=(errOOB2-errOOB1)/Ktree,


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM