決策樹的優化-隨機森林


重要內容簡述:

     從ID3到C4.5再到CART 

     在分類樹問題中(注意ID3和C4.5只能解決分類問題,CART是既可以解決分類問題,也可以解決回歸問題):最主要的是要進行分類的最優特征和最優切分點的選擇,為了這兩個量,算法不斷的計算每一層的最優特征和對應下的最優切分點

    隨機森林

    屬於集成學習的范疇,在隨機森林中,決策樹模型作為一個基學習器,由於決策樹就是根據已知的特征中進行最優特征和最優切分點的選擇進行划分,隨機森林能夠將特征集合取樣分為不同個子特征集合,這樣每個特征集的最優特征和最優切分點不同,同時引起最終基決策樹(基學習器)不同,最后通過組合策略,展示非常好的泛化能力,非常好的學習效果

    ID3的划分標准

     ID3是基於信息增益的,信息增益的計算公式如下

信息增益 = 原問題的信息熵 - 原問題的條件熵  

     信息增益計算時,前項是所有樣本的信息熵,后項是假定划分屬性下,得到的信息爭議(前面有權重的計算),但是前后兩項都是計算結果的信息熵(然后進行比較)

 

ID3 應用信息增益的問題

應用信息增益選擇划分屬性的時候,很明顯有例如學號類似的屬性  是優先的選擇標准,但是這個選擇標准是沒有很大意義的划分

C4.5的選取划分屬性的標准 信息增益率公式如下:

 信息增益率的理解

     由於信息增益存在的問題,引入信息增益率,信息增益率加入了分母計算的   單獨屬性的信息熵,   這個信息上猶如計算結果的信息熵一樣,顯然,類似學號這樣的屬性的具有很大的信息熵,(學號的屬性有很多取值,可以看到每一個樣本取一個值,信息熵最大),為了避免這種無意義屬性的選擇加入此分母,能夠權衡在選擇相對好的屬性的情況下提高盡可能高的信息增益

   CART 是區別於 ID3 和 C4.5 CART划分得到二叉樹

  划分標准就是基尼指數

基尼指數和信息增益的區別和聯系

     對信息增益的  -log P 進行一階泰勒展開得到 (1 - P) 在忽略泰勒展開的高階無窮小的情況

所以 基尼指數是約等於信息增益的

 

決策樹與回歸樹

決策樹與回歸樹的思想一樣,需要找到最優切分屬性和切分點

回歸樹是可以用於回歸的決策樹模型,一個回歸樹對應着輸入空間的一個划分以及在划分單元上的輸出值.與分類樹不同的是,回歸樹對輸入空間的划分采用一種啟發式的方法,會遍歷所有輸入變量,找到最優的切分變量j和最優的切分點s,即選擇第j個特征xj和它的取值s將輸入空間划分為兩部分,然后重復這個操作。 
而如何找到最優的j和s是通過比較不同的划分的誤差來得到的。一個輸入空間的划分的誤差是用真實值和划分區域的預測值的均方差值的和來衡量的

其中,f(xi)是每個划分單元的預測值,這個預測值是該單元內每個樣本點的值的均值


 

 正則化描述:

從決策樹到隨機森林

  Bagging思想:訓練多個模型的融合的思想

集成的時候通過集成方法例如:分類應用投票機制

                                                  回歸應用求平均值

Random Forest(隨機森林)是一種基於樹模型的Bagging的優化版本

1.對訓練的樣本進行有放回取樣

2.對樣本的屬性進行有放回取樣

問題:

一、熵和信息增益怎么理解,信息增益率提出的原因

二、正則化的極大似然函數和NP問題怎么理解

三、信息熵增益和基尼指數   都是為了表現 數據集在某個特征介入后 不確定性 變化的衡量指數,為什么還要選兩個不同的划分准則

四、分類誤差率怎么表示

五、ID3算法中最優切分點怎么計算的(怎么就忽略了),ID3算法中的閥值ε是什么作用

六、CART決策樹中反復提到一個概念"二叉樹",二叉樹和CART有什么樣的關系

思路:

一、熵和信息增益是度量樣本集合的混亂程度的,作為度量屬性是否是相對最優的標准

二、還沒有解決

三、信息熵增益和基尼指數都是作為最先划分特征和最有切分點之爭的選擇准則:基尼指數求出后,可以直接對比得到相對最優特征和最優特征對應下最優切分點;信息熵增益

       可以看到在對數據進行分析時會時不時提到特征A,B,C,D等,此時是在數據的給出特征進行分析,實際問題中需要做特征的單獨提取,即特征工程

      CAR回歸樹在《統計學習方法》中提到的比較少,CART是二叉樹,不同於ID3或者C4.5都是可以進行多個叉分類


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2026 CODEPRJ.COM