決策樹模型比較：C4.5，CART，CHAID，QUEST

本文轉載自查看原文 2015-02-04 13:13 3814 R/ 隨機森林/ CHAID/ C4.5/ cforest/ randomForest/ 決策樹/ 數據挖掘/ QUEST

（1）C4.5算法的特點為：

輸入變量（自變量）：為分類型變量或連續型變量。

輸出變量（目標變量）：為分類型變量。

連續變量處理：N等分離散化。

樹分枝類型：多分枝。

分裂指標：信息增益比率gain ratio（分裂后的目標變量取值變異較小，純度高）

前剪枝：葉節點數是否小於某一閾值。

后剪枝：使用置信度法和減少-誤差法。

輸入變量（自變量）：為分類型變量或連續型變量。

輸出變量（目標變量）：為分類型變量（或連續型：回歸分析）

連續變量處理：N等分離散化。

樹分枝類型：二分枝。

分裂指標：gini增益（分裂后的目標變量取值變異較小，純度高）。

前剪枝：maxdepth，minsplit，minbucket，mincp

后剪枝：使用最小代價復雜度剪枝法（MCCP）

輸入變量（自變量）：為分類變量或連續型變量。

輸出變量（目標變量）：為分類型變量（或連續型：回歸分析）。

連續變量處理：N等分離散化。

樹分枝類型：二分枝（以party包中的ctree函數為例）。

分裂指標：獨立性檢驗和相關性（分裂后自變量與目標變量的相關性）

------------------------------------------------------------------------------------

隨機森林是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果，其中的每棵樹都是基於樣本的一個獨立集合的值產生的。

隨機森林算法的一般步驟為：首先固定概率分布，從原始訓練集中可重復地選取N個樣本形成t個子訓練集，然后使用這t個子訓練集產生t棵決策樹。最后把這t棵決策樹綜合組成一棵決策樹。

在R語言中，基於CART算法的隨機森林算法所涉及的函數是rpart包的randomForest函數，基於條件推理決策樹算法的隨機森林算法所涉及的函數是party包的cforest函數。

一般來說，隨機森林算法的效果要比一般的決策樹均好很多。

-------------------------------------------------------------------------------------

裝袋算法與隨機森林相對而言會生成多個樹模型，再進行組合預測，其效果遠大於單個樹模型。裝袋算法（bagging）采取自助法的思路，從樣本中隨機抽樣，形成多個訓練樣本，生成多個樹模型。然后以多數投票的方式來預測結果。隨機森林則(randomForest)更進一步，不僅對樣本進行抽樣，還對變量進行抽樣。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹模型 ID3/C4.5/CART算法比較決策樹(ID3、C4.5、CART) 決策樹(上)-ID3、C4.5、CART 2. 決策樹（Decision Tree）-ID3、C4.5、CART比較【機器學習速成寶典】模型篇06決策樹【ID3、C4.5、CART】（Python版） C4.5（決策樹）決策樹的優缺點&ID3、C4.5和CART區別 ID3,C4.5和CART三種決策樹的區別機器學習總結（八）決策樹ID3，C4.5算法，CART算法決策樹系列（四）——C4.5