決策樹模型比較:C4.5,CART,CHAID,QUEST


(1)C4.5算法的特點為:

輸入變量(自變量):為分類型變量或連續型變量。

輸出變量(目標變量):為分類型變量。

連續變量處理:N等分離散化。

樹分枝類型:多分枝。

分裂指標:信息增益比率gain ratio(分裂后的目標變量取值變異較小,純度高)

前剪枝:葉節點數是否小於某一閾值。

后剪枝:使用置信度法和減少-誤差法。

(2)CART算法的特點為:

輸入變量(自變量):為分類型變量或連續型變量。

輸出變量(目標變量):為分類型變量(或連續型:回歸分析)

連續變量處理:N等分離散化。

樹分枝類型:二分枝。

分裂指標:gini增益(分裂后的目標變量取值變異較小,純度高)。

前剪枝:maxdepth,minsplit,minbucket,mincp

后剪枝:使用最小代價復雜度剪枝法(MCCP)

(3)條件推理決策樹(CHAID,QUEST)算法的特點為:

輸入變量(自變量):為分類變量或連續型變量。

輸出變量(目標變量):為分類型變量(或連續型:回歸分析)。

連續變量處理:N等分離散化。

樹分枝類型:二分枝(以party包中的ctree函數為例)。

分裂指標:獨立性檢驗和相關性(分裂后自變量與目標變量的相關性)

 ------------------------------------------------------------------------------------

補充:隨機森林算法介紹

    隨機森林是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果,其中的每棵樹都是基於樣本的一個獨立集合的值產生的。

    隨機森林算法的一般步驟為:首先固定概率分布,從原始訓練集中可重復地選取N個樣本形成t個子訓練集,然后使用這t個子訓練集產生t棵決策樹。最后把這t棵決策樹綜合組成一棵決策樹。

    在R語言中,基於CART算法的隨機森林算法所涉及的函數是rpart包的randomForest函數,基於條件推理決策樹算法的隨機森林算法所涉及的函數是party包的cforest函數。

    一般來說,隨機森林算法的效果要比一般的決策樹均好很多。

-------------------------------------------------------------------------------------

    裝袋算法與隨機森林相對而言會生成多個樹模型,再進行組合預測,其效果遠大於單個樹模型。裝袋算法(bagging)采取自助法的思路,從樣本中隨機抽樣,形成多個訓練樣本,生成多個樹模型。然后以多數投票的方式來預測結果。隨機森林則(randomForest)更進一步,不僅對樣本進行抽樣,還對變量進行抽樣。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM