(1)C4.5算法的特點為:
輸入變量(自變量):為分類型變量或連續型變量。
輸出變量(目標變量):為分類型變量。
連續變量處理:N等分離散化。
樹分枝類型:多分枝。
分裂指標:信息增益比率gain ratio(分裂后的目標變量取值變異較小,純度高)
前剪枝:葉節點數是否小於某一閾值。
后剪枝:使用置信度法和減少-誤差法。
(2)CART算法的特點為:
輸入變量(自變量):為分類型變量或連續型變量。
輸出變量(目標變量):為分類型變量(或連續型:回歸分析)
連續變量處理:N等分離散化。
樹分枝類型:二分枝。
分裂指標:gini增益(分裂后的目標變量取值變異較小,純度高)。
前剪枝:maxdepth,minsplit,minbucket,mincp
后剪枝:使用最小代價復雜度剪枝法(MCCP)
(3)條件推理決策樹(CHAID,QUEST)算法的特點為:
輸入變量(自變量):為分類變量或連續型變量。
輸出變量(目標變量):為分類型變量(或連續型:回歸分析)。
連續變量處理:N等分離散化。
樹分枝類型:二分枝(以party包中的ctree函數為例)。
分裂指標:獨立性檢驗和相關性(分裂后自變量與目標變量的相關性)
------------------------------------------------------------------------------------
補充:隨機森林算法介紹
隨機森林是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果,其中的每棵樹都是基於樣本的一個獨立集合的值產生的。
隨機森林算法的一般步驟為:首先固定概率分布,從原始訓練集中可重復地選取N個樣本形成t個子訓練集,然后使用這t個子訓練集產生t棵決策樹。最后把這t棵決策樹綜合組成一棵決策樹。
在R語言中,基於CART算法的隨機森林算法所涉及的函數是rpart包的randomForest函數,基於條件推理決策樹算法的隨機森林算法所涉及的函數是party包的cforest函數。
一般來說,隨機森林算法的效果要比一般的決策樹均好很多。
-------------------------------------------------------------------------------------
裝袋算法與隨機森林相對而言會生成多個樹模型,再進行組合預測,其效果遠大於單個樹模型。裝袋算法(bagging)采取自助法的思路,從樣本中隨機抽樣,形成多個訓練樣本,生成多個樹模型。然后以多數投票的方式來預測結果。隨機森林則(randomForest)更進一步,不僅對樣本進行抽樣,還對變量進行抽樣。