決策樹 C&RT、CHAID、QUEST、C5.0的區別【完善版】


決策樹(Decisiontree)一般都是自上而下的來生成的。每個決策或事件(即自然狀態)都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。

優點:
  1) 可以生成可以理解的規則;
  2)   計算量相對來說不是很大;
  3)   可以處理連續和種類字段;
  4)   決策樹可以清晰的顯示哪些字段比較重要。
缺點:
  1)   對連續性的字段比較難預測;
  2)   對有時間順序的數據,需要很多預處理的工作;
  3)   當類別太多時,錯誤可能就會增加的比較快;
 
     4)   一般的算法分類的時候,只是根據一個字段來分類。


一、 C5.0算法 

執行效率和內存使用改進、適用大數據集

優點:
1)面對數據遺漏和輸入字段很多的問題時非常穩健;
2)通常不需要很長的訓練次數進行估計;
3)比一些其他類型的模型易於理解,模型推出的規則有非常直觀的解釋;
4)允許進行多次多於兩個子組的分割。

字段約定:目標字段必須為分類字段。


二、Classification and Regression Tree(C&RT): 分類回歸樹


分類回歸樹
優點
(1) 可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬性變量的重要性,減少變量數據提供參考;
(2) 在面對諸如存在缺失值、變量數多等問題時C&RT 顯得非常穩健(robust);
(3) 估計模型通常不用花費很長的訓練時間;
 ( 4  )   推理過程完全依據屬性變量的取值特點(與C5.0不同,C&RT的輸出字段既可以是數值型,也可以是分類型)
(5) 比其他模型更易於理解——從模型中得到的規則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式
(6) 目標是定類變量為分類樹,若目標變量是定距變量,則為回歸樹;
(7) 通過檢測輸入字段,通過度量各個划分產生的異質性的減小程度,找到最佳的一個划分。
(8) 非常靈活,可以允許有部分錯分成本,還可指定先驗概率分布,可使用自動的成本復雜性剪枝來得到歸納性更強的樹。

字段約定:與c5.0不同,輸出(目標)字段可以為數值型也可以為字符型


三、CHAID:
優點:
(1)可產生多分枝的決策樹
(2)目標變量可以定距或定類
(3)從統計顯著性角度確定分支變量和分割值,進而優化樹的分枝過程
(4)建立在因果關系探討中,依據目標變量實現對輸入變量眾多水平划分

 

字段約定:輸出字段特別適合為分類變量,當為連續變量時會自動分為10段處理。

logistic的目標字段也是分類變量而不能為數值變量。當分類變量的結果有多個分類的時候,使用多項模型,如果是“是/否,真/假,或流失/保持”,則會轉而創建二項模型,使用“(二項 Logistic 回歸)

四、Quest(quick unbiased efficient statistical tree):
優點:運算過程比CR&T更簡單有效
QUEST 節點可提供用於構建決策樹的二元分類法,此方法的設計目的是減少大型 C&R決策樹分析所需的處理時間,同時減小分類樹方法中常見的偏
向類別較多預測變量的趨勢。預測變量字段可以是數字范圍的,但目標字段必須是分類的。所有分割都是二元的。

字段約定:輸出(目標)字段必須為二值分類型變量(如果是多值得轉化為二值)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM