Clementine決策樹算法C&RT、CHAID、QUEST、C5.0的區別


決策樹(decision tree)一般都是自上而下的來生成的。每個決策或事件(即自然狀態)都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。

優點:
  1) 可以生成可以理解的規則;
  2) 計算量相對來說不是很大;
  3) 可以處理連續和種類字段;
  4) 決策樹可以清晰的顯示哪些字段比較重要。
缺點:
  1) 對連續性的字段比較難預測;
  2) 對有時間順序的數據,需要很多預處理的工作;
  3) 當類別太多時,錯誤可能就會增加的比較快;
    4) 一般的算法分類的時候,只是根據一個字段來分類。

(racoon)

一、 C 5.0算法  執行效率和內存使用改進、適用大數據集
優點:
1)面對數據遺漏和輸入字段很多的問題時非常穩健;
2)通常不需要很長的訓練次數進行估計;
3)比一些其他類型的模型易於理解,模型推出的規則有非常直觀的解釋;
4)允許進行多次多於兩個子組的分割。目標字段必須為分類字段。


二、classification and regression tree(C&RT):

 (詳見 決策樹算法之一 分類回歸樹(C&RT)(2009-10-21 21:13))
分類回歸樹
優點
(1)可自動忽略對目標變量沒有貢獻的屬性變量,也為判斷屬性變量的重要性,減少變量數據提供參考;
(2)在面對諸如存在缺失值、變量數多等問題時C&RT 顯得非常穩健(robust);
(3)估計模型通常不用花費很長的訓練時間;
 (4) 推理過程完全依據屬性變量的取值特點(與 C5.0不同,C&RT的輸出字段既可以是數值型,也可以是分類型)
(5) 比其他模型更易於理解——從模型中得到的規則能得到非常直觀的解釋,決策推理過程可以表示成IF…THEN的形式
(6)目標是定類變量為分類樹,若目標變量是定距變量,則為回歸樹;
(7)通過檢測輸入字段,通過度量各個划分產生的異質性的減小程度,找到最佳的一個划分。
(8)非常靈活,可以允許有部分錯分成本,還可指定先驗概率分布,可使用自動的成本復雜性剪枝來得到歸納性更強的樹。


三、CHAID:
優點:
(1)可產生多分枝的決策樹
(2)目標變量可以定距或定類
(3)從統計顯著性角度確定分支變量和分割值,進而優化樹的分枝過程
(4)建立在因果關系探討中,依據目標變量實現對輸入變量眾多水平划分

四、quest(quick unbiased efficient statistical tree):
優點:運算過程比CR&T更簡單有效
QUEST 節點可提供用於構建決策樹的二元分類法,此方法的設計目的是減少大型 C&R 決策樹分析所需的處理時間,同時減小分類樹方法中常見的偏
向類別較多預測變量的趨勢。預測變量字段可以是數字范圍的,但目標字段必須是分類的。所有分割都是二元的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM