決策樹 C&RT、CHAID、QUEST、C5.0的區別【完善版】

本文轉載自查看原文 2012-03-02 10:03 15508 數據分析/ bi/ modeler

決策樹(Decisiontree)一般都是自上而下的來生成的。每個決策或事件（即自然狀態）都可能引出兩個或多個事件，導致不同的結果，把這種決策分支畫成圖形很像一棵樹的枝干，故稱決策樹。

優點：
　　1)　可以生成可以理解的規則；
　　2) 計算量相對來說不是很大；
　　3)   可以處理連續和種類字段；
　　4)   決策樹可以清晰的顯示哪些字段比較重要。
缺點：
　　1)   對連續性的字段比較難預測；
　　2) 對有時間順序的數據，需要很多預處理的工作；
　　3)   當類別太多時，錯誤可能就會增加的比較快；
      4)   一般的算法分類的時候，只是根據一個字段來分類。

一、 C5.0算法

執行效率和內存使用改進、適用大數據集

優點：
1)面對數據遺漏和輸入字段很多的問題時非常穩健；
2)通常不需要很長的訓練次數進行估計；
3)比一些其他類型的模型易於理解，模型推出的規則有非常直觀的解釋；
4)允許進行多次多於兩個子組的分割。

字段約定：目標字段必須為分類字段。

二、Classification and Regression Tree(C&RT): 分類回歸樹

分類回歸樹
優點
（1）可自動忽略對目標變量沒有貢獻的屬性變量，也為判斷屬性變量的重要性，減少變量數據提供參考；
（2）在面對諸如存在缺失值、變量數多等問題時C&RT 顯得非常穩健（robust）；
（3）估計模型通常不用花費很長的訓練時間；
( 4 ) 推理過程完全依據屬性變量的取值特點（與C5.0不同，C&RT的輸出字段既可以是數值型，也可以是分類型）
（5）比其他模型更易於理解——從模型中得到的規則能得到非常直觀的解釋，決策推理過程可以表示成IF…THEN的形式
（6）目標是定類變量為分類樹，若目標變量是定距變量，則為回歸樹；
（7）通過檢測輸入字段，通過度量各個划分產生的異質性的減小程度，找到最佳的一個划分。
（8）非常靈活，可以允許有部分錯分成本，還可指定先驗概率分布，可使用自動的成本復雜性剪枝來得到歸納性更強的樹。

字段約定：與c5.0不同，輸出（目標）字段可以為數值型也可以為字符型

三、CHAID:
優點：
（1）可產生多分枝的決策樹
（2）目標變量可以定距或定類
（3）從統計顯著性角度確定分支變量和分割值，進而優化樹的分枝過程
（4）建立在因果關系探討中，依據目標變量實現對輸入變量眾多水平划分

字段約定：輸出字段特別適合為分類變量，當為連續變量時會自動分為10段處理。

logistic的目標字段也是分類變量而不能為數值變量。當分類變量的結果有多個分類的時候，使用多項模型，如果是“是/否，真/假，或流失/保持”，則會轉而創建二項模型，使用“（二項 Logistic 回歸）”

四、Quest（quick unbiased efficient statistical tree）:
優點：運算過程比CR&T更簡單有效
QUEST 節點可提供用於構建決策樹的二元分類法，此方法的設計目的是減少大型 C&R決策樹分析所需的處理時間，同時減小分類樹方法中常見的偏
向類別較多預測變量的趨勢。預測變量字段可以是數字范圍的，但目標字段必須是分類的。所有分割都是二元的。

字段約定：輸出（目標）字段必須為二值分類型變量（如果是多值得轉化為二值）

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Clementine決策樹算法C&RT、CHAID、QUEST、C5.0的區別決策樹算法之C5.0 決策樹模型比較：C4.5，CART，CHAID，QUEST R_針對churn數據用id3、cart、C4.5和C5.0創建決策樹模型進行判斷哪種模型更合適 C4.5（決策樹）決策樹系列（四）——C4.5 決策樹-C4.5算法（三） C4.5決策樹決策樹的優缺點&ID3、C4.5和CART區別 ID3,C4.5和CART三種決策樹的區別