分類數和回歸樹的2個主要區別


感謝Blog主要從這里翻譯過來:

對於技術領域眾多的預測工具,決策樹是其中比較普遍和容易理解的,而決策樹中又以分類樹和回歸樹為主要方法,這邊文章主要介紹一下他們的使用條件以及算法上的不同之處。

不同點1:

  分類樹主要用於將數據集分類到響應變量所對應的不同類別里,通常響應變量對應兩類0 or 1. 如果目標變量對應了2個以上的類別,則需要使用分類樹的一個擴展版C4.5(很popular)。然而對於一個二分類問題,常常使用標准的CART算法。不難看出分類樹主要用於響應變量天然對應分類的情況。

  回歸樹主要用於響應變量是數值的或者連續的,例如預測商品的價格,其適用於預測一些非分類的問題。

【注意:預測源或者說自變量也可能是分類的或者數值的,但決策樹的選擇只和目標變量的類型有關】

不同點2:

  標准分類樹的思想是根據數據的相似性(homogeneity)來進行數據的分類。舉一個簡單的例子就是:****。對於標准的非純度計算,一般會基於一個可計算的模型,比如entropy 或者Gini index通常用來量化分類樹的均勻性。

  用於回歸樹里的目標變量是連續的,我們通常用自變量擬合一個回歸模型。然后對於每個自變量,數據被幾個分割點分離。在每個分割點,最小化預測值和真實值的誤差和 (SSE)得到回歸模型的分類方法。

 

`\(2 + 2 = 5\)`

We discussed a C4.5 classification tree (for more than 2 categories of target variable) here which uses information gain to decide on which variable to split. In a corresponding regression tree, standard deviation is used to make that decision in place of information gain. More technical details are here. Regression trees, by virtue of using regression models lose the one strength of standard decision trees: ability to handle highly non-linear parameters. In such cases, it may be better to use the C4.5 type implementation.

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM