CART回歸樹


決策樹算法原理(ID3,C4.5)

決策樹算法原理(CART分類樹)

決策樹的剪枝

 

  CART決策樹的生成就是遞歸地構建二叉樹的過程。對回歸樹用平方誤差最小化准則,對分類樹用基尼指數最小化准則。

  給定訓練集 D = {(x1, y1), (x2, y2),...(xN, yN)} 考慮如何生成回歸樹。

  一個回歸樹對應輸入空間的一個划分以及在划分單元上的輸出值。假如數據空間被划分為R1~Rm單元,每個單元有一個固定的輸出值Cm

  CART回歸樹模型表達式:

  這樣可以計算模型輸出值與真實值的誤差:

  希望每個單元上的Cm,可以使平方誤差最小化,易知當Cm為相應單元上所有實際值的均值時,達到最優

  如何生成這些被划分的單元?

  下面是一組數據:

  選擇變量x(j)為切分變量,它的取值s為切分點,那么得到兩個區域:

  當 j 和 s 固定時,我們要找到兩個區域的代表值C1、C2使各自區間上的平方差最小,

  已知滿足平方誤差最小的C1、C2為區間上的平均,

  那么對固定的 j 只需要找到最優的 s,
  然后通過遍歷所有的變量,我們可以找到最優的 j,
  這樣我們就可以得到最優對(j,s),並得到兩個區間。

 

  上述過程表示的算法步驟:

  即:

    1. 考慮數據集 D 上的所有特征 j,遍歷每一個特征下所有可能的取值或者切分點 s,將數據集 D 划分成兩部分 D1 和 D2。
    2. 分別計算上述兩個子集的平方誤差和,選擇最小的平方誤差對應的特征與分割點,生成兩個子節點。
    3. 對上述兩個子節點遞歸調用步驟1、2,直到滿足停止條件。
       

來自:https://www.jianshu.com/p/b90a9ce05b28

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM