CART決策樹的生成就是遞歸地構建二叉樹的過程。對回歸樹用平方誤差最小化准則,對分類樹用基尼指數最小化准則。
給定訓練集 D = {(x1, y1), (x2, y2),...(xN, yN)} 考慮如何生成回歸樹。
一個回歸樹對應輸入空間的一個划分以及在划分單元上的輸出值。假如數據空間被划分為R1~Rm單元,每個單元有一個固定的輸出值Cm。
CART回歸樹模型表達式:

這樣可以計算模型輸出值與真實值的誤差:

希望每個單元上的Cm,可以使平方誤差最小化,易知當Cm為相應單元上所有實際值的均值時,達到最優:

如何生成這些被划分的單元?
下面是一組數據:


選擇變量x(j)為切分變量,它的取值s為切分點,那么得到兩個區域:

當 j 和 s 固定時,我們要找到兩個區域的代表值C1、C2使各自區間上的平方差最小,

已知滿足平方誤差最小的C1、C2為區間上的平均,

那么對固定的 j 只需要找到最優的 s,
然后通過遍歷所有的變量,我們可以找到最優的 j,
這樣我們就可以得到最優對(j,s),並得到兩個區間。
上述過程表示的算法步驟:

即:
- 考慮數據集 D 上的所有特征 j,遍歷每一個特征下所有可能的取值或者切分點 s,將數據集 D 划分成兩部分 D1 和 D2。
- 分別計算上述兩個子集的平方誤差和,選擇最小的平方誤差對應的特征與分割點,生成兩個子節點。
- 對上述兩個子節點遞歸調用步驟1、2,直到滿足停止條件。
來自:https://www.jianshu.com/p/b90a9ce05b28
