所謂回歸,就是根據特征向量來決定對應的輸出值。回歸樹就是將特征空間划分成若干單元,每一個划分單元有一個特定的輸出。因為每個結點都是“是”和“否”的判斷,所以划分的邊界是平行於坐標軸的。對於測試數據,我們只要按照特征將其歸到某個單元,便得到對應的輸出值
如現在對一個新的向量(6,6)決定它對應的輸出。第一維分量6介於5和8之間,第二維分量6小於8,根據此決策樹很容易判斷(6,6)所在的划分單元,其對應的輸出值為c3.
划分的過程也就是建立樹的過程,每划分一次,隨即確定划分單元對應的輸出,也就多了一個結點。當根據停止條件划分終止的時候,最終每個單元的輸出也就確定了,也就是葉結點。
下表為訓練數據集,特征向量只有一維,根據此數據表建立回歸決策樹。
x 1 2 3 4 5 6 7 8 9 10
y 5.56 5.7 5.91 6.4 6.8 7.05 8.9 8.7 9 9.05
在本數據集中,只有一個特征變量,最優切分變量自然是x。接下來考慮9個切分點(切分變量兩個相鄰取值區間內任一點均可),
根據式(1.2)計算每個待切分點的損失函數值:
損失函數為
其中
當s=1.5時,兩個子區域
同理,得到其他各切分點的子區域輸出值,列表如下
s 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
c1 5.56. 5.63. 5.72. 5.89. 6.07. 6.24. 6.62 6.88 7.11
c2 7.5. 7.73 7.99 8.25 8.54 8.91 8.92 9.03 9.05
計算損失函數值,找到最優切分點
當s=1.5時,
同理,計算得到其他各切分點的損失函數值,列表如下
s. 1.5 2.5 3.5 4.5 5.5 6.5 7.5 8.5 9.5
L(s). 15.72. 12.07. 8.36. 5.78. 3.91. 1.93. 8.01 11.73 15.74
易知,取s=6.5時,損失函數值最小。因此,第一個划分點為(j=x,s=6.5).后面同理
假設兩次划分后即停止,則最終生成的回歸樹為: