決策樹-回歸問題


所謂回歸,就是根據特征向量來決定對應的輸出值。回歸樹就是將特征空間划分成若干單元,每一個划分單元有一個特定的輸出。因為每個結點都是“是”和“否”的判斷,所以划分的邊界是平行於坐標軸的。對於測試數據,我們只要按照特征將其歸到某個單元,便得到對應的輸出值

 

 

 

如現在對一個新的向量(6,6)決定它對應的輸出。第一維分量6介於5和8之間,第二維分量6小於8,根據此決策樹很容易判斷(6,6)所在的划分單元,其對應的輸出值為c3.

划分的過程也就是建立樹的過程,每划分一次,隨即確定划分單元對應的輸出,也就多了一個結點。當根據停止條件划分終止的時候,最終每個單元的輸出也就確定了,也就是葉結點。

 

下表為訓練數據集,特征向量只有一維,根據此數據表建立回歸決策樹。

x   1       2          3          4         5        6         7        8      9      10

5.56    5.7       5.91      6.4       6.8     7.05     8.9     8.7    9      9.05

在本數據集中,只有一個特征變量,最優切分變量自然是x。接下來考慮9個切分點(切分變量兩個相鄰取值區間內任一點均可),

根據式(1.2)計算每個待切分點的損失函數值:

損失函數為

 

 

其中 

 

當s=1.5時,兩個子區域 \small R_1=\left \{ 1 \right \}  \small R_2=\left \{ 2,3,4,5,6,7,8,9,10 \right \}   \small c_1=5.56   \small c_2=\frac{1}{9}(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.5

同理,得到其他各切分點的子區域輸出值,列表如下

s   1.5          2.5          3.5             4.5            5.5               6.5                7.5              8.5             9.5

c1 5.56.      5.63.         5.72.          5.89.          6.07.            6.24.             6.62             6.88           7.11

c2 7.5.       7.73          7.99           8.25           8.54             8.91              8.92             9.03           9.05

 

計算損失函數值,找到最優切分點

當s=1.5時,    

同理,計算得到其他各切分點的損失函數值,列表如下

s.       1.5      2.5        3.5          4.5          5.5           6.5           7.5             8.5             9.5

L(s).   15.72.  12.07.    8.36.        5.78.       3.91.         1.93.         8.01            11.73           15.74

易知,取s=6.5時,損失函數值最小。因此,第一個划分點為(j=x,s=6.5).后面同理

 假設兩次划分后即停止,則最終生成的回歸樹為: 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM