七、多變量決策樹
1、從“樹”到“規則”
一棵決策樹對應於一個“規則集”,每個從根結點到葉結點的分支路徑對應於一條規則。
舉例:
好處:
(1)改善可理解性
(2)進一步提升泛化能力( 由於轉化過程中通常會進行前件合並、泛化等操作,C4.5Rule 的泛化能力通常優於 C4.5決策樹)
2、軸平行划分
若我們把每個屬性視為坐標空間中的一個坐標軸,則 d 個屬性描述的樣本就對應了 d 維空間中的一個數據點,對樣本分類則意味着在這個坐標空間中尋找不同類樣本之間的分類邊界,決策樹所形成的決策邊界有一個明顯的特點:軸平行(axis-parallel),即它的分類邊界由若干個與坐標軸平行的分段組成。
(1)單變量決策樹
單變量決策樹:在每個非葉結點僅考慮一個划分屬性,產生“軸平行”分類面,尋找分類邊界。
舉例:
當學習任務所對應的分類邊界很復雜時,需要非常多段划分才能獲得較好的近似。
若能使用斜的划分模型,則決策樹模型就會大大簡化。這就引入了“多變量決策樹”。
(2)多變量決策樹
多變量決策樹:每個非葉結點不僅考慮一個屬性,例如“斜決策樹” (oblique decision tree) 不是為每個非葉結點尋找最優划分屬性,而是建立一個線性分類器。
舉例:
更復雜的“混合決策樹”甚至可以在結點嵌入神經網絡或其他非線性模型。