決策樹(分類樹、回歸樹）

本文轉載自查看原文 2020-11-27 08:39 567 Machine Learning

決策樹

參考文獻

[1] 李航. 統計學習方法[M]. 北京：清華大學出版社，2012

決策樹

前言：第一篇博客，最近看完決策樹，想着歸納一下，也方便自己以后回顧。寫的會比較全面一些，可能會有很多不太正確的地方，歡迎大家交流指正 : )

決策樹模型：

決策樹模型是運用於分類以及回歸的一種樹結構。決策樹由節點和有向邊組成，一般一棵決策樹包含一個根節點、若干內部節點和若干葉節點。決策樹的決策過程需要從決策樹的根節點開始，待測數據與決策樹中的特征節點進行比較，並按照比較結果選擇選擇下一比較分支，直到葉子節點作為最終的決策結果。

內部節點：對應於一個屬性測試
葉節點：對應於決策結果
根節點包含樣本全集；
每個節點包括的樣本集合根據屬性測試的結果被划分到子節點中；
根節點到每個葉節點的路徑對應對應了一個判定測試路徑；

決策樹的結構還是比較好理解的，如果不明白，可以看一下圖中的例子，這是一個簡單判斷這個鍵盤我喜不喜歡的決策樹模型：
這里寫圖片描述

目標變量可以采用一組離散值的樹模型稱為分類樹(常用的分類樹算法有ID3、C4.5、CART)，而目標變量可以采用連續值（通常是實數）的決策樹被稱為回歸樹(如CART算法)。

決策樹算法本質上就是要找出每一列的最佳划分以及不同列划分的先后順序及排布

決策樹學習算法：

特征選擇
決策樹生成
決策樹剪枝

(下面討論的都是分類樹，回歸樹會在后面單獨再談)

特征選擇：

特征選擇也即選擇最優划分屬性，從當前數據的特征中選擇一個特征作為當前節點的划分標准。我們希望在不斷划分的過程中，決策樹的分支節點所包含的樣本盡可能屬於同一類，即節點的“純度”越來越高。而選擇最優划分特征的標准不同，也導致了決策樹算法的不同。

為了找到最優的划分特征，我們需要先了解一些信息論的知識：

信息熵(information entropy)
信息增益(information gain)
信息增益率(information gain ratio)
基尼指數(Gini index)

熵：
在信息論和概率統計中，熵(entropy)是表示隨機變量不確定性的度量，設X是一個取有限值的離散隨機變量，其概率分布為

P (X = x i) = p i, i = 1, 2, . . ., n

則隨機變量 $X$ 的熵定義為

H (X) = - \sum i = 1 n p i l o g p i

上述公式中的對數通常以2為底
熵越大，隨機變量的不確定性越大。為了能夠更好地理解熵的意義，我們下面舉一個例子來說明。
當隨機變量只取兩個值，如1，0時，即 $X$ 的分布為

P (X = 1) = p, P (X = 0) = 1 - p, 0 \leq p \leq 1

則熵為

H (p) = - p l o g 2 p - (1 - p) l o g 2 (1 - p)

$H (p)$ 的函數圖像如下：
$H(p)$隨概率p變化的曲線
從圖中我們不難看出 $p = 0 o r 1$ 時 $H (p)$ 為0，即不確定性為0。當 $p = 0.5$ 時，不確定性最大。

條件熵：
設有隨機變量 $(X, Y)$

。條件熵 $H (Y | X)$ 表示在已知隨機變量 $X$ 的條件下隨機變量 $Y$ 的不確定性。隨機變量 $X$ 給定的條件下隨機變量 $Y$ 的條件熵 $H (Y | X)$ 定義為 $X$ 給定條件下 $Y$ 的條件概率分布的熵對 $X$

的數學期望

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

這里， $p_{i} = P (X = x_{i}), i = 1, 2, . . ., n$

信息增益：
信息增益表示得知特征 $X$

的信息而使得類 $Y$ 的信息的不確定性減少程度。接下來給出定義，特征 $A$ 對訓練數據集 $D$ 的信息增益 $g (D, A)$ ,為集合 $D$ 的熵 $H (D)$ 與特征 $A$ 給定條件下 $D$ 的條件熵 $H (D | A)$

之差，即

g (D, A) = H (D) - H (D | A)

信息增益的算法:

輸入：訓練數據集 $D$

，特征 $A$
輸出：特征 $A$ 對訓練數據集 $D$ 的信息增益 $g (D, A)$
$(1) :$ 計算數據集 $D$ 的熵 $H (D)$

H (D) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D |

$(2) :$ 計算特征 $A$ 對訓練數據集 $D$ 的條件熵 $H (D | A)$

H (D | A) = \sum i = 1 n | D i | | D | H (D i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | l o g 2 | D i k | | D i |

$(3) :$ 計算信息增益

g (D, A) = H (D) - H (D | A)

$| D |$ 為樣本容量，設有 $K$ 個類 $C_{k}, k = 1, 2, . . ., K, | C_{k} |$ 為屬於類 $C_{k}$ 的樣本個數。設特征 $A$ 有 $n$ 個不同取值，根據特征 $A$ 的取值將 $D$ 划分為 $n$ 個子集 $D_{1}, D_{2}, . . ., D_{n}$ , $D_{i k}$ 為子集 $D_{i}$ 中屬於類 $C_{k}$

的集合。

信息增益率：
特征 $A$

對訓練數據集 $D$ 的信息增益 $g_{R} (D, A)$ 定義為其信息增益 $g (D, A)$ 與訓練數據集 $D$ 關於特征 $A$ 的值的熵 $H_{A} (D)$

之比，即

g R (D, A) = g ( D , A ) H A ( D )

其中， $H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} l o g_{2} \frac{| D_{i} |}{| D |}, n$ 是特征 $A$ 取值的個數。
注意區別 $H (D | A)$ 和 $H_{A} (D)$

基尼指數：
基尼指數 $G i n i (D)$

表示集合 $D$ 不確定性，基尼指數 $G i n i (D ， A = a)$ 表示集合 $D$ 經 $A = a$ 分割后的不確定性(類似於熵)，基尼指數越小，樣本的不確定性越小。
分類問題中，假設有 $K$ 個類，樣本點屬於第 $k$ 類的概率為 $p_{k},$

則概率分布的基尼指數定義為

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

如果樣本集合 $D$ 根據特征 $A$ 是否取某一可能值 $a$ 被分割成 $D_{1}$ 和 $D_{2}$ 兩部分，即
$D_{1} =$ { $(x, y) \in D | A (x) = a$ } $, D_{2} = D - D_{1}$
則在特征 $A$ 的條件下,集合 $D$ 的基尼指數定義為

G i n i (D, A = a) = | D 1 | | D | G i n i (D 1) + | D 2 | | D | G i n i (D 2)

決策樹生成

生成算法	划分標准
$I D 3$

	信息增益
$C 4.5$

	信息增益率
$C A R T$

基尼指數

$I D 3 :$

$I D 3$

算法的核心是在決策樹各個節點上根據信息增益來選擇進行划分的特征，然后遞歸地構建決策樹。
具體方法：

從根節點開始，對節點計算所有可能的特征的信息增益，選擇信息增益值最大的特征作為節點的划分特征；
由該特征的不同取值建立子節點；
再對子節點遞歸地調用以上方法，構建決策樹；
到所有特征的信息增益都很小或者沒有特征可以選擇為止，得到最終的決策樹

$I D 3$

的局限：

沒有剪枝
采用信息增益作為選擇最優划分特征的標准，然而信息增益會偏向那些取值較多的特征(這也是 $C 4.5$

采用信息增益率的原因)

$C 4.5 :$

$C 4.5$

與 $I D 3$ 相似，但對 $I D 3$ 進行了改進，在這里不再詳細描述 $C 4.5$ 的實現，就講一下有哪些基於 $I D 3$

的改進：

用信息增益率來選擇划分特征，克服了用信息增益選擇的不足
在構造樹的過程中進行剪枝
可對連續值與缺失值進行處理

為什么 $C 4.5$

要用信息增益率代替信息增益？為什么信息增益會偏向多取值特征？

信息增益在面對類別較少的離散數據時效果較好，但是面對取值較多的特征時效果會很不如人意。關於信息增益對取值較多特征的偏向性，我認為原因是：當特征的取值較多時，根據此特征划分得到的子集純度有更大的可能性會更高(對比與取值較少的特征)，因此划分之后的熵更低，由於划分前的熵是一定的，因此信息增益更大，因此信息增益比較偏向取值較多的特征。舉個較為極端的例子可能更好理解：如果特征 $A$

的取值能將每一個樣本都分到一個節點當中去的時候(如編號等特征)，條件熵部分會為0，這意味着該情況下的信息增益達到了最大值，故ID3算法一定會選擇特征A。但是，顯然的，我們知道這個特征A顯然不是最佳選擇。
那么為什么信息增益率就能改善這種情況呢？先來看一下信息增益率的計算公式：

g R (D, A) = g ( D , A ) H A ( D )

其中， $H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} l o g_{2} \frac{| D_{i} |}{| D |}$ , $H_{A} (D)$ 又叫做特征 $A$ 的內部信息， $H_{A} (D)$ 其實像是一個衡量以特征 $A$ 的不同取值將數據集 $D$ 分類后的不確定性的度量。如果特征 $A$ 的取值越多，那么不確定性通常會更大，那么 $H_{A} (D)$ 的值也會越大，而 $\frac{1}{H_{A} (D)}$ 的值也會越小。這相當於是在信息增益的基礎上乘上了一個懲罰系數。即 $g_{R} (D, A) = g (D, A) *$ 懲罰系數.
(我的理解如果有什么錯誤的地方的話，希望大家能夠指正，不勝感激XD)

$C A R T :$

$C A R T (c l a s s i f i c a t i o n a n d r e g r e s s i o n t r e e),$

分類回歸樹算法，既可用於分類也可用於回歸，在這一部分我們先主要將其分類樹的生成。區別於 $I D 3$ 和 $C 4.5$ , $C A R T$ 假設決策樹是二叉樹，內部節點特征的取值為“是”和“否”，左分支為取值為“是”的分支，右分支為取值為”否“的分支。這樣的決策樹等價於遞歸地二分每個特征，將輸入空間(即特征空間)划分為有限個單元。 $C A R T$

的分類樹用基尼指數來選擇最優特征的最優划分點，具體過程如下

從根節點開始，對節點計算現有特征的基尼指數，對每一個特征，例如 $A$

，再對其每個可能的取值如 $a$ ,根據樣本點對 $A = a$ 的結果的”是“與”否“划分為兩個部分，利用 $G i n i (D, A = a) = \frac{| D_{1} |}{| D |} G i n i (D_{1}) + \frac{| D_{2} |}{| D |} G i n i (D_{2})$

進行計算；

在所有可能的特征 $A$

以及該特征所有的可能取值 $a$

中，選擇基尼指數最小的特征及其對應的取值作為最優特征和最優切分點。然后根據最優特征和最優切分點，將本節點的數據集二分，生成兩個子節點

對兩個字節點遞歸地調用上述步驟，直至節點中的樣本個數小於閾值，或者樣本集的基尼指數小於閾值，或者沒有更多特征后停止；

生成 $C A R T$

分類樹；

回歸樹：

回歸樹是可以用於回歸的決策樹模型，一個回歸樹對應着輸入空間（即特征空間）的一個划分以及在划分單元上的輸出值.與分類樹不同的是，回歸樹對輸入空間的划分采用一種啟發式的方法，會遍歷所有輸入變量，找到最優的切分變量 $j$

和最優的切分點 $s$ ，即選擇第 $j$ 個特征 $x^{j}$ 和它的取值 $s$ 將輸入空間划分為兩部分，然后重復這個操作。
而如何找到最優的 $j$ 和 $s$

是通過比較不同的划分的誤差來得到的。一個輸入空間的划分的誤差是用真實值和划分區域的預測值的最小二乘來衡量的，即

\sum x i \in R m (y i - f (x i)) 2

其中， $f (x_{i})$ 是每個划分單元的預測值，這個預測值是該單元內每個樣本點的值的均值，即

f (x i) = c m = a v e (y i | x i \in R m)

(將輸入空間划分為 $M$ 個單元 $R_{1}, R_{2}, . . ., R_{m}$ )

那么， $j$

和 $s$

的求解可以用下式進行

m i n j, s [m i n c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

其中， $R_{1} (j, s) =$ { $x | x^{j} \leq s$ }和 $R_{2} (j, s) =$ { $x | x^{j} > s$ }是被划分后的兩個區域

梳理一下上述內容，最小二乘回歸樹的生成方法如下

選擇最優的切分變量 $j$

和最優的切分點 $s$ ，求解

m i n j, s [m i n c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2]

遍歷所有特征，對固定的特征掃描所有取值，找到使上式達到最小值的對 $(j, s)$

.

用選定的對 $(j, s)$

划分區域，並確定該區域的預測值；
繼續對兩個字區域調用上述步驟，直至滿足停止條件；
生成回歸樹；

舉個例子，我們要對南京市各地區的房價進行回歸預測，我們將輸入空間不斷的按最小誤差進行划分，得到類似下圖的結果，將空間划分后，我們會用該單元內的均值作為該單元的預測值，如圖中一片區域的平均房價作為該划分單元內房價的預測值(唔，怎么感覺這個例子還是不太准確…）。

這里寫圖片描述
(圖片來源於網絡，如有侵權會馬上刪除：)

決策樹剪枝

准備寫的時候才發現我自己剪枝這部分並沒有搞得非常清楚，只能先放在這，日后再進行更新好了。。。

參考文獻

[1] 李航. 統計學習方法[M]. 北京：清華大學出版社，2012

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹-回歸決策樹 – 回歸決策樹的剪枝，分類回歸樹CART 決策樹分類剖析分類、聚類、決策樹、回歸以及神經網絡決策樹分類算法決策樹分類原理決策樹分類回歸，ID3，c4.5，CART，及其Python代碼 Sklearn庫例子——決策樹分類 spark 決策樹分類算法demo

決策樹(分類樹、回歸樹）

決策樹

參考文獻

決策樹

決策樹模型：

決策樹學習算法：

特征選擇：

決策樹生成

ID3:

C4.5:

為什么C4.5

要用信息增益率代替信息增益？為什么信息增益會偏向多取值特征？

CART:

回歸樹：

決策樹剪枝

參考文獻

免責聲明！

$I D 3 :$

$C 4.5 :$

為什么 $C 4.5$

$C A R T :$