決策樹生成算法

本文轉載自查看原文 2017-12-05 10:48 4226 DataMining

關於決策樹，想必大部分人都已經耳熟能詳了，這是一種用來預測行為的樹狀分叉結構。本文主要想總結一下最常用的決策樹生成算法

構造的原則

熟悉決策樹的你一定記得，決策樹每個非葉子結點對應的其實是一個屬性。比方說，想判斷一個男生是不是 gay，我們首先需要判斷他的性別是不是男的，是的話繼續判斷他的性取向，之后繼續判斷他的其他行為……這里的「性別」，「性取向」就是屬性，而決策樹的生成其實是依次挑選這些屬性組成自己的節點，到最終可以明確得出結論的時候（也就是葉子結點），整棵樹便生成了。所以，我們的目標就是按照某種方法依次挑選出這些屬性。

我們挑選的原則是：每次選出這個屬性后，可以最大限度地減小分類的可能性。回到 gay 這個問題，如果擺在我們眼前的屬性有：「性取向」，「是否喜歡日漫」，「是否長發披肩」，那么，選擇「性取向」這個屬性，對我們之后的判斷，幫助無疑是最大的。因為得知「性取向」之后，基本也就得到結論了。所以，對這個例子而言，「性取向」是我們優先挑選的屬性。

那么，我們如何衡量這種幫助的大小呢？請往下看👇。

ID3 算法

ID3 算法歸根到底就是提出一種合理的選擇屬性的方法。

（注意，決策樹是一種知識學習算法，只有從眾多樣本中才能得出哪個屬性最好，所以，構造決策樹的前提是有大量的樣本可供學習）

下面，為了方便講解，我們需要引入信息學中「熵」的概念🙈。

熵（entropy）

第一次接觸熵的概念是在學高中化學的時候，課本告訴我們：一堆整齊有序的分子，最終都會演變成一個混亂復雜的群體，也就是，這個系統的熵值會逐漸變大。因此，簡單整齊的系統，熵越小，越混亂的系統，熵越大。接下來，讓我們回顧一下分子的布朗運動……

開個玩笑啦🤗。

同化學里的熵一樣，信息學的熵也有類似的作用。在信息學中，如果熵越大，證明掌握的信息越少，事情越不確定。看到這里，你有沒有覺得，熵的定義和我們前面提出的挑選屬性的原則有點類似。是的，ID3 的精髓也就是在這，它通過計算屬性的熵，來得出一個屬性對事情的確定性能產生多大的影響，從而選出最好的屬性。

那么熵該如何度量呢？

著名的信息論創始人「香農」提出一個度量熵的方法：假設有一堆樣本 D，那么 D 的熵可以這樣計算：

H (D) = - \sum i = 1 m p i l o g 2 (p i)

其中， $p_{i}$

$H (D) = - (\frac{5}{10} l o g_{2} \frac{5}{10} + \frac{5}{10} l o g_{2} \frac{5}{10}) = 1$

反之，如果只有 1 枚硬幣正面朝上，9 枚硬幣正面朝下，那么熵為：

$H (D) = - (\frac{1}{10} l o g_{2} \frac{1}{10} + \frac{9}{10} l o g_{2} \frac{9}{10}) = 0.469$

如果全部硬幣正面朝上，你應該可以算出來，熵為 0。舉這個例子是想說明：當熵的值越大的時候，事情會更加難以確定，如果你知道 10 次實驗中，正面朝上的為 5 次，朝下的也為 5 次，那么下一次哪一面朝上，你是不是很難確定。相反，如果熵的值越小，事情就越明朗。當熵為 0，也就是 10 次都正面朝上的時候，下一次你會不會覺得正面朝上的概率會大很多（請忘掉你的傳統思維，我沒說這是一枚正常的硬幣）。

選擇屬性

好了，有了熵的概念以及度量方法，下面我們可以正式地走一遍 ID3 的流程了。同樣的，假設我們有一堆數據 D，我們先計算出這堆樣本的熵 $H (D)$

R e m a i n d e r (A) = \sum j = 1 v | D j | | D | H ( D

$p_{i}$

G a i n (A) = H (D) - R e m a i n d e r (A)

$p_{i}$

舉個例子

下面用的這個例子摘自文末的參考博客算法雜貨鋪——分類算法之決策樹(Decision tree)。假設我們有以下這堆 SNS 社區的資料，我們想確定一個賬號是否是真實。其中，s 、m 和 l 分別表示小、中和大。我們先計算出這堆樣本的熵：

$H (D) = - (0.7 * l o g_{2} 0.7 + 0.3 * l o g_{2} 0.3) = 0.879$

然后，我們計算每個屬性的信息增益：

R e m a i n d e r (L) = 0.3 * (- 0 3 l o g 2 0 3 - 3 3 l

G a i n (L) = 0.879 - 0.603 = 0.276

同樣的道理：

G a i n (F) = 0.553

G a i n (H) = 0.033

經過比較，我們發現 F 的增益最高，於是選出 F 作為節點，構造出如下決策樹：注意，F 屬性有三個類別，對應三個分支，其中，l 和 m 兩個分支的數據都是同一類（賬號真實性要么都是 no 要么都是 yes），因此這兩個分支沒法再分了，而 s 屬性的分支，剩下一個四個樣本的子集，我們之后的任務，是對這個子集繼續分割，直到沒法再分為止。接下來要考慮 L 和 H 屬性，同樣的道理，我們繼續計算增益，只不過這一次我們是在這個子集上計算。

H (D) = - (3 4 * l o g 2 3 4 + 1 4 * l o g 2 1 4 ) = 0.811

R e m a i n d e r (L) = 1 2 * ( 0 ) + 1 2 ( - 1 2 l o g 2 1 2 - 1

R e m a i n d e r (H) = 3 4 * [ - 2 3 l o g 2 ( 2 3 ) - 1 3 l o g 2 (

G a i n (L) = 0.811 - 0.5 = 0.311

G a i n (H) = 0.811 - 0.689 = 0.122

這一次，我們選擇 L 屬性進行分裂：剩下的只有 H 屬性，因此最后加上 H 節點。由於剩下的樣本中只有 H=no 的數據，因此 yes 節點的數據沒法判斷（這種情況在數據量很大的時候一般不會遇到，因為數據量越大，涵蓋的情況會更多），而剩下的兩個樣本存在 yes 和 no 兩種情況，因此 no 節點往下也只能隨機選擇一種類別進行判斷（這種情況一般是根據進行「多數表決」，即選擇出現次數最多的類別作為最終類別，在數據量很大的情況下，出現次數一樣多的情況幾乎不會發生）。

屬性為連續值的情況

上面給出的例子中，樣本的特征都是離散值（e.g. s，m，l），而 ID3 算法確實也只對離散值起作用。如果遇到特征為連續值的情況，一般需要先將其離散化，例如：可以選定幾個閾值 $a_{1}$

C4.5算法

C4.5 算法主要對 ID3 進行了改進，用「增益率」來衡量屬性的信息增益效率。算法中定義了「分裂信息」：

$S p l i t I n f o (A) = - \sum_{j = 1}^{v} \frac{| D_{j} |}{| D |} l o g_{2} \frac{| D_{j} |}{| D |}$

然后，通過該信息，定義增益率公式為：

$G a i n R a t i o (A) = \frac{G a i n (A)}{S p l i t I n f o (A)}$

C4.5選擇具有最大「增益率」的屬性作為分裂屬性，而其余步驟，和 ID3 完全一致。

CART

CART 指的是分類回歸樹（Classification And Regression Tree）。顧名思義，這是一棵既可以用於分類，也可以用於回歸的樹。不同於上面的兩種樹，CART 每一個非葉子節點只有有兩個分支，所以 CART 是一棵二叉樹。下面我們按照分類和回歸兩個用途分別介紹 CART 的構建。

分類樹的生成

CART 在選擇分裂節點的時候，用「基尼指數（Gini）」來挑選最合適的特征進行分裂。所謂「基尼指數」，其實和 ID3 中熵的作用類似。假設我們有一個數據集 D，其中包含 N 個類別，那么「基尼指數」為：

G i n i (D) = 1 - \sum j = 1 N P 2 j

$p_{i}$

G i n i (D, A) = \sum j k | D j | | D |

$p_{i}$

回歸樹的生成

回歸樹相對來說比較難理解，我自己也花了較長時間咀嚼，其中還有一些不明白的地方，日后有了新的想法會繼續補充修正。為了更好地說明回歸樹的構建流程，我們假設有以下訓練數據：

$X$	$Y$
( $x_{11}$	$y_{1}$
( $x_{21}$	$y_{2}$
( $x_{31}$	$y_{3}$

上面的表中一共有三個樣本，每個樣本有三個特征，為了解說方便，我們分別命名為特征 1、特征 2、特征 3（比如： $x_{11}$

min j, s [min c 1 \sum x i \in R 1 (j, s) (y i - c 1

其中，

$j$
$s$
$R_{1}$
$c_{1}$

如果我們進一步對 $\sum_{x_{i} \in R_{1} (j, s)} {(y_{i} - c_{1})}^{2}$

min j, s [\sum x i \in R 1 (j, s) (y i - c 1) 2 + \sum

$p_{i}$

希望上面對符號的說明能減少讀者對公式的畏懼🤒。

這個公式的做法其實很簡單，就是枚舉所有特征以及特征值，挑選出最好的特征以及特征值作為分裂點，將樣本分為兩部分，其中，每一部分內的樣本值 $y$

至此，回歸樹的精髓部分就介紹完了。下面順藤摸瓜講一下回歸樹的構建過程。

最小二乘回歸樹生成算法：

依次遍歷每個特征 j，根據所有樣本中特征 j 的取值 s，我們按照上面的公式計算代價函數，這樣便可以得到每對 ( $j$
使用上一步的切分點將數據分為兩份；
重復第 1、2 步，直到樣本的平方差小於閾值或樣本數目小於閾值為止。此時，葉子節點的數據就是該樣本空間 $R_{m}$
根據第 3 步構造的各個樣本空間 $R_{m}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 統計學習方法之決策樹（2）信息增益比，決策樹的生成算法決策樹的生成決策樹算法決策樹算法決策樹算法決策樹分類算法決策樹剪枝算法決策樹算法原理(上) 決策樹算法總結決策樹學習基決策樹學習基本算法