1. 決策樹模型與學習

決策樹（decision tree）算法基於特征屬性進行分類，其主要的優點：模型具有可讀性，計算量小，分類速度快。決策樹算法包括了由Quinlan提出的ID3與C4.5，Breiman等提出的CART。其中，C4.5是基於ID3的，對分裂屬性的目標函數做出了改進。

決策樹模型

決策樹是一種通過對特征屬性的分類對樣本進行分類的樹形結構，包括有向邊與三類節點：

根節點（root node），表示第一個特征屬性，只有出邊沒有入邊；
內部節點（internal node），表示特征屬性，有一條入邊至少兩條出邊
葉子節點（leaf node），表示類別，只有一條入邊沒有出邊。

上圖給出了（二叉）決策樹的示例。決策樹具有以下特點：

對於二叉決策樹而言，可以看作是if-then規則集合，由決策樹的根節點到葉子節點對應於一條分類規則;
分類規則是互斥並且完備的，所謂互斥即每一條樣本記錄不會同時匹配上兩條分類規則，所謂完備即每條樣本記錄都在決策樹中都能匹配上一條規則。
分類的本質是對特征空間的划分，如下圖所示，

決策樹學習

決策樹學習的本質是從訓練數據集中歸納出一組分類規則[2]。但隨着分裂屬性次序的不同，所得到的決策樹也會不同。如何得到一棵決策樹既對訓練數據有較好的擬合，又對未知數據有很好的預測呢？

首先，我們要解決兩個問題：

如何選擇較優的特征屬性進行分裂？每一次特征屬性的分裂，相當於對訓練數據集進行再划分，對應於一次決策樹的生長。ID3算法定義了目標函數來進行特征選擇。
什么時候應該停止分裂？有兩種自然情況應該停止分裂，一是該節點對應的所有樣本記錄均屬於同一類別，二是該節點對應的所有樣本的特征屬性值均相等。但除此之外，是不是還應該其他情況停止分裂呢？

2. 決策樹算法

特征選擇

特征選擇指選擇最大化所定義目標函數的特征。下面給出如下三種特征（Gender, Car Type, Customer ID）分裂的例子：

圖中有兩類類別（C0, C1），C0: 6是對C0類別的計數。直觀上，應選擇Car Type特征進行分裂，因為其類別的分布概率具有更大的傾斜程度，類別不確定程度更小。

為了衡量類別分布概率的傾斜程度，定義決策樹節點\(t\)的不純度（impurity），其滿足：不純度越小，則類別的分布概率越傾斜；下面給出不純度的的三種度量：

\begin{equation}
Entropy(t)=-\sum\limits_{k}p(c_k|t)\log p(c_k|t)
\end{equation}

\begin{equation}
Gini(t)=1-\sum\limits_{k}[p(c_k|t)]^2
\end{equation}

\begin{equation}
Classification\ error(t)=1-\mathop{\max}\limits_{k} [p(c_k|t)]
\end{equation}

其中，\(p(c_k|t)\)表示對於決策樹節點\(t\)類別\(c_k\)的概率。這三種不純度的度量是等價的，在等概率分布是達到最大值。

為了判斷分裂前后節點不純度的變化情況，目標函數定義為信息增益（information gain）：
\begin{equation}
\Delta = I(parent) - \sum\limits_{i=1}^{n}{N(a_i)\over N}I(a_i)
\end{equation}

\(I(\cdot)\)對應於決策樹節點的不純度，\(parent\)表示分裂前的父節點，\(N\)表示父節點所包含的樣本記錄數，\(a_i\)表示父節點分裂后的某子節點，\(N(a_i)\)為其計數，\(n\)為分裂后的子節點數。

特別地，ID3算法選取熵值作為不純度\(I(\cdot)\)的度量，則

\[\begin{aligned} \Delta & = H(c)-\sum\limits_{i=1}^{n}{N(a_i)\over N}H(c|a_i) \cr &=H(c)-\sum\limits_{i}^{n} p(a_i)H(c|a_i)\cr & = H(c)-H(c|A) \cr \end{aligned} \]

\(c\)指父節點對應所有樣本記錄的類別；\(A\)表示選擇的特征屬性，即\(a_i\)的集合。那么，決策樹學習中的信息增益\(\Delta\)等價於訓練數據集中類與特征的互信息，表示由於得知特征\(A\)的信息訓練數據集\(c\)不確定性減少的程度。

在特征分裂后，有些子節點的記錄數可能偏少，以至於影響分類結果。為了解決這個問題，CART算法提出了只進行特征的二元分裂，即決策樹是一棵二叉樹；C4.5算法改進分裂目標函數，用信息增益比（information gain ratio）來選擇特征：

\begin{equation}
Gain \ ratio = {\Delta \over Entropy(parent)}
\end{equation}

因而，特征選擇的過程等同於計算每個特征的信息增益，選擇最大信息增益的特征進行分裂。此即回答前面所提出的第一個問題（選擇較優特征）。ID3算法設定一閾值，當最大信息增益小於閾值時，認為沒有找到有較優分類能力的特征，沒有往下繼續分裂的必要。根據最大表決原則，將最多計數的類別作為此葉子節點。即回答前面所提出的第二個問題（停止分裂條件）。

決策樹生成

ID3算法的核心是根據信息增益最大的准則，遞歸地構造決策樹；算法流程如下：

如果節點滿足停止分裂條件（所有記錄屬同一類別 or 最大信息增益小於閾值），將其置為葉子節點；
選擇信息增益最大的特征進行分裂；
重復步驟1-2，直至分類完成。

C4.5算法流程與ID3相類似，只不過將信息增益改為信息增益比。

3. 決策樹剪枝

過擬合

生成的決策樹對訓練數據會有很好的分類效果，卻可能對未知數據的預測不准確，即決策樹模型發生過擬合（overfitting）——訓練誤差（training error）很小、泛化誤差（generalization error，亦可看作為test error）較大。下圖給出訓練誤差、測試誤差（test error）隨決策樹節點數的變化情況：

可以觀察到，當節點數較小時，訓練誤差與測試誤差均較大，即發生了欠擬合（underfitting）。當節點數較大時，訓練誤差較小，測試誤差卻很大，即發生了過擬合。只有當節點數適中是，訓練誤差居中，測試誤差較小；對訓練數據有較好的擬合，同時對未知數據有很好的分類准確率。

發生過擬合的根本原因是分類模型過於復雜，可能的原因如下：

訓練數據集中有噪音樣本點，對訓練數據擬合的同時也對噪音進行擬合，從而影響了分類的效果；
決策樹的葉子節點中缺乏有分類價值的樣本記錄，也就是說此葉子節點應被剪掉。

剪枝策略

為了解決過擬合，C4.5通過剪枝以減少模型的復雜度。[2]中提出一種簡單剪枝策略，通過極小化決策樹的整體損失函數（loss function）或代價函數（cost function）來實現，決策樹\(T\)的損失函數為：

\[L_\alpha (T)=C(T)+\alpha \left| T \right| \]

其中，\(C(T)\)表示決策樹的訓練誤差，\(\alpha\)為調節參數，\(\left| T \right|\)為模型的復雜度。當模型越復雜時，訓練的誤差就越小。上述定義的損失正好做了兩者之間的權衡。

如果剪枝后損失函數減少了，即說明這是有效剪枝。具體剪枝算法可以由動態規划等來實現。

4. 參考資料

[1] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
[2] 李航，《統計學習方法》.
[3] Naren Ramakrishnan, The Top Ten Algorithms in Data Mining.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘十大算法之—C4.5 數據挖掘十大經典算法【十大經典數據挖掘算法】AdaBoost 【十大經典數據挖掘算法】SVM 【十大經典數據挖掘算法】kNN 【十大經典數據挖掘算法】CART 【十大經典數據挖掘算法】PageRank 【十大經典數據挖掘算法】Apriori 【十大經典數據挖掘算法】EM 詳解十大經典數據挖掘算法之——Apriori