數據挖掘實踐（51）：決策樹cart剪枝實例

本文轉載自查看原文 2021-06-04 22:08 315

來源：https://zhuanlan.zhihu.com/p/76709712

0 簡介

CART剪枝算法從"完全生長"的決策樹的底端剪去一些子樹，使決策樹變小(模型變簡單)，從而能夠對未知數據有更准確的預測。

分兩步：

　　1.從生產算法產生的整體的樹 $T_0$ 的最底端開始不斷剪枝，直至剪到整個樹 $T_0$ 的根結點為止，從而形成了一個子樹序列 $\{T_0,T_1,...,T_n\}$ ；

　　2.通過交叉驗證法在獨立的驗證數據集上對子樹序列進行測試，從中選出最優子樹。

1.剪枝，形成一個子樹序列

剪枝剪枝，怎么來剪？

　　從前面第4節將的剪枝內容來看，我們需要整一個損失函數來控制剪枝。

　　這個損失函數為： $C_\alpha(T)=C(T)+\alpha|T|$

　　其中，T為任意子樹， $C(T)$ 為對訓練數據的預測誤差(如基尼指數)， $|T|$ 為子樹的葉結點個數，表示樹的復雜度的。 $\alpha \geq 0$ 為參數， $C_\alpha(T)$ 為參數是 $\alpha$ 時的子樹T的整體損失。

參數 $\alpha$ 權衡訓練數據的擬合程度與模型的復雜度。

　　上述關於損失函數的定義，在前面的章節中已經介紹的非常多了，看過前面的這部分就不難理解。以后的章節中，如果遇到前面詳細介紹過的內容，除非必要，就都不啰嗦了。

　　對固定的一個 $\alpha$ 值，一定存在使損失函數 $C_\alpha(T)$ 最小的子樹，將其表示為 $T_\alpha$ 。這個 $\alpha$ 取值越大，最優子樹就偏向於簡單地子樹(即葉結點少)， $\alpha$ 取值越小，最優子樹偏向於與訓練數據集更好地擬合。我們可以想象一個極端情況，當 $\alpha\rightarrow \infty$ 時，最優子樹是根結點構成的單結點樹；當 $\alpha=0$ 時，最優子樹就是整體樹本身。(這個一定要結合上面的損失函數公式來理解)。

　　Breiman(CART提出者)等人證明：可以用遞歸的方法對樹進行剪枝。什么意思呢？就是將 $\alpha$ 從0開始逐漸增大， $0=\alpha_0<\alpha_1<...<\alpha_n<+\infty$ ，產生一系列的區間 $[\alpha_i,\alpha_{i+1}),i=0,1,...,n$ ；對每一個 $\alpha$ 取值，都能得到一個最優子樹，最終得到對應的最優子樹集 $\{T_0,T_1,...,T_n\}$ ，序列中 $T_0$ 是整樹，一直到 $T_n$ (根結點構成的單結點樹)，是嵌套的。子樹序列對應着區間 $\alpha\in [\alpha_i,\alpha_{i+1}),i=1,2,...,n$ 。

整個剪枝過程的示意圖如上。接下來我們來看看具體數學過程是怎樣的。

從整體樹 $T_0$ 開始剪枝。對於 $T_0$ 的任意內部結點t(除葉結點外的所有結點，包括根結點)，計算以t為單結點樹的損失函數：

如下圖

然后計算以t為根結點的子樹 $T_t$ 的損失函數：

如下圖

接下來進行 $C_\alpha(t)與C_\alpha(T_t)$ 的比較：

1）當 $\alpha=0或者\alpha充分小時$ ，有不等式

$C_\alpha(T_t)<C_\alpha(t)$

意思是，此時如果保留這個子樹，得到的總的損失函數是會比剪掉它更小的，所以我們選擇保留子樹不剪。

2）當 $\alpha$ 增大時，在某一 $\alpha$ 值時有

$C_\alpha(T_t)=C_\alpha(t)$

此時，由公式可以推出： $\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}$ 。 $T_t與t$ 在這時取相同的損失函數值。但由於t的結點少，因此t比 $T_t$ 更可取，故應對子樹 $T_t$ 進行剪枝。

3）當 $\alpha$ 再增大時，1）中的不等式反向，即

$C_\alpha(T_t)>C_\alpha(t)$

此時就應該再取下一個內部結點，進行下一步剪枝判斷了。

對 $T_0$ 中每一內部結點t，計算：

$g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}$ (即對應着不同的 $\alpha$ 取值)

　　這個g(t)表示剪枝后整體損失函數減少的程度。在 $T_0$ 中減去g(t)值最小的子樹 $T_t$ ，將得到的剩下的子樹作為 $T_1$ ，同時將最小的g(t)設為 $\alpha_1$ 。 $T_1$ 為區間 $[\alpha_1,\alpha_2)$ 的最優子樹。

　　如此剪枝下去，直至得到根結點。在這一過程中，不斷地增加 $\alpha$ 的值，得到更小的子樹，產生新的區間。就得到了最優子樹序列， $\{T_0,T_1,...,T_n\}$ ，剪枝后對新的葉結點t以多數表決法決定其類。

2.在剪枝得到的子樹序列 $T_0,T_1,...,T_n$ 中通過交叉驗證選取最優子樹 $T_{\alpha}$

　　利用獨立的驗證數據集，測試子樹序列 $T_0,T_1,...,T_n$ 中各棵子樹的平方誤差或基尼指數。選擇平方誤差或基尼指數最小的決策樹作為最優的決策樹。在子樹序列中，每棵子樹 $T_0,T_1,...,T_n$ 都對應於一個參數 $\alpha_1,\alpha_2,...,\alpha_n$ 。所以，當最優子樹 $T_k$ 確定時，對應的 $\alpha_k$ 也確定了，即得到最優決策樹 $T_{\alpha}$ 。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據挖掘實踐（47）：決策樹計算過程實例（一）ID3算法數據挖掘之決策樹決策樹的剪枝，分類回歸樹CART Python數據挖掘—分類—決策樹數據挖掘算法之決策樹算法 CART決策樹決策樹系列（五）——CART 【R語言進行數據挖掘】決策樹和隨機森林數據挖掘——分類算法——貝葉斯分類、決策樹數據挖掘導論第4章分類：基本概念、決策樹與模型評估