數據挖掘——決策樹分類

本文轉載自查看原文 2019-11-11 23:05 997 原創/ 數據挖掘/ 分類

決策樹分類是數據挖掘中分類分析的一種算法。顧名思義，決策樹是基於“樹”結構來進行決策的，是人類在面臨決策問題時一種很自然的處理機制。例如下圖一個簡單的判別買不買電腦的決策樹：

下圖是一個測試數據集，我們以此數據集為例，來看下如何生成一棵決策樹。

決策樹分類的主要任務是要確定各個類別的決策區域，或者說，確定不同類別之間的邊界。在決策樹分類模型中，不同類別之間的邊界通過一個樹狀結構來表示。

通過以上分析，我們可以得出以下幾點：

最大高度=決策屬性的個數
樹越矮越好
要把重要的、好的屬性放在樹根

因此，決策樹建樹算法就是：選擇樹根的過程

第一步，選擇屬性作為樹根

比較流行的屬性選擇方法：信息增益

信息增益最大的屬性被認為是最好的樹根

在選擇屬性之前，我們先來了解一個概念：熵什么是熵？什么是信息？如何度量他們？

下面這個文章通俗易懂的解釋了這個概念

http://www.360doc.com/content/19/0610/07/39482793_841453815.shtml

熵用來表示不確定性的大小

信息用來消除不確定性

實際上，給定訓練集S，信息增益代表的是在不考慮任何輸入變量的情況下確定S中任一樣本所屬類別需要的信息（以消除不確定性）與考慮了某一輸入變量X后確定S中任一樣本所屬類別需要的信息之間的差。差越大，說明引入輸入變量X后，消除的不確定性，該變量對分類所起的作用就越大，因此被稱為是好的分裂變量。換句話說，要確定S中任一樣本所屬類別，我們希望所需要的信息越少越好，而引入輸入變量X能夠減少分類所需要的信息，因此說輸入變量X為分類這個數據挖掘任務帶來了信息增益。信息增益越大，說明輸入變量X越重要，因此應該被認為是好的分裂變量而優先選擇。

因此，計算信息增益的總的思路是：

1) 首先計算不考慮任何輸入變量的情況下要確定S中任一樣本所屬類別需要的熵Entropy(S)；

2) 計算引入每個輸入變量X后要確定S中任一樣本所屬類別需要的熵Entropy (X,S);

3) 計算二者的差，Entropy (S) - Entropy (X, S)，此即為變量X所能帶來的信息（增益），記為Gain(X,S)。

結合上面對於熵的解釋的文章里，我們能得出求熵的公式：