決策樹算法-理論篇-如何計算信息純度

本文轉載自查看原文 2020-11-09 13:19 831 機器學習

微信公眾號：碼農充電站pro
個人主頁：https://codeshellme.github.io

1，什么是決策樹？

決策樹是一種機器學習算法，我們可以使用決策樹來處理分類問題。決策樹的決策（分類）過程可以用一個倒着的樹形結構來形象的表達出來，因此得名決策樹。

比如我們根據天氣是否晴朗和是否刮風來決定是否去踢球？當天氣晴朗並且不刮風的時候，我們才去踢球。

此時，就可以將這個決策過程用一個樹形結構來表示，如下：

在這里插入圖片描述

這就是一顆最簡單的決策樹，我們可以用它來判斷是否要去踢球。最上方是樹的根節點，最下方是樹的葉子節點。方框里是判斷的過程，橢圓形中是決策的結果。

當然，實際的使用過程中，判斷條件並不會這么簡單，也不會讓我們自己手動畫圖。實際應用中，我們會讓程序自動的，從一堆樣本數據集中構造出這顆決策樹，這個程序自動構建決策樹的過程就是機器學習的過程。

最終構造出來的這棵決策樹就是機器學習的結果，叫做模型。最后，我們可以向模型中輸入一些屬性條件，讓模型給出我們判斷結果。

在這里插入圖片描述

2，如何構建決策樹？

比如我們有如下數據集：

序號	條件:天氣晴朗?	條件:是否刮風?	結果:去踢球嗎?
1	是	否	去
2	是	是	不去
3	否	是	不去
4	否	否	不去

可以看到這個表格中有4 行（第一行表頭不算），4 列數據。

一般在機器學習中，最后一列稱為目標(target)，前邊的列都稱為特征(features)。

我們要根據這個數據集，來構建一顆決策樹，那如何構建呢？

首先，需要確定使用哪個屬性作為第一個判斷條件，是先判斷天氣晴朗，還是先判斷是否刮風？也就是，讓天氣晴朗作為樹的根節點，還是讓是否刮風作為樹的根節點？

解決這個問題需要用到信息熵和信息純度的概念，我們先來看什么是信息熵。

3，什么是信息熵？

1948 年，克勞德·香濃在他的論文“通信的數學原理”中提到了信息熵（一般用H 表示），度量信息熵的單位是比特。

就是說，信息量的多少是可以量化的。一條信息量的多少與信息的不確定性有關，可以認為，信息量就等於不確定性的多少（信息的不確定度）。

信息熵的計算公式如下：

在這里插入圖片描述

該公式的含義是：

待分類的事物可以分在多個分類中，這里的n 就是分類的數目。
H(X) 表示熵，數學含義是，所有類別包含的信息期望值。
-㏒p(Xì)表示符號的信息值，p(Xì) 是選擇該分類的概率。
公式中的log 一般以2 為底。

總之，就是要知道，信息量的多少是可以用數學公式計算出來的，用信息論中的專業術語就叫做信息熵。信息熵越大，信息量也就越大。

3.1，計算信息熵

那么我們就來計算一下上面表格數據的信息熵。我們只關注“結果”那一列：

結果:去踢球嗎?
去
不去
不去
不去

根據表格，我們可以知道，所有的分類共有2 種，也就是“去” 和“不去”，“去”出現了1 次，“不去”出現了3 次。

分別計算“去” 和“不去” 出現的概率：

P(去) = 1 / 4 = 0.25
P(不去) = 3 / 4 = 0.75

然后，根據熵的計算公式來計算“去”和“不去” 的信息熵，其中log 以2 為底：

H(去) = 0.25 * log 0.25 = -0.5
H(不去) = 0.74 * log 0.75 = -0.31127812445913283

所以，整個表格含有的信息量就是：

H(表格) = -(H(去) + H(不去)) = 0.81127812445913283

3.2，用代碼實現信息熵的計算

將計算信息熵的過程用Python 代碼實現，如下：

import math

# 本函數用於計算一組數據的信息熵
# data_set 是一個列表，代表一組數據
# data_set 的元素data 也是一個列表
def calc_ent(data_set):
    labels = {} # 用於統計每個label 的數量
    
    for data in data_set:
        label = data[-1]	# 只用最后一個元素做計算
        if label not in labels:
            labels[label] = 0

        labels[label] += 1 

    ent = 0 # 熵
    n = len(data_set)   # 數據條數

    # 計算信息熵
    for label in labels:
        prob = float(labels[label]) / n # label 的概率
        ent -= prob * math.log(prob, 2) # 根據信息熵公式計算

    return ent

下面用該函數來計算表格的信息熵：

# 將表格轉化為 python 列表
# "yes" 表示"去"
# "no" 表示"不去"
data_set = [['yes'], ['no'], ['no'], ['no']] 
ent = calc_ent(data_set)
print(ent)	# 0.811278124459

可見，用代碼計算出來的結果是 0.811278124459，跟我們手算的結果 0.81127812445913283 是一樣的（保留的小數位數不同）。

4，什么是信息純度？

信息的純度與信息熵成反比：

信息熵越大，信息量越大，信息越雜亂，純度越低。
信息熵越小，信息量越小，信息越規整，純度越高。

經典的“不純度”算法有三種，分別是：

信息增益，即 ID3 算法，Information Divergence，該算法由 Ross Quinlan 於1975 年提出，可用於生成二叉樹或多叉樹。
- ID3 算法會選擇信息增益最大的屬性來作為屬性的划分。
信息增益率，即 C4.5 算法，是 Ross Quinlan 在ID3 算法的基礎上改進而來，可用於生成二叉樹或多叉樹。
基尼不純度，即 CART 算法，Classification and Regression Trees，中文為分類回歸樹。
- 即可用於分類數，又可用於回歸樹。分類樹用基尼系數做判斷，回歸樹用偏差做判斷。
- 基尼系數本身反應了樣本的不確定度。
  - 當基尼系數越小的時候，樣本之間的差異性越小，不確定程度越低。
  - CART 算法會選擇基尼系數最小的屬性作為屬性的划分。

信息增益是其中最簡單的一種算法，后兩者都是由它衍生而來。本篇文章中，我們只詳細介紹信息增益。

基尼系數是經濟學中用來衡量一個國家收入差距的常用指標。當基尼系數大於 0.4 的時候，說明財富差異較大。基尼系數在 0.2-0.4 之間說明分配合理，財富差距不大。

5，什么是信息增益？

信息增益就是，在根據某個屬性划分數據集的前后，信息量發生的變化。

信息增益的計算公式如下：

在這里插入圖片描述

該公式的含義：

簡寫就是：G = H(父節點) - H(所有子節點)
也就是：父節點的信息熵減去所有子節點的信息熵。
所有子節點的信息熵會按照子節點在父節點中的出現的概率來計算，這叫做歸一化信息熵。

信息增益的目的在於，將數據集划分之后帶來的純度提升，也就是信息熵的下降。如果數據集在根據某個屬性划分之后，能夠獲得最大的信息增益，那么這個屬性就是最好的選擇。

所以，我們想要找到根節點，就需要計算每個屬性作為根節點時的信息增益，那么獲得信息增益最大的那個屬性，就是根節點。

5.1，計算信息增益

為了方便看，我將上面那個表格放在這里：

序號	條件:天氣晴朗?	條件:是否刮風?	結果:去踢球嗎?
1	是	否	去
2	是	是	不去
3	否	是	不去
4	否	否	不去

我們已經知道了，信息增益等於按照某個屬性划分前后的信息熵之差。

這個表格划分之前的信息熵我們已經知道了，就是我們在上面計算的結果：

H(表格) = 0.81127812445913283。

接下來，我們計算按照“天氣晴朗”划分的信息增益。按照“天氣晴朗”划分后有兩個表格。

表格1，“天氣晴朗”的值為“是”：

序號	條件:天氣晴朗?	條件:是否刮風?	結果:去踢球嗎?
1	是	否	去
2	是	是	不去

分類共有2 種，也就是“去” 和“不去”，“去”出現了1 次，“不去”出現了1 次。

所以，“去” 和“不去” 出現的概率均為0.5：

P(去) = P(不去) = 1 / 2 = 0.5

然后，“去”和“不去” 的信息熵，其中log 以2 為底：

H(去) = H(不去) = 0.5 * log 0.5 = -0.5

所以，表格1 含有的信息量就是：

H(表格1) = -(H(去) + H(不去)) = 1

表格2，“天氣晴朗”的值為“否”：

序號	條件:天氣晴朗?	條件:是否刮風?	結果:去踢球嗎?
3	否	是	不去
4	否	否	不去

所有的分類只有1 種，是“不去”。所以：

P(不去) = 1

然后，“不去” 的信息熵，其中log 以2 為底：

H(不去) = 1 * log 1 = 0

所以，表格2 含有的信息量就是：

H(表格2) = 0

總數據共有4 份：

表格1 中有2 份，概率為 2/4 = 0.5
表格2 中有2 份，概率為 2/4 = 0.5

所以，最終按照“天氣晴朗”划分的信息增益為：

G(天氣晴朗) = H(表格) - (0.5*H(表格1) + 0.5*H(表格2)) = H(表格) - 0.5 = 0.31127812445913283。

5.2，ID3 算法的缺點

當我們計算的信息增益多了，你會發現，ID3 算法傾向於選擇取值比較多的屬性作為（根）節點。

但是有的時候，某些屬性並不會影響結果（或者對結果的影響不大），那此時使用ID3 選擇的屬性就不恰當了。

為了改進ID3 算法的這種缺點，C4.5 算法應運而生。

C4.5 算法對ID3 算法的改進點包括：

采用信息增益率，而不是信息增益，避免ID3 算法有傾向於選擇取值多的屬性的缺點。
加入了剪枝技術，防止ID3 算法中過擬合情況的出現。
對連續的屬性進行離散化的處理，使得C4.5 算法可以處理連續屬性的情況，而ID3 只能處理離散型數據。
處理缺失值，C4.5 也可以針對數據集不完整的情況進行處理。

當然C4.5 算法也並不是沒有缺點，由於 C4.5算法需要對數據集進行多次掃描，所以算法效率相對較低。這里不再展開討論C4.5 算法。

下篇會介紹如何用決策樹來解決實際問題。

歡迎關注作者公眾號，獲取更多技術干貨。

在這里插入圖片描述

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 決策樹（理論篇）決策樹之信息與熵的計算決策樹算法（三）——計算香農熵決策樹算法決策樹算法決策樹算法決策樹算法決策樹算法決策樹算法決策樹算法2-決策樹分類原理2.3-信息增益率