28-決策樹算法——簡單有效的概率模型

本文轉載自查看原文 2017-11-12 21:13 3299

白天太陽升起，總是給人希望，無盡的黑夜往往讓人無助。魯迅說：黑暗中的一點光亮給人以溫暖，然而正因為光亮之有限，反襯出周圍更加廣袤的黑暗，又帶給人新的絕望。生活總在希望和失望之間交錯前行，當黑暗來臨時，我們或許可如螢火般，在黑暗里發一點光，而不必等候炬火（天氣越冷，雞湯越暖，你懂的）。

今天學習機器學習算法中的決策樹，是一種簡單高效並且具有強解釋性的模型，廣泛應用於數據分析領域。其本質是一顆由多個判斷節點組成的樹，如：

決策樹經過訓練之后，看起來像是以樹狀形式排列的一系列if-then語句。一旦我們有了決策樹，只要沿着樹的路徑一直向下，正確回答每一個問題，最終就會得到答案。沿着最終的葉節點向上回溯，就會得到一個有關最終分類結果的推理過程。

決策樹由一個個判斷節點組成，每經過一個判斷節點數據就會被拆分一次。那么如何選擇最合適的拆分條件呢？我們需要量化指標來進行評價，在決策樹算法中，通過基尼不純度或者熵來對一個（拆分后的）集合進行的有序程度進行量化，然后引入信息增益概念對一次拆分進行量化評價。

基尼不純度

定義：將來自集合的某種結果隨機應用於某一數據項的預期誤差率。

直觀解釋是一個隨機事件變成它的對立事件的概率。

例如一個隨機事件X ，P(X=0) = 0.5 ,P(X=1)=0.5

那么基尼不純度就為 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5

一個隨機事件Y ，P(Y=0) = 0.1 ,P(Y=1)=0.9

那么基尼不純度就為P(Y=0)*(1 - P(Y=0)) + P(Y=1)*(1 - P(Y=1)) = 0.18

很明顯 X比Y更混亂，因為兩個都為0.5 很難判斷哪個發生。而Y就確定得多，Y=1發生的概率很大。而基尼不純度也就越小。

所以基尼不純度也可以作為衡量系統混亂程度的標准。

Gini impurity公式：

（其中fi表示事件i/分類i發生的概率）

熵是信息論中的概念，用來表示集合的無序程度，熵越大表示集合越混亂，反之則表示集合越有序。熵的計算公式為：

比如投了4次硬幣，2次正面，2次反面。根據香農公式那么熵就為E=-1/2log2(1/2)-1/2log2(1/2)=1。同理如果每次都是正面的話，那么熵為0。

信息論熵的概念在吳軍的《數學之美》中有很好的解釋：

我們來看一個例子，馬上要舉行世界杯賽了。大家都很關心誰會是冠軍。假如我錯過了看世界杯，賽后我問一個知道比賽結果的觀眾“哪支球隊是冠軍”？他不願意直接告訴我，而要讓我猜，並且我每猜一次，他要收一元錢才肯告訴我是否猜對了，那么我需要付給他多少錢才能知道誰是冠軍呢? 我可以把球隊編上號，從 1 到 32，然后提問： “冠軍的球隊在 1-16 號中嗎?” 假如他告訴我猜對了，我會接着問： “冠軍在 1-8 號中嗎?” 假如他告訴我猜錯了，我自然知道冠軍隊在 9-16 中。這樣只需要五次，我就能知道哪支球隊是冠軍。所以，誰是世界杯冠軍這條消息的信息量只值五塊錢。當然，香農不是用錢，而是用 “比特”（bit）這個概念來度量信息量。一個比特是一位二進制數，計算機中的一個字節是八個比特。在上面的例子中，這條消息的信息量是五比特。（如果有朝一日有六十四個隊進入決賽階段的比賽，那么“誰世界杯冠軍”的信息量就是六比特，因為我們要多猜一次。）讀者可能已經發現, 信息量的比特數和所有可能情況的對數函數 log 有關。 (log32=5, log64=6。）有些讀者此時可能會發現我們實際上可能不需要猜五次就能猜出誰是冠軍，因為象巴西、德國、意大利這樣的球隊得冠軍的可能性比日本、美國、韓國等隊大的多。因此，我們第一次猜測時不需要把 32 個球隊等分成兩個組，而可以把少數幾個最可能的球隊分成一組，把其它隊分成另一組。然后我們猜冠軍球隊是否在那幾只熱門隊中。我們重復這樣的過程，根據奪冠概率對剩下的候選球隊分組，直到找到冠軍隊。這樣，我們也許三次或四次就猜出結果。因此，當每個球隊奪冠的可能性（概率）不等時，“誰世界杯冠軍”的信息量的信息量比五比特少。香農指出，它的准確信息量應該是

= -（p1*log p1 + p2 * log p2 + ．．．＋p32 *log p32)，其中，p1，p2 ，．．．，p32 分別是這 32 個球隊奪冠的概率。香農把它稱為“信息熵” (Entropy)，一般用符號 H 表示，單位是比特。有興趣的讀者可以推算一下當 32 個球隊奪冠概率相同時，對應的信息熵等於五比特。