這個問題可能比較簡單,但是也算是一點感悟吧。我們來看個例子(來自:http://blog.csdn.net/acdreamers/article/details/44661149):

當前信息的熵計算如下:

再看下,按照outlook分類后的例子:

分類后信息熵計算如下:



代表在特征屬性
的條件下樣本的條件熵。那么最終得到特征屬性
帶來的信息增益為

信息增益的計算公式如下

好吧,抄別人的東西到此為止了:
這里要說的是為什么分類多了信息熵會減少????????????
我們從概念和功能上分析:物體越不穩定或者可能性越多或者成分越復雜,越不確定信息熵就越大,因此我們對
物體進行分類后,物體成分逐漸變得簡單(pure),所以熵就減少啦。
最大的熵出現在每種情況發生概率相同的時候。
信息熵的定義:

