決策樹:為什么分類后信息熵減少了。(信息熵的定義,信息增益)


  這個問題可能比較簡單,但是也算是一點感悟吧。我們來看個例子(來自:http://blog.csdn.net/acdreamers/article/details/44661149):

 

 

 

 

 

 

 

 

當前信息的熵計算如下:

 

再看下,按照outlook分類后的例子:

分類后信息熵計算如下:

 

 

代表在特征屬性的條件下樣本的條件熵。那么最終得到特征屬性帶來的信息增益為

信息增益的計算公式如下

 

好吧,抄別人的東西到此為止了:

 

這里要說的是為什么分類多了信息熵會減少????????????

 

我們從概念和功能上分析:物體越不穩定或者可能性越多或者成分越復雜,越不確定信息熵就越大,因此我們對

物體進行分類后,物體成分逐漸變得簡單(pure),所以熵就減少啦。

 

 

最大的熵出現在每種情況發生概率相同的時候。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 信息熵的定義:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM