機器學習中的兩個概念: 信息熵 和基尼不純度


 

1、信息熵:

一個隨機變量 X 可以代表n個隨機事件,對應的隨機變為X=xi,
那么熵的定義就是 X的加權信息量。
H(x) = p(x1)I(x1)+...+p(xn)I(x1) 
        = p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn))
        = -p(x1)log2(p(x1)) - ........-p(xn)log2(p(xn))
其中p(xi)代表xi發生的概率
例如有32個足球隊比賽,每一個隊的實力相當,那么每一個對勝出的概率都是1/32
那么 要猜對哪個足球隊勝出 非常困難,
這個時候的熵H(x) = 32 * (1/32)log(1/(1/32)) = 5
 
熵也可以作為一個系統的混亂程度的標准;
 
2、基尼不純度:
      基尼不純度的大概意思是 一個隨機事件變成它的對立事件的概率
      例如 一個隨機事件X ,P(X=0) = 0.5 ,P(X=1)=0.5
      那么基尼不純度就為   P(X=0)*(1 - P(X=0)) +   P(X=1)*(1 - P(X=1))  = 0.5
 
        一個隨機事件Y ,P(Y=0) = 0.1 ,P(Y=1)=0.9
      那么基尼不純度就為P(Y=0)*(1 - P(Y=0)) +   P(Y=1)*(1 - P(Y=1))  = 0.18
     很明顯 X比Y更混亂,因為兩個都為0.5 很難判斷哪個發生。而Y就確定得多,Y=0發生的概率很大。而基尼不純度也就越小。
    所以基尼不純度也可以作為 衡量系統混亂程度的 標准
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM