1、信息熵:
一個隨機變量 X 可以代表n個隨機事件,對應的隨機變為X=xi,
那么熵的定義就是 X的加權信息量。
H(x) = p(x1)I(x1)+...+p(xn)I(x1)
= p(x1)log2(1/p(x1)) +.....+p(xn)log2(1/p(xn))
= -p(x1)log2(p(x1)) - ........-p(xn)log2(p(xn))
其中p(xi)代表xi發生的概率
例如有32個足球隊比賽,每一個隊的實力相當,那么每一個對勝出的概率都是1/32
那么 要猜對哪個足球隊勝出 非常困難,
這個時候的熵H(x) = 32 * (1/32)log(1/(1/32)) = 5
熵也可以作為一個系統的混亂程度的標准;
2、基尼不純度:
基尼不純度的大概意思是 一個隨機事件變成它的對立事件的概率
例如 一個隨機事件X ,P(X=0) = 0.5 ,P(X=1)=0.5
那么基尼不純度就為 P(X=0)*(1 - P(X=0)) + P(X=1)*(1 - P(X=1)) = 0.5
一個隨機事件Y ,P(Y=0) = 0.1 ,P(Y=1)=0.9
那么基尼不純度就為P(Y=0)*(1 - P(Y=0)) + P(Y=1)*(1 - P(Y=1)) = 0.18
很明顯 X比Y更混亂,因為兩個都為0.5 很難判斷哪個發生。而Y就確定得多,Y=0發生的概率很大。而基尼不純度也就越小。
所以基尼不純度也可以作為 衡量系統混亂程度的 標准