1. 信息熵

熵度量了事物的不確定性，越不確定的事物，它的熵就越大。在沒有外部環境的作用下，事物總是向着熵增大的方向發展，所以熵越大，可能性也越大。

\[H(X)=-\sum_{i=1}^np_{(i)}logp_{(i)} \]

2. 條件熵

X確定時，Y的不確定性度量。
在X發生是前提下，Y發生新帶來的熵。

\[H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(x,y)logp(y|x) \]

（X,Y）在一起時的不確定性度量

\[H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y) \]

表示兩個變量X與Y是否有關系，以及關系的強弱。

\[I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} \]

\[I(X,Y)=H(Y)-H(Y|X) \]

\[I(X,Y)=H(Y)+H(X)-H(X,Y) \]

可以看出，I(X,Y)可以解釋為由X引入而使Y的不確定度減小的量，這個減小的量為H(Y|X)。所以，如果X,Y關系越密切，I(X,Y)就越大，X,Y完全不相關，I(X,Y)為0，所以互信息越大，代表這個特征的分類效果越好。

p與q不相似的度量

\[KL(p||q)=-\sum_{x}p(x)log\frac{q(x)}{p(x)} \]

衡量p與q的相似性，常常用在深度學習中的分類的損失函數（深度學習中回歸任務的損失主要是最小二乘法）。p是真實概率，q是預測概率

\[H(p,q)=-\sum_{x}p(x)logq(x) \]

\[KL(p||q)=H(p,q)-H(p) \]

信息熵是衡量隨機變量分布的混亂程度，是隨機分布各事件發生的信息量的期望值，隨機變量的取值個數越多，狀態數也就越多，信息熵就越大，混亂程度就越大。當隨機分布為均勻分布時，熵最大；信息熵推廣到多維領域，則可得到聯合信息熵；條件熵表示的是在 X 給定條件下，Y 的條件概率分布的熵對 X的期望。
相對熵可以用來衡量兩個概率分布之間的差異。
交叉熵可以來衡量在給定的真實分布下，使用非真實分布所指定的策略消除系統的不確定性所需要付出的努力的大小。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 信息論信息論信息論與編碼課程設計信息論與編碼：有限域關於信息論中熵、相對熵、條件熵、互信息、典型集的一些思考系統基礎信息模塊【數字電子技術基礎】信息和編碼 Python基礎之給函數增加元信息 Linux基礎命令---nfsstat顯示nfs信息 ABP框架實戰 1.基礎信息維護