直觀上,互信息度量 X 和 Y 共享的信息:它度量知道這兩個變量其中一個,對另一個不確定度減少的程度。例如,如果 X 和 Y 相互獨立,則知道 X 不對 Y 提供任何信息,反之亦然,所以它們的互信息為零。在另一個極端,如果 X 是 Y 的一個確定性函數,且 Y 也是 X 的一個確定性函數,那么傳遞的所有信息被 X 和 Y 共享:知道 X 決定 Y 的值,反之亦然。因此,在此情形互信息與 Y(或 X)單獨包含的不確定度相同,稱作 Y(或 X)的熵。而且,這個互信息與 X 的熵和 Y 的熵相同。(這種情形的一個非常特殊的情況是當 X 和 Y 為相同隨機變量時。)
互信息是 X 和 Y 聯合分布相對於假定 X 和 Y 獨立情況下的聯合分布之間的內在依賴性。於是互信息以下面方式度量依賴性:I(X; Y) = 0 當且僅當 X 和 Y 為獨立隨機變量。從一個方向很容易看出:當 X 和 Y 獨立時,p(x,y) = p(x) p(y),因此:
此外,互信息是非負的(即 I(X;Y) ≥ 0; 見下文),而且是對稱的(即 I(X;Y) = I(Y;X))。
直觀地說,如果把熵 H(Y) 看作一個隨機變量不確定度的量度,那么 H(Y|X) 就是 X 沒有涉及到的 Y 的部分的不確定度的量度。這就是“在 X 已知之后 Y 的剩余不確定度的量”,於是第一個等式的右邊就可以讀作“Y的不確定度,減去在 X 已知之后 Y 的剩余不確定度的量”,此式等價於“移除知道 X 后 Y 的不確定度的量”。這證實了互信息的直觀意義為知道其中一個變量提供的另一個的信息量(即不確定度的減少量)。
注意到離散情形 H(X|X) = 0,於是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y),我們可以制定”一個變量至少包含其他任何變量可以提供的與它有關的信息“的基本原理。

互信息、條件熵與聯合熵的區別與聯系

鏈接:
http://www.fuzihao.org/blog/2015/01/17/%E4%BA%92%E4%BF%A1%E6%81%AF%E7%9A%84%E7%90%86%E8%A7%A3/