作者:甜草莓
鏈接:https://www.zhihu.com/question/304499706/answer/544609335
來源:知乎
警告:這個答案除了定義和解釋部分,其余純數學和信息論。
前置知識: 學過信息熵,了解信息熵的計算規則。
定義
互信息(Mutual Information)是衡量隨機變量之間相互依賴程度的度量。
它的形象化解釋是,假如明天下雨是個隨機事件,假如今晚有晚霞同樣是個隨機事件,那么這兩個隨機事件互相依賴的程度是
當我們已知“今晚有晚霞“情況下,"明天下雨"帶來的不確定性
與 不知道”今晚有晚霞“情況下,”明天下雨“帶來的不確定性 之差。
另一種直觀的解釋
作者:朱元
鏈接:https://www.zhihu.com/question/24059517/answer/26750918
來源:知乎
原來我對X有些不確定(不確定性為H(X)),告訴我Y后我對X不確定性變為H(X|Y), 這個不確定性的減少量就是X,Y之間的互信息I(X;Y)=H(X)-H(X|Y)。
更直觀的意義可以理解為,當你完整的學到Y的所有知識的時候,你對X的知識的增長量就是I(X;Y)。(相信我,每當你學到任何關於X的知識,都其實只是Y。沒有人可以做到把一個學科徹底的(信息的完整性),完全正確的(信息傳遞過程中混入的噪聲)學習)。
解釋
假設存在一個隨機變量 ,和另外一個隨機變量
,那么它們的互信息是
是
的信息熵,
是已知
情況下,Y帶來的信息熵(條件熵)。
直觀理解是,我們知道存在兩個隨機事件 ,其中一個隨機事件
給我們帶來了一些不確定性
,我們想衡量
之間的關系。那么,如果
存在關聯,當
已知時,
給我們的不確定性會變化,這個變化值就是
的信息熵減去當已知
時,
的條件熵,就是互信息。
從概率角度,互信息是由隨機變量 的聯合概率分布
和邊緣概率分布
得出。
互信息和信息熵的關系是,
通常我們使用的最大化互信息條件,就是最大化兩個隨機事件的相關性。
在數據集里,就是最大化兩個數據集合所擬合出的概率分布的相關性。
當兩個隨機變量相同時,互信息最大,如下:
在機器學習中,理想情況下,當互信息最大,可以認為從數據集中擬合出來的隨機變量的概率分布與真實分布相同。
到這里,應該足夠大家日常理解使用了,以下是性質,應用和變形,幾乎都是數學。
性質
1.非負性(證明來自Jeson 不等式)
\2. 對稱性
\3. 與條件熵和聯合熵的關系
\4. 與K-L散度的關系
是 對
的K-L散度里,對隨機變量
的期望。
應用
- 通信中,信道容量是最大互信息
- k-means, 互信息被用作優化目標
- 隱馬爾可夫模型訓練,可以采用最大互信息(MMI)標准。
- RNA結構,可以從多序列比對預測RNA二級結構。
- 互信息已被用作機器學習中的特征選擇和特征變換的標准。它可用於表征變量的相關性和冗余性,例如最小冗余特征選擇。
- 相互信息用於確定數據集的兩個不同聚類的相似性。
- 單詞的互信息通常用作語料庫語言學中搭配計算的重要函數。
- 醫學成像中,互信息可以用於進行圖像配准。
- 時間序列分析中,可以用於相位同步的檢測
- 互信息用於學習貝葉斯網絡/動態貝葉斯網絡的結構,這被認為可以解釋隨機變量之間的因果關系。
- 決策樹學習中,是一種loss function。
其他形式
1.條件互信息
或者簡化寫作,
2. 方向信息(Directed Information)
假設兩個隨機過程 ,方向互信息:
3.與相關系數的關系
互信息其中包含所有獨立性(線性和非線性),不像correlation coefficients measures一樣只包含線性。
當隨機變量 的聯合概率分布服從二元正態分布時,有以下性質
是相關系數,
證明如下:
所以,
[1] (大部分) Mutual Information, https://en.wikipedia.org/wiki/Mutual_information
[2] David J. C. MacKay. Information Theory, Inference, and Learning Algorithms.Cambridge: Cambridge University Press, 2003.
[3] Cover T M, Thomas J A. Elements of information theory[M]. John Wiley & Sons, 2012.