3月機器學習在線班第六課筆記--信息熵與最大熵模型

本文轉載自查看原文 2015-07-19 17:10 4595 機器學習/ 最大熵模型

原文：https://www.zybuluo.com/frank-shaw/note/108124

信息熵

信息是個很抽象的概念。人們常常說信息很多，或者信息較少，但卻很難說清楚信息到底有多少。比如一本五十萬字的中文書到底有多少信息量。直到1948年，香農提出了“信息熵”的概念，才解決了對信息的量化度量問題。（百度百科）

香農定義的信息熵的計算公式如下：

H (X) = - \sum p (x i) log (p (x i)) (i = 1, 2, \dots, n)

其中

I (x i) = - log p (x i)

其實這挺好理解：事件

為了更好的理解，我們舉例說明：

隨機變量為均勻分布

在《數學之美》中的例子：假如我錯過了看世界杯，賽后我問一個知道決賽結果的觀眾“哪支球隊是冠軍？”他不願意直接告訴我，而是讓我猜，每猜一次需要1bit，他的回答是以下2個中的一個：是，否。假設我對這32支球隊一無所知，即我認為每支球隊獲得冠軍的概率是相等的，那么我至少需要付多少bit給他才能知道誰是冠軍？
我把球隊編號為1到32，然后使用折半查找法的原理（如：”冠軍隊在1-16嗎？”）每一次就可以減少一半的隊伍，這樣只需要5次，就能夠知道冠軍球隊。也就是說，誰是世界杯冠軍這條信息的信息量只值5bit。代入計算公式，在這種情況下（等概率假設）得到的信息熵即為5bit。

課堂上，鄒博老師給出的一個例子：

有五個硬幣，四個等重，另外一個是假幣所以質量相比其他4個要輕。我事先不知道關於任何硬幣的信息（即認為每一個硬幣是假幣的概率都是1/5）。這個例子和之前的猜球隊冠軍有一些相似，我也是需要經過詢問才能得到答案，且每問一次需要付1bit。但不同之處在於，現在我可以詢問的對象變成了天平，天平每一次能夠比較兩堆硬幣，且能夠給出3個結果中的一個：左邊比右邊重，右邊比左邊重，兩邊同樣重。問我至少需要付多少bit就能夠確保知道哪個是假幣？

我們通過自己的計算可知道，如果幸運的話我只需要1bit就能夠把假幣測出來（天平左右各兩個硬幣，結果等重，那么假幣即為天平外的一個），但是通常情況下需要2bit才能知道假幣。這個時候，會發現不能夠按照之前的預測世界杯冠軍的方式來計算信息熵了(按照之前的方法直接計算得到

H ( X ) H ( Y )

隨機變量不再是均勻分布

有五個硬幣，四個等重，另外一個是假幣所以質量相比其他4個要輕。已知第一個硬幣和第二個硬幣是假硬幣的概率為1/3，其他硬幣為假硬幣的概率為1/9。天平每一次能夠比較兩堆硬幣，且能夠給出3個結果中的一個：左邊比右邊重，右邊比左邊重，兩邊同樣重。問我至少需要付多少bit就能夠確保知道哪個是假幣？
由於之前已經分析過，直接帶入上面的計算公式即可得：

H ( X ) H ( Y ) = - ( 1 3 log 2 1 3 ) * 2 - (

在經典熵的定義式中，對數的底是2，單位為bit。在我們之后的例子中，為了方便分析使用底數e。如果底數為e，那么單位是nat(奈特)。重新寫一遍信息熵的公式：

H (X) = - \sum p (x i) l n (p (x i)) (i = 1, 2, \dots, n)

信息熵的總體理解

從之前的分析可以看出，熵其實定義了一個函數（概率分布函數

讓我們以較為熟悉的隨機變量分布來舉例說明信息熵：

兩點分布的熵

假設兩點分布中

H (X) = - \sum x \in X p (x) ln (p (x)) = - q ln q - (1 - q) ln (1

聯合熵、條件熵和相對熵

之前定義了單個隨機變量的熵，現在將定義推廣到兩個隨機變量的情形。對於服從聯合分布為

H (X, Y) = - \sum x \in X, y \in Y p (x, y) ln (p (x, y))

H (X, Y) = - E (log p (x, y)) .

定義：若

H (Y | X) = \sum x \in X p (x) H (Y | X = x) = - \sum

H (X, Y) = - \sum x \in X \sum y \in Y p (x, y) log

D (p | | q) = \sum x p (x) log p ( x ) q ( x ) =

互信息

互信息是一個隨機變量包含另一個隨機變量信息量的度量。互信息也是在給定另一個隨機變量知識的條件下，原隨機變量不確定度的縮減量。（為什么這么說，接下來會有解釋。）
定義：考慮兩個隨機變量

I (X; Y) = \sum x \in X \sum y \in Y p (x, y) log p

熵與互信息的關系

可將互信息

I (X; Y) = \sum x \in X, y \in Y p (x, y) log p (

由於互信息的對稱性，可得：

I (X; Y) = I (Y; X) = H (Y) - H (Y | X)

I (X; Y) = H (X) + H (Y) - H (X, Y)

I (X; Y) = H (X) - H (X | Y) I (X; Y) = H (Y) - H (Y | X)

最大熵模型

當我們需要對一個隨機事件的概率分布做出預測的時候，我們的預測應當滿足全部一致的條件，而對未知的情況不要做任何主觀的假設。在這種情況下，概率分布最均勻，預測的風險最小。因為這個時候分布的信息熵是最大的，所以人們稱滿足上述條件要求的模型就是“最大熵模型”。“最大熵模型”的核心兩點：1.承認已知事物（或知識）；2.對未知事物不做任何假設，沒有任何偏見。 It agrees with everything that is known, but carefully avoids assuming anything that is not known.

我們常說，不要把所有的雞蛋放在一個籃子里，其實就是最大熵原理的一個朴素說法，因為當我們遇到不確定性時，就要保留各種可能性。說白了，就是保留全部的不確定性，將風險降到最小。--摘自《Google黑板報》作者：吳軍。

如何引入最大熵模型呢？我們使用NLP（自然語言處理）中的例子來說明：
“學習”這個詞可能是動詞，也可能是名詞。另一方面，“學習”這個詞可以被標為主語、謂語、賓語、定語。
令

p (x 1) + p (x 2) = 1 \sum i = 1 4 p (y i) = 1

p (x 1) = p (x 2) = 0.5 p (y 1) = p (y 2) = p (y 3) = p (y 4) = 0.25

p (x 1) = p (x 2) = 0.5 p (y 1) = p (y 2) = p (y 3) = 0.95 3

p (y 2 | x 1) = 0.95

我們要一個
$p (x 1) + p (x 2) = 1 \sum i = 1 4 p (y i) = 1 p (y$
而且使得

以上表達中，一般我們用

max H (Y | X) = - \sum x, y p (x, y) log p (y | x)

上面的表達式僅僅針對某一個NLP的特例。最大熵模型Maxent(Maximum Entropy)的一般式為：

max p \in P H (Y | X) = - \sum (x, y) p (x, y) log p (y

為了進一步說明最大熵模型在NLP中的應用，我們給出一些在NLP中的常用的定義，以此推出最大熵模型的一個約束條件的具體表達式：

特征：
樣本：關於某個特征
特征函數：對於一個特征 $f (x, y) = {1 0 x = x i a n d y = y i$
樣本特征函數期望值：對於一個特征 $p ¯ (f) = \sum (x i, y i) p ¯ (x, y) f (x, y)$

條件Constraints:
對每個特征

特征

p (f) = \sum (x i, y i) p ¯ (x) p (y | x) f (x, y)

\sum (x i, y i) p ¯ (x) p (y | x) f (x, y) = \sum (

p * = arg max p \in P H (Y | X) = - \sum (x, y) p (x, y) log p

求解最大熵模型

我們使用Lagrange乘子法來求解，該條件約束優化問題的Lagrange函數為：

Λ (p, λ ⃗) = H (Y | X) + \sum i = 1 m λ i (E (f i) -

L = \sum (x, y) p (y | x) p ¯ (x) log 1 p ( y | x ) + \sum

\partial L \partial p ( y | x ) = p ¯ ( x ) ( - log p ( y | x ) - 1 ) + \sum

可以看出

\sum y exp (\sum i = 1 m λ i f i (x, y)) exp (

p * (y | x) = 1 Z λ ( x ) exp ( \sum i λ i f i ( x

經過這個步驟，我們似乎已經求得了最優的最大熵模型中

L (λ + δ) - L (λ) = \sum x, y p ¯ (x, y) \sum i =

A (δ | λ) = \sum x, y p ¯ (x, y) \sum i = 1 n δ i

接下來，對該下界求偏導，令偏導為0，求出相應的

B (δ | λ) = \sum x, y p ¯ (x, y) \sum i = 1 n δ i

\partial B ( δ | λ ) \partial δ i = \sum x , y p ¯ ( x , y

\sum x, y p ¯ (x) p λ (y | x) f i (x, y) exp (

分情況討論：

若 $δ i = 1 M log E p ¯ ( f i ) E p ($
若 $g (δ i) = \sum x, y p ¯ (x) p λ (y | x) f$ $δ i (k + 1) = δ i (k) - g ( δ i ( k ) )$

因為需要計算

將上述求解過程中得到的參數

p * (y | x) = 1 Z λ ( x ) e \sum i λ i f i ( x

參考文獻：

《統計學習方法》，李航著，清華大學出版社，2012年
A Mathematical Theory of Communication，shannon，1948

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習之信息熵七月算法--12月機器學習在線班-第十九次課筆記-深度學習--CNN 《機器學習Python實現_05_線性模型_最大熵模型》 RabbitMQ 第六課 springboot整合rabbitmq 第六課之antd以及組件開發介紹第六課 ROS的空間描述和變換 [轉] 理解各種熵&&最大熵模型最大熵模型原理小結最大熵模型原理小結最大熵模型 Maximum Entropy Model