信息熵,不確定度的描述,熵增加,不確定度增加,熵減小,不確定度減小。
- 離散型隨機變量的信息熵
考慮一個一維的離散的隨機變量X(此處不考慮擴展到多維的情況),可以取離散的值
,對應的概率分別為
則離散型隨機變量的信息熵為:
- 連續型隨機變量的信息熵
考慮一個一維的連續型的隨機變量X,若它的概率密度分布函數為f(x),那X在(a,b)之間的信息熵為:
假設某個公司內部對所有員工進行了一次英語測試,測試結果分5個檔次,分別為1分,2分,3分,4分,5分,假設已經知道平均分3.3分,每一個檔次的概率分別為,可以看出概率分布是不確定的
能滿足上面式子的解有無限多個,要確定一組我們認為最合理,最好的解,就需要利用最大熵原則
要求出最大熵就先要寫出最大熵的表達式:
要最大化上面的熵表達式,同時要滿足因此可以用拉格朗日乘子發求條件極值,得到下面的拉格朗日乘子式
分別對 進行求導,並讓求導后的為0,求解出
和
,得到如下等式
可以求解出的表達式如下:
接着把的解析式代入:
得到如下等式
可以看出,對取值離散的隨機過程,最大熵意味着取平均概率,也就是說當取值概率相等的時候,熵最大化,下面看連續變量的情況
我們從離散情況過度到連續情況,有如下等式
是平均值,它是一個常量,
是對應隨機變量取值x的時候的值,同樣,需要先寫出熵信息的等式,然后在約束條件下求出熵信息最大化的參數值
對L(x)求f(x)的偏導,得到下式:
得到f(x) 的解析式:
只要求出就可以得到f(x)的解析表達式,剩下的工作就是估計這些未知的參數了。
從上面的分析可以看出,我們只要在最大熵的條件下,加上約束條件,就可能得到不同的概率分布解析式,下面我們加上均值和方差為常量的約束,看看可以得到什么樣的解析式,約束條件如下:
根據前面我們求出來的最大熵條件下連續變量概率密度表達式可以得到約束條件下的解析表達式如下:
整理其形式,得到如下形式
其中,C是修整以后代替的待定系數,並做如下替換
加上約束條件:,可以得到下式:
這里用到了一個概率積分的結果,這里不討論這個結果的證明,搜索概率積分有很多次結論的文章,利用這個結論可以得到下式結果:
把平均值條件考慮進來,有下式:
做一個整理,有下式:
因為有約束: ,因此得到
因為yf(y)為奇函數,因此其積分應為0,因此有: ,因此有
因此可以得到下面的結果
在利用方差約束:,和自然對數函數積分公式,得到如下結果:
令,整理得到:
根據洛比達法則,計算極限:,所以有下面的式子
我們重點看里面這塊的積分
整理得到下面結論:
現在得到了,代入
得到下式:
這就是我們熟悉的正態分布的形式。
從上面可以看到,在給定約束條件下,基於最大熵原理可以得到某種概率分布函數,給定常量的均值和方差,可以得出正態分布,這個思路指明了不同的約束會導致不同的概率分布結果。其他的約束不再討論了。重點是在用這個原理可以求概率分布,我們可以看到概率分布已經是指數形式了,所以只是求其中的系數問題,可以通過學習的方法從樣本中得到。
我們來看看其中的參數怎么求?
這里會用到上面的結論,約束條件和連續概率密度函數表達式:
為了方便起見,這里做一個替換得到下面結論:
將概率密度表達式代入概率積分為1的條件可以得到下面結果:
對求偏導,得到下式:
整理得到
對求偏導數
於是得到
可以看出這是含有的m個方程組。如果從樣本去估計他們的真實參數值會有一點的偏差,因此可以做如下變化:
實際的計算中,只可能是近似等於1,那么其中的誤差部分就是:
我們希望這樣的誤差要滿足均方誤差最小,即下式:
規划求解可以得出答案
轉自:http://blog.csdn.net/omade/article/details/17449471