淺談信息熵(熵權法的應用)


信息是一個很抽象的東西,吃蘋果的概率是二分之一,吃香蕉的概率是二分之一,這里面包含了多少信息量,由於信息很抽象,無法直觀的量化。

  信息熵原先是熱力學中的名詞,原先含義是表示分子狀態的混亂程度。

  香農引用了信息熵概念,因此,便有了信息論這一門學科,信息熵表示一個事件或者變量的混亂程度(也可稱為一個事件的不確定性),將信息變成可以量化的變量。

  綜上所述,信息熵是信息論中用於度量信息量的一個概念。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的一個度量。高信息度的信息熵是很低的,低信息度的熵則高。具體說來, 凡是隨機事件導致的變化,都可以用信息熵的改變量這個統一的標尺來度量。

 

  換一種說法:信我們可以吧信息熵理解為一個隨機變量出現的期望值,也就是說信息熵越大,該隨機變量會有更多的形式。信息熵衡量了一個系統的復雜度,比如當我們想要比較兩門課哪個更復雜的時候,信息熵就可以為我們作定量的比較,信息熵大的就說明那門課的信息量大,更加復雜。

  舉個例子:里約奧運會,女子自由泳決賽有兩個國家,美國和中國,中國獲勝的概率是80%,美國獲勝的概率是20%。則誰獲得冠軍的信息熵=- 0.8 * log2 0.8 - 0.2 * log2 0.2 = 0.257 + 0.464 = 0.721。中國獲勝的幾率越高,計算出的熵就越小,即越是確定的情況,不確定性越小,信息熵越少。如果中國100%奪冠,那么熵是0,相當於沒有任何信息。當兩隊幾率都是50%最難判斷,所熵達到最大值1。

 

  信息熵有很多定義,但都類似,簡單來說,就是信息熵可以衡量事物的不確定性,這個事物不確定性越大,信息熵也越大就是信息熵可以衡量事物的不確定性,這個事物不確定性越大,信息熵也越大。

 熵的一般公式是:

也可以寫成:

借用一本書上的例子

  32只球隊共有32種奪冠的可能性,用多少信息量才能包括這32個結果?按照計算機的二進制(只有1和0)表示法,我們知道2^5=32 ,也就是需要5符號的組合結果就可以完全表示這32個變化,而這里的符號通常稱之為比特。既然是這樣,那么當一件事的結果越不確定時,也就是變化情況越多時,那么你若想涵蓋所有結果,所需要的比特就要越多,也就是,你要付出的信息量越大,也即信息熵越大。當然,每個變化出現的概率不同,因而在香農的公式中才會用概率,所以信息熵算的是了解這件事所付出的平均信息量。比如這個例子里假設32只球隊奪冠可能性相同,即Pi=1/32 ,那么按照香農公式計算:

entropy(P1,P2,...,P32)=-(1/32)log(1/32)-(1/32)log(1/32)......-(1/32)log(1/32)=5/32+5/32...+5/32=(5*32)/32 =5

 

信息熵同樣可以用作數據挖掘中(如聚類分析過程)

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM