信息熵的簡單理解


  ,信息熵在機器學習和深度學習中是十分重要的。那么,信息熵到底是什么呢?

  首先,信息熵是描述的一個事情的不確定性。比如:我說,太陽從東方升起。那么這個事件發生的概率幾乎為1,那么這個事情的反應的信息量就會很小。如果我說,太陽從西方升起。那么這就反應的信息量就很大了,這有可能是因為地球的自轉變成了自東向西,或者地球脫離軌道去到了別的地方,那么這就可能導致白天變成黑夜,熱帶雨林將變成沙漠,東北亞將不再是苦寒之地,而是現在的西歐一樣的海洋性季風氣候,而西歐變成寒帶大陸性氣候跟現在的東北亞苦寒之地一樣。

  那么,太陽從東方升起這個事件,概率很大,信息量就會很少。相反,太陽從西方升起,概率很小,信息量就會很多。因此,信息熵常被用來作為一個系統的信息含量的量化指標,從而可以進一步用來作為系統方程優化的目標或者參數選擇的判據。

  先來一個信息熵的公式:

    

  其中:𝑝(𝑥𝑖)代表隨機事件𝑥𝑖的概率。 

  由上面太陽東升西落,西升東落很容易看出,信息量是隨着發生的概率的增大而減少的,而且不能為負。

  另外,如果我們有兩個不相關事件A和B,那么可以得知這兩個事情同時發生的信息等於各自發生的信息之和。即h(A,B) = h(A) + h(B)

  而且,根據貝葉斯定理,p(A,B) = p(A) * p(B)

  根據上面說到的說熵的定義應該是概率的單調函數。我們很容易看出結論熵的定義 h 應該是概率 p(x)log 函數,因此一個隨機變量的熵可以使用以下定義:

  \[h(x)=-log_2p(x)\]

  此處的負號,僅僅是為了保證熵為正數或者為零,而log函數的基數2可以使任意數,只不過根據普遍傳統,使用2作為對數的底。

  我們用熵來評價整個隨機變量x平均的信息量,而平均最好的量度就是隨機變量的期望,即信息熵的定義如下:


    H[x]=-\sum_xp(x)log_2p(x)

  最終的公式就出來了!還要說明的是,當這個事情一定發生的時候,發生的概率就為1,那么它的信息量為0,信息熵就為0。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM