信息熵:
(看之前可以了解一下信息熵的創始人:克勞德·艾爾伍德·香農(Claude Elwood Shannon ,1916年4月30日—2001年2月24日))
先給出信息熵的公式:

其中:𝑝(𝑥𝑖)代表隨機事件𝑥𝑖的概率。
下面逐步介紹信息熵公式來源!
首先了解一下信息量:信息量是對信息的度量,就跟時間的度量是秒一樣,當我們考慮一個離散的隨機變量 x 的時候,當我們觀察到的這個變量的一個具體值的時候,我們接收到了多少信息呢?
多少信息用信息量來衡量,我們接受到的信息量跟具體發生的事件有關。
信息的大小跟隨機事件的概率有關。越小概率的事情發生了產生的信息量越大,如湖南產生 的地震了;越大概率的事情發生了產生的信息量越小,如太陽從東邊升起來了(肯定發生嘛, 沒什么信息量)。這很好理解!
因此一個具體事件的信息量應該是隨着其發生概率而遞減的,且不能為負。但是這個表示信 息量函數的形式怎么找呢?隨着概率增大而減少的函數形式太多了!不要着急,我們還有下 面這條性質。
如果我們有倆個不相關的事件 x 和 y,那么我們觀察到的倆個事件同時發生時獲得的信息應 該等於觀察到的事件各自發生時獲得的信息之和,即: h(x,y) = h(x) + h(y)
由於 x,y 是倆個不相關的事件,那么滿足 p(x,y) = p(x)*p(y).
根據上面推導,我們很容易看出 h(x)一定與 p(x)的對數有關(因為只有對數形式的真數相乘 之后,能夠對應對數的相加形式,可以試試)。因此我們有信息量公式如下:
𝐡(𝐱) = −𝒍𝒐𝒈𝟐𝒑(𝒙)
(1)為什么有一個負號?其中,負號是為了確保信息一定是正數或者是 0,總不能為負數吧!
(2)為什么底數為 2 這是因為,我們只需要信息量滿足低概率事件 x 對應於高的信息量。那么對數的選擇是任意的。我們只是遵循信息論的普遍傳統,使用 2 作為對數的底!
信息熵 下面正式引出信息熵:信息量度量的是一個具體事件發生了所帶來的信息,而熵則是在結果出來之前對可能產生的信息量的期望——考慮該隨機變量的所有可能取值,即所有可能發生事件所帶來的信息量的期望。即
𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))
轉換一下也就是: 
最終我們的公式來源推導完成了。
信息熵還可以作為一個系統復雜程度的度量,如果系統越復雜,出現不同情況的種類越多, 那么他的信息熵是比較大的。如果一個系統越簡單,出現情況種類很少(極端情況為 1 種情況,那么對應概率為 1,那么對應的信息熵為 0),此時的信息熵較小。
最后附上對數函數一些性質,你畫出 𝐟(𝐱) = −𝒍𝒐𝒈𝟐𝒙 的圖像會更加明了。


鏈接:https://www.zhihu.com/question/22178202/answer/161732605
來源:知乎
