原文在這里:https://blog.csdn.net/hearthougan/article/details/76192381
距離有近有遠,時間有長有短,溫度有高有低,我們知道可以用米或者千米來度量距離,用時分秒可以來度量時間的長短,用攝氏度或者華氏度來度量溫度的高低,那么我們常說這句話信息多,那句話信息少,那么信息的多少用什么度量呢?信息量!
信息量是度量知曉一個未知事物需要查詢的信息的多少,單位是比特。比如昨天你錯過一場有8匹賽馬的比賽,編號為1~8號,每匹馬贏的概率都一樣,那么你需要獲得多少信息(也就是猜測多少次)才可以知道哪匹馬獲勝?利用二分法,猜測三次即可,如下圖:
那么你需要的信息量就是3比特。信息量度量的是從未知到已知所需信息的多少,比如上圖,一開始不知道哪匹馬 獲勝,我們開始猜測,最后猜測是1號獲勝,其中需要3比特信息。
但是因為每匹馬是等概率獲勝的,而你又不知道哪匹馬獲勝,如果最后猜測出來是3號勝,這同樣也需要3比特信息, 同理最后猜測出其它號的馬獲勝,每個都是需要3比特信息。那么現在我想計算一下,猜測出最后獲勝的馬,平均需要多少比特信息呢?也就是對信息量求期望(加權平均),我們給這個期望一個名字,就是信息熵。這里每匹馬獲勝是等概率的,當然平均也是3比特。
那么假如現在1~8號獲勝的概率分別為{1/2、1/4、 1/8、 1/16、 1/64、 1/64、 1/64、 1/64},那么現在你平均要猜測對少次呢?猜測的時候,肯定是按照概率大小的來測,如下圖:
對應上圖,猜測每匹馬獲勝至少要猜測的次數分別為1、2、3、4、6、6、6、6;那么平均要猜測多少次呢?即:
也就是猜測出獲勝的馬匹,平均需要2次。由於我們描述事物的時候常常使用隨機變量,給出隨機變量取值的概率, 那么該如求該隨機變量取某個值時的信息量和該隨機變量的信息熵呢?上例中我們用次數來表示信息量,對信息求期望作為信息熵,那么我們如何抽象成數學模型呢?
信息量:隨機變量取某個值時,其概率倒數的對數就是信息量。
其中底數可以是2,單位是比特,底數也可以是其他,單位也相應不同,這里不予細究。
比如上例概率不等的時候,猜測6號獲勝的所需的信息量為:
這恰好符合我們的認識。
信息熵:信息量的期望。
**
**
比如上例,設X為賽馬編號,則X的信息熵為:
所以,這也符合我們之前的認識。
例:
如果上例還是不明白,再舉一個例子,一個箱子有9個球,4個紅色,3個綠色,2個黃色,如下圖:
我們從中抽取一個紅球、黃球、綠球所帶來的信息量分別為:
由於從箱子里抽取球,有三種可能,紅、黃、綠。設X為球的顏色,則:
即隨機變量X的信息熵為1.53。
總結:
信息量:從未知到已知所需信息的含量。
信息熵:信息量的期望。