一、熵
熵的定義:

其對數log的底為2,若使用底為b的對數,則記為
。當對數底為
時,熵的單位為奈特。
用
表示數學期望,如果
,則隨機變量
的期望值為,

當
,
關於
的分布自指數學期望。而熵為隨機變量
的期望值,其
是
的概率密度函數,則可寫為,

引理:
證明:
二、聯合熵與條件熵:
對於服從聯合分布為
的一對離散隨機變量
,
聯合熵的定義:

若
,條件熵的定義:

定理鏈式法則:

證明:

等價記為:

推論:

,但
。
三、相對熵與互信息
兩個概率密度函數為
和
之間的相對熵或Kullback-Leibler距離定義為,

定義 考慮兩個隨機變量
和
,它們的聯合概率密度函數為
,其邊際概率密度函數分別是
和
。
互信息
為聯合分布
和乘積分布
之間的相對熵,

四、熵和互信息的關系
還可以將互信息寫為,

由此可以看出,互信息
是在給定
知識條件下
的不確定度的縮減量。則,
,聯系到前面的
,可得,

最后得出,
因此,隨機變量與自身的互信息為該隨機變量的熵。有時,熵稱為自信息就是這個原因。
熵和互信息的關系如下,
五、熵、相對熵與互信息的鏈式法則
一組隨機變量的熵等於條件熵之和。
定理 設隨機變量
服從
,則

證明一:

證明二,由

可得:

給定
時由於
的知識而引起關於
的不確定度的縮減量,即條件互信息的定義:

定理 互信息的鏈式法則:

證明:

條件相對熵的定義:

定理 相對熵的鏈式法則:

證明:

