一、熵
熵的定義:
其對數log的底為2,若使用底為b的對數,則記為。當對數底為
時,熵的單位為奈特。
用表示數學期望,如果
,則隨機變量
的期望值為,
當,
關於
的分布自指數學期望。而熵為隨機變量
的期望值,其
是
的概率密度函數,則可寫為,
引理:
證明:
二、聯合熵與條件熵:
對於服從聯合分布為的一對離散隨機變量
,
聯合熵的定義:
若,條件熵的定義:
定理鏈式法則:
證明:
等價記為:
推論:
,但
。
三、相對熵與互信息
兩個概率密度函數為和
之間的相對熵或Kullback-Leibler距離定義為,
定義 考慮兩個隨機變量和
,它們的聯合概率密度函數為
,其邊際概率密度函數分別是
和
。
互信息為聯合分布
和乘積分布
之間的相對熵,
四、熵和互信息的關系
還可以將互信息寫為,
由此可以看出,互信息是在給定
知識條件下
的不確定度的縮減量。則,
,聯系到前面的
,可得,
最后得出,
因此,隨機變量與自身的互信息為該隨機變量的熵。有時,熵稱為自信息就是這個原因。
熵和互信息的關系如下,
五、熵、相對熵與互信息的鏈式法則
一組隨機變量的熵等於條件熵之和。
定理 設隨機變量服從
,則
證明一:
證明二,由
可得:
給定時由於
的知識而引起關於
的不確定度的縮減量,即條件互信息的定義:
定理 互信息的鏈式法則:
證明:
條件相對熵的定義:
定理 相對熵的鏈式法則:
證明: