信息量
信息量是通過概率來定義的:如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。簡而言之,概率小的事件信息量大,因此信息量 \(I(x)\) 可以定義如下:
信息熵/熵
表示隨機變量不確定性的度量,熵就是用來表示信息量的期望(信息量的均值):
-
熵越小表示越“純”,決策樹算法在進行特征選擇時的其中標准之一就是選擇使得通過該特征分類以后的類的熵最小;
-
上面是熵越小越好,而有的時候,我們需要熵越大越好,簡單來說就是“雞蛋不要放在一個籃子里”(見吳軍《數學之美》),最大熵原理就是這樣,這部分內容可以參考李航《統計機器學習》邏輯回歸模型相關部分
KL散度/相對熵
相對熵又稱KL散度,如果我們對於同一個隨機變量 x 有兩個單獨的概率分布 P(x) 和 Q(x),我們可以使用 KL 散度(Kullback-Leibler (KL) divergence)來衡量這兩個分布的差異,這里 P(x) 表示樣本的真實分布,Q(x) 表示我們計算出來的模型,我們怎么去衡量我們的模型和真實的樣本分布之間的差異呢,使用KL散度:
差異越大則相對熵越大,差異越小則相對熵越小。
KL散度 = 交叉熵- 熵
交叉熵
交叉熵衡量了用概率分布p去估計概率分布q所包含的平均信息量, 也就是:
從另一個角度看, 當p, q相等時, 交叉熵就等於信息熵, 此時交叉熵最小. 所以在機器學習中, 交叉熵被用來做loss去衡量分類結果與真值的相似程度
條件熵
條件熵 H(Y|X) 表示在已知隨機變量 X 的條件下隨機變量 Y 的不確定性。條件熵 H(Y|X) 定義為 X 給定條件下 Y 的條件概率分布的熵對 X 的數學期望:
聯合熵
兩個變量 X和 Y 的聯合熵的表達式:
互信息
互信息(Mutual Information)是度量兩個事件集合之間的相關性,也被稱為信息增益, 根據信息熵、條件熵的定義式,可以計算互信息為信息熵與條件熵之差