最大熵模型
作者:櫻花豬
摘要:
本文為七月算法(julyedu.com)12月機器學習第七次課在線筆記。熵,這個概念對於我們來說既熟悉又陌生,熟悉的是我們在許多領域都會碰到熵這個概念,陌生的是如果真的讓你解釋它又說不清道不明。本次課程討論了熵的概念並詳細解釋了最大熵模型。這次課承上啟下,將前幾次課程所埋的坑一一填起,又為接下來更加深入的機器學習做了鋪墊。
引言:
熵的概念對我來說既陌生又熟悉,在看論文中常常會碰到“熵”但是卻總是覺得差一口氣來解釋它。通過這次課程,終於對於熵這個概念有了一個更加具體和感性的認識,不再單單局限於冰冷的公式。最大熵模型在機器學習以及其他算法中都有所提到,是一種非常常見又有用的方法。本文首先闡述了有關於“熵”的一些概念,然后詳細的介紹了最大熵模型和其應用。
預備知識:
參數估計、概率論、方陣的導數
最大熵模型
ICA
一、熵及相關概念
1、信息量
當一個小概率事件發生了,那么這個事件的信息量很大;反之如果一個大概率事件發生了,這個事件的信息量就很少。根據這個描述,我們可以構造一個信息量的表達式:
若事件A發生的概率為P,那么A的信息量為:
2、熵
對隨機事件的信息量求期望,得熵的定義:
注:經典熵的定義,底數是2,單位是bit
3、聯合熵Joint Entropy
4、條件熵
在Y發生的前提下,X發生“新”帶來的熵 。
互信息表示法:
5、相對熵
相對熵,又稱互熵,交叉熵,鑒別信息,Kullback 熵,Kullback-Leible(KL)散度等。
相對熵可以度量兩個隨機變量的“距離”,K-L距離;是非常重要的概念。:K-L距離是非對稱的。
公式:、
設p(x)、q(x)是X中取值的兩個概率分布,則p對q的相對熵是
假定使用KL(Q||P),為了讓距離最小,則要求在P為 0的地方,Q盡量為0。會得到比較“窄”的分布曲 線;
假定使用KL(P||Q),為了讓距離最小,則要求在P不為0的地方,Q也盡量不為0。會得到比較“寬”的分 布曲線;
6、互信息
兩個隨機變量X,Y的互信息,定義為X,Y 的聯合分布和獨立分布乘積的相對熵。
注:可以聯系“互信息”
7、整理
對偶式:
二、最大熵模型
1、最大熵模型原則
a. 承認已知事物(知識)
b. 對未知事物不做任何假設,沒有任何偏見
2、最大熵模型Maxent
P={p | p是X上滿足條件的概率分布}
3、求解過程:
最大熵模型MaxEnt的目標拉格朗日函數L
歸一化因子:
5、應用:
ICA獨立成分分析
ICA的目標函數:
ICA可以用最大化各個成分的統計獨立性作為目標函數。
“獨立性”判斷原則為:
a. 最小化各個成分的互信息(MMI、K-L散度、最大熵)
b. 最大化各個成分的非高斯性
PCA:主成分分析;分出來是不相關的。
ICA:獨立成分分析。分出來是獨立的。
6、極大似然估計和最大熵模型
根據極大似然估計的正確性可以斷定:最大熵的解 (無偏的對待不確定性)是最符合樣本數據分布的解,即最大熵模型的合理性。
信息熵可以作為概率分布集散程度的度量,使用熵的近似可以推導出基尼系數,在統計問題、決策樹 等問題中有重要作用。
熵:不確定度
似然:與知識的吻合程度
最大熵模型:對不確定度的無偏分配
最大似然估計:對知識的無偏理解
知識=不確定度的補集