(學習這部分內容大約需要花費1.1小時)
摘要
在我們感興趣的大多數概率模型中, 計算后驗邊際或准確計算歸一化常數都是很困難的. 變分推斷(variational inference)是一個近似計算這兩者的框架. 變分推斷把推斷看作優化問題: 我們嘗試根據某種距離度量來尋找一個與真實后驗盡可能接近的分布(或者類似分布的表示)
預備知識
學習變分推斷需要以下預備知識
- 多元分布: 邊際化(Marginalization)是我們使用變分推斷時最常使用的操作
- KL散度: KL散度是變分目標函數的一部分.
- 熵(entropy): 熵是變分目標函數的一部分.
- 拉格朗日乘子法(Lagrange multipliers): 拉格朗日乘子法是分析變分推斷算法時必須的技術
核心資源
(閱讀/觀看以下其中一個)
付費
-
Pattern Recognition and Machine Learning(PRML)
簡介: 一本研究生機器學習教材, 聚焦於貝葉斯方法
位置: Sections 10.1-10.1.2網站
作者: Christopher M. Bishop
其他依賴知識:
增補資源
(以下為可選內容, 你可能發現它們挺有用的)
付費
-
Probabilistic Graphical Models: Principles and Techniques
簡介: 一本非常全面的概率AI研究生教材
位置: Sections 8.5-8.5.1 and 11.1網站
作者: Daphne Koller,Nir Friedman
其他依賴知識- 連接樹(junction trees)
相關知識
-
一些變分推斷算法:
- 平均場近似(Mean field approximation)
- 圖模型中的結構變分近似
- 期望傳播(Expectation propagation): 比平均場慢, 但通常明顯更准確.
當模型由指數族分布構建時, 變分推理效果很好.
-
變分貝葉斯(Variational Bayes): 應用變分推斷擬合貝葉斯模型
-
馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)是在概率模型中進行推斷的另一類技術.
-
在圖模型的情況下, 信念傳播(belief propagation)是帶有變分解釋的另一種推斷算法