變分貝葉斯EM指的是變分貝葉斯期望最大化(VBEM, variational Bayes expectation maximization),這種算法基於變分推理,通過迭代尋找最小化KL(Kullback-Leibler)距離的邊緣分布來近似聯合分布,同時利用mean field 近似減小聯合估計的復雜度。
變分貝葉斯EM方程最早是由BEAL M J. 在其論文《Variational Algorithms for Approximate Bayesian Inference》[D], London, UK: University College London, 2003里所提出的[1]
。其具體算法可表示為:在第i次VBEM迭代中,參數分布的更新方程式可表示為VBE步和VBM步。

在VBEM算法中,VBE步驟和VBM步驟均是關於后驗分布求均值的,因此隱參數和未知參數之間不再存在區別。
一、《VBEM算法由淺入深》
1,EM算法講得比較直觀明了的資料是Andrew NG的machine learning課程的講稿。CS 229: Machine Learning (Course handouts),第八章就是專門講EM算法
2,EM的一些code實現。比如MachineLearning-C---code/main.cpp at master · pennyliang/MachineLearning-C---code · GitHub。
3,熟悉完EM算法之后,可以去看變分推斷了,關於變分推斷的方法,D.Blei一直在推。筆記在此https://www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-inference-i.pdf。 文章在此https://arxiv.org/abs/1601.00670。筆記是對文章的總結。
4,結合了EM和variational inference的變分EM了,這個可以看香港大學的一份PPT,講得是使用變分EM推導LDA的過程,很詳。http://www.cse.ust.hk/~lzhang/teach/6931a/slides/lda-zhou.pdf
3,熟悉完EM算法之后,可以去看變分推斷了,關於變分推斷的方法,D.Blei一直在推。筆記在此https://www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-inference-i.pdf。 文章在此https://arxiv.org/abs/1601.00670。筆記是對文章的總結。
4,結合了EM和variational inference的變分EM了,這個可以看香港大學的一份PPT,講得是使用變分EM推導LDA的過程,很詳。http://www.cse.ust.hk/~lzhang/teach/6931a/slides/lda-zhou.pdf
二、采樣和變分
1、Gibbs采樣和變分
Gibbs采樣:使用鄰居結點(相同文檔的詞)的主題采樣值
變分:采用相鄰結點的期望。n
這使得變分往往比采樣算法更高效:用一次期望計算代替了大量的采樣。直觀上,均值的信息是高密(dense)的,而采樣值的信息是稀疏(sparse)的。
2、變分概述
變分既能夠推斷隱變量,也能推斷未知參數,是非常有力的參數學習工具。其難點在於公式演算略復雜,和采樣相對:一個容易計算但速度慢,一個不容易計算但運行效率高。
平均場方法的變分推導,對離散和連續的隱變量都適用。在平均場方法的框架下,變分推導一次更新一個分布,其本質為坐標上升。可以使用模式搜索(pattern search)、基於參數的擴展(parameter expansion)等方案加速
有時假定所有變量都獨立不符合實際,可使用結構化平均場(structured mean field),將變量分成若干組,每組之間獨立
變分除了能夠和貝葉斯理論相配合得到VB(變分貝葉斯),還能進一步與EM算法結合,得到VBEM,用於帶隱變量和未知參數的推斷