gibbs采樣
參數估計與預測
機器學習的一般思路為:
1.從問題的本質中構建模型,定義樣本的產生,有聯合概率(圖模型)。
2.進行模型參數的估計:MLE、MAP、Bayes。
3.使用模型對新樣本進行估計。
MLE:極大似然估計
估計:解優化函數

預測:

MAP:極大后驗估計
估計:解優化函數

預測:

對比極大似然估計,引入了關於

Bayes估計
估計:后驗概率

預測:

對於MLE和MAP算法,對模型參數進行點估計,沒有考慮未知樣本導致的模型參數的不確定性;對於Bayes估計,參數的后驗概率有時很難求解,特別是在多參數聯合分布的情況下,因此引入了近似求解的方法,引入gibbs采樣,直接采樣得到
gibbs采樣的Naive Bayes模型
輸入信息
1.有一組文本集合,利用BagOfWords模型,可以將每個文本表示成單詞數量向量(經典的Naive Bayes模型將向量只有0,1兩種狀態)。
2.每個文本可以有標簽,也可以沒有標簽。
3.模型的本質含義是將詞向量分布相近的文檔歸為一類。
構建圖模型
上述圖模型描述了整個文檔集合的構建過程。
對於每一個文檔
1.首先選定類別標簽,這個抽樣過程服從參數為
的0-1分布。
2.接着根據類別標簽生成文檔的詞向量
,其中
服從參數為
的多項式分布。
如果以MLE的觀點,將參數、
、
作為固定值,似然概率為
,當然,這里存在隱變量
,需要用EM算法進行求解。
但是,以Bayes的觀點,不能對模型參數進行點估計,而是認為參數也是一個隨機變量,因此引入超參數來描述參數的分布。
具體的,0-1分布的隨機參數服從參數為
的Beta分布。多項分布的參數
和
服從參數為
的Dirichlet分布。
Beta分布


Dirichlet分布


可以看出,Dirichlet分布是Beta分布的多維拓展。
由於我們通過引入圖模型,只是知道了文檔的生成方式,但對於




寫出聯合概率



繼續化解,將


其中

構建gibbs采樣
構建gibbs采樣的函數,主要是計算各個隨機變量的單獨的條件分布。
首先對文檔的標簽采樣:


抽樣過程:
1.令

2.令

3.對分布律


接着對參數

