gibbs采樣


gibbs采樣

參數估計與預測

機器學習的一般思路為:
1.從問題的本質中構建模型,定義樣本的產生,有聯合概率(圖模型)。
2.進行模型參數的估計:MLE、MAP、Bayes。
3.使用模型對新樣本進行估計。

MLE:極大似然估計
估計:解優化函數


預測:

MAP:極大后驗估計
估計:解優化函數


預測:

對比極大似然估計,引入了關於 的先驗知識。

Bayes估計
估計:后驗概率


預測:

對於MLE和MAP算法,對模型參數進行點估計,沒有考慮未知樣本導致的模型參數的不確定性;對於Bayes估計,參數的后驗概率有時很難求解,特別是在多參數聯合分布的情況下,因此引入了近似求解的方法,引入gibbs采樣,直接采樣得到

gibbs采樣的Naive Bayes模型

輸入信息

1.有一組文本集合,利用BagOfWords模型,可以將每個文本表示成單詞數量向量(經典的Naive Bayes模型將向量只有0,1兩種狀態)。
2.每個文本可以有標簽,也可以沒有標簽。
3.模型的本質含義是將詞向量分布相近的文檔歸為一類。

構建圖模型

enter description here
上述圖模型描述了整個文檔集合的構建過程。
對於每一個文檔
1.首先選定類別標簽,這個抽樣過程服從參數為的0-1分布。
2.接着根據類別標簽生成文檔的詞向量,其中服從參數為的多項式分布。
如果以MLE的觀點,將參數作為固定值,似然概率為,當然,這里存在隱變量,需要用EM算法進行求解。
但是,以Bayes的觀點,不能對模型參數進行點估計,而是認為參數也是一個隨機變量,因此引入超參數來描述參數的分布。
具體的,0-1分布的隨機參數服從參數為的Beta分布。多項分布的參數服從參數為的Dirichlet分布。
Beta分布



Dirichlet分布


可以看出,Dirichlet分布是Beta分布的多維拓展。
由於我們通過引入圖模型,只是知道了文檔的生成方式,但對於 的分布以及 的分布並不了解,因此引入無信息的先驗,也即 ,同理 各個元素都是1

寫出聯合概率




繼續化解,將 積分掉,有:

其中

構建gibbs采樣

構建gibbs采樣的函數,主要是計算各個隨機變量的單獨的條件分布。
首先對文檔的標簽采樣:



抽樣過程:
1.令 ,計算value0
2.令 ,計算value1
3.對分布律 進行抽樣,得到
接着對參數 進行采樣


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM