吉布斯采樣 (Gibbs Sampling) 首先選取概率向量的一個維度,給定其他維度的變量值當前維度的值,不斷收斂來輸出待估計的參數。具體地
1.隨機給每一篇文檔的每一個詞 ww,隨機分配主題編號 zz
2.統計每個主題 zizi 下出現字 ww 的數量,以及每個文檔 nn 中出現主題 zizi 中的詞 ww的數量
3.每次排除當前詞 ww 的主題分布 zizi,根據其他所有詞的主題分類,來估計當前詞 ww 分配到各個主題 z1,z2,…,zkz1,z2,…,zk 的概率,即計算 p(zi|z−i,d,w)p(zi|z−i,d,w) (Gibbs updating rule))。得到當前詞屬於所有主題z1,z2,…,zkz1,z2,…,zk 的概率分布后,重新為詞采樣一個新的主題 z1z1。用同樣的方法不斷更新的下一個詞的主題,直到每個文檔下的主題分布θnθn 和每個主題下的詞分布 ϕkϕk 收斂。
4.最后輸出待估計參數,θnθn 和 ϕkϕk ,每個單詞的主題 zn,kzn,k 也可以得到。
LDA 對於每個文檔的每一個字都有一個主題下標。但從文檔聚類的角度來說,LDA 沒有一個文檔統一的聚類標簽,而是每個字都有一個聚類標簽,這個就是主題。LDA 每個字都有可能屬於不同的類別,每個文檔都有可能屬於不同的類別。在大量的迭代后,主題分布和字分布都比較穩定也比較好了,LDA 模型收斂。