一、pLSA模型
1、朴素貝葉斯的分析
(1)可以勝任許多文本分類問題。
(2)無法解決語料中一詞多義和多詞一義的問題——它更像是詞法分析,而非語義分析。
(3)如果使用詞向量作為文檔的特征,一詞多義和多詞一義會造成計算文檔間相似度的不准確性。
(4)可以通過增加“主題”的方式,一定程度的解決上述
問題:一個詞可能被映射到多個主題中(一詞多義),多個詞可能被映射到某個主題的概率很高(多詞一義)
2.pLSA模型
基於概率統計的pLSA模型(probabilistic latentsemantic analysis, 概率隱語義分析),增加了主題模型,
形成簡單的貝葉斯網絡,可以使用EM算法學習模型參數。

(1)D代表文檔,Z代表主題(隱含類別),W代表單詞;P(d i )表示文檔d i 的出現概率, P(z k |d i )表示文檔
d i 中主題z k 的出現概率, P(w j |z k )表示給定主題z k 出現單詞w j 的概率。
(2)每個主題在所有詞項上服從多項分布,每個文檔在所有主題上服從多項分布。
(3)整個文檔的生成過程是這樣的: 以P(d i )的概率選中文檔d i ; 以P(z k |d i )的概率選中主題z k ;
以P(w j |z k )的概率產生一個單詞w j觀察數據為(d i ,w j )對,主題z k 是隱含變量。 (d i ,w j )的聯合分布為

而 對應了兩組多項分布,而計算每個文檔的主題分布,就是該模型的任務目標。
(4)極大似然估計:w j 在d i 中出現的次數n(di,wj)

(5)使用逐次逼近的辦法:
假定P(z k |d i )、P(w j |z k )已知,求隱含變量z k 的后驗概率;
在(d i ,w j ,z k )已知的前提下,求關於參數P(z k |d i )、P(w j |z k )的似然函數期望的極大值,
得到最優解P(z k |d i )、P(w j |z k ) ,帶入上一步,從而循環迭代;
隱含變量z k 的后驗概率;

在(d i ,w j ,z k )已知的前提下,求關於參數P(z k |d i )、P(w j |z k ) 的似然函數期望的極大值,得到最優
解P(z k |d i )、P(w j |z k ) ,帶入上一步,從而循環迭代;
(6)分析似然函數期望
在(d i ,w j ,z k )已知的前提. 在(d i ,w j ,z k )已知的前提下,求關於參數P(z k |d i )、P(w j |z k ) 的似
然函數期望的極大值,得到最優解P(z k |d i )、P(w j |z k ) ,帶入上一步,從而循環迭代
分析似然函數期望:

(7)完成目標函數的建立
關於參數P(z k |d i )、P(w j |z k ) 的函數E,並且,帶有概率加和為1的約束條件:

顯然,這是只有等式約束的求極值問題,使用Lagrange乘子法解決。
求駐點:

分析第一個等式

同理分析第二個等式
最后就是下面兩步的迭代了,也是實現算法的主要步驟了
求極值時的解——M-Step:

別忘了E-step::

(8)pLSA的總結
1)pLSA應用於信息檢索、過濾、自然語言處理等領域,pLSA考慮到詞分布和主題分布,使用EM算法來學習參數。
2) 雖然推導略顯復雜,但最終公式簡潔清晰,很符合直觀理解,需用心琢磨;此外,推導過程使用了EM算法,也
是學習EM算法的重要素材。
二、LDA
(1)共軛先驗分布
1)由於x為給定樣本,P(x)有時被稱為“證據”,僅僅是歸一化因子,如果不關心P(θ|x)的具體值,只考察θ取何值時
后驗概率P(θ|x)最大,則可將分母省去。

在貝葉斯概率理論中,如果后驗概率P(θ|x)和先驗概率p(θ)滿足同樣的分布律,那么,先驗分布和后驗分布被叫做共
軛分布,同時,先驗分布叫做似然函數的共軛先驗分布。
2)共軛先驗分布的實踐意義
似然函數P(x|θ)表示以先驗θ為參數的概率分布,可以直接求得。 先驗分布P(θ)是θ的分布率,可根據先驗知識獲得。
方案:選取似然函數P(x|θ)的共軛先驗作為P(θ)的分布,這樣,P(x|θ)乘以P(θ) (然后歸一化)得到的P(θ|x)的形式和P(θ)的形式一樣。
(2)Dirichlet分布
1) Dirichlet分布的定義:

2)Dirichlet分布分析
α是參數向量,共K個;定義在x 1 ,x 2 …x K-1 維上:x 1 +x 2 +…+x K-1 +x K =1,x 1 ,x 2 …x K-1 >0,
定義在(K-1)維的單純形上,其他區域的概率密度為0
3)對稱Dirichlet分布

α=1時,退化為均勻分布;
當α>1時, p 1 =p 2 =…=p k 的概率增大
當α<1時, p i =1,p 非i =0的概率增大
(3)LDA的解釋
1)共有m篇文章,一共涉及了K個主題;每篇文章(長度為N m )都有各自的主題分布,主題分布是多項分布,該多
項分布的參數服從Dirichlet分布,該Dirichlet分布的參數為α;
每個主題都有各自的詞分布,詞分布為多項分布,該多項分布的參數服從Dirichlet分布,該Dirichlet分布的參數為 β。
對於某篇文章中的第n個詞,首先從該文章的主題分布中采樣一個主題,然后在這
個主題對應的詞分布中采樣一個詞。不斷重復這個隨機生成過程,直到m篇文章全部完成上述過程。

2)參數的學習
給定一個文檔集合,w mn 是可以觀察到的已知變量,α和β是根據經驗給定的先驗參數,其他的變量z mn 、θ、φ都
是未知的隱含變量,需要根據觀察到的變量來學習估計的。根據LDA的圖模型,可以寫出所有變量的聯合分布:

3)似然概率
一個詞w mn 初始化為一個詞t的概率是:

每個文檔中出現主題k的概率乘以主題k下出現詞t的概率,然后枚舉所有主題求和得到。整個文檔集合的似然函數為:

4)Gibbs Sampling
a.Gibbs Sampling算法的運行方式是每次選取概率向量的一個維度,給定其他維度的變量值采樣當前維度的值。不斷迭代,直到收斂輸出待估計的參數。
b.初始時隨機給文本中的每個詞分配主題z (0) ,然后統計每個主題z下出現詞t的數量以及每個文檔m下出現主題z的數量,
每一輪計算p(z i |z -i ,d,w),即排除當前詞的主題分布:根據其他所有詞的主題分布估計當前詞分配各個主題的概率。
c.當得到當前詞屬於所有主題z的概率分布后,根據這個概率分布為該詞采樣一個新的主題。
d.用同樣的方法更新下一個詞的主題,直到發現每個文檔的主題分布θ i 和每個主題的詞分布φ j 收斂,算法停止,
輸出待估計的參數θ和φ,同時每個單詞的主題z mn 也可同時得出。
e.實際應用中會設置最大迭代次數。每一次計算p(zi|z -i ,d,w)的公式稱為Gibbs updating rule。
