PLSA主題模型


主題模型

主題模型這樣理解一篇文章的生成過程:

1、          確定文章的K個主題。

2、          重復選擇K個主題之一,按主題-詞語概率生成詞語。

3、          所有詞語組成文章。

這里可以看到,主題模型僅僅考慮詞語的數量,不考慮詞語的順序,所以主題模型是詞袋模型。

主題模型有兩個關鍵的過程:

1、          doc -> topic

2、          topic -> word

其中topic -> word是定值,doc -> topic是隨機值。這是顯而易見的,對於不同的文章,它的主題不盡相同,但是對於同一個主題,它的詞語概率應該是一致的。好比記者寫了一篇科技新聞和一篇金融新聞,兩篇新聞的主題分布必然不同,但是這兩篇文章都包含數學主題,那么對於數學主題出現的詞語應該大致相同。

主題模型的關鍵就是要計算出topic -> word過程,也就是topic-word概率分布。對於一篇新的文章,我們已知它的詞語數量分布,又訓練出了topic-word概率分布,則可以使用最優化方法分析出文章對應的K個最大似然主題。

PLSA

PSLA主題模型正是上述思想的直接體現,文章生成過程如下

PLSA主題模型圖形化過程如下

 

我們考慮第m篇文檔的生成過程,其中涉及1個doc-topic骰子,K個topic-word骰子。記第m篇文檔為,第m篇文章出現第z個主題的概率為,第z個主題生成詞語w的概率為這里與文檔有關系,與文檔沒有關系)。對於某個詞語的生成概率,即投擲一次doc-topic骰子與一次topic-word骰子生成詞語w的概率為

於是第m篇文檔的n個詞語生成概率為

如果我們有M篇文檔,考慮到文檔之間獨立,則所有詞語生成的概率為M個的乘積。

PLSA模型最優化包含兩個參數求解,可以使用EM算法計算。讀者有興趣可以參考前面的文章。

 

參考:《LDA數學八卦》


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM