主題模型之概率潛在語義分析（Probabilistic Latent Semantic Analysis）

本文轉載自查看原文 2015-09-17 08:56 2019 Data Mining

上一篇總結了潛在語義分析（Latent Semantic Analysis, LSA），LSA主要使用了線性代數中奇異值分解的方法，但是並沒有嚴格的概率推導，由於文本文檔的維度往往很高，如果在主題聚類中單純的使用奇異值分解計算復雜度會很高，使用概率推導可以使用一些優化迭代算法來求解。

Thomas Hofmann 於1998年根據似然原理定義了生成模型並由此提出了概率潛在語義分析模型（Probabilistic Latent Semantic Analysis），簡稱PLSA。

PLSA屬於概率圖模型中的生成模型，相關的模型還有語言模型中的一元模型（Unigram Model）、混合一元模型（Mixture of Unigrams Model）等。

首先對文集進行設定。假設文集的詞典中共有V個詞，詞典向量為

一元模型中假設每篇文檔的詞都獨立遵從於多項式分布，即假設詞典中第i個詞

下圖中圖（a）便是一元語言模型的概率圖模型，而圖（b）中是PLSA的概率圖模型。

PLSA模型中與一元模型中假設詞遵從多項式分布不同，PLSA模型中引入了潛層變量

PLSA模型的生成過程如下：

根據概率
根據概率
根據概率

當然每個模型都對文集有一定的假設，PLSA做了如下的假設：

並元
當已知潛性變量

PLSA最初是根據視面模型（Aspect Model）提出的，假設1與一元模型中的“一袋子詞”的假設相似，假設2與PLSA定義的圖模型的生成關系有關，PLSA的圖模型類似於X->Z->Y這種模式，在貝葉斯網絡中被稱為間接因果影響（“Indirect Causal Effect”）。舉個例子來說，X表示你口袋里有沒有2塊錢，Z表示你能不能買一只筆，Y表示你能不能參加考試。假如不知道你能不能買一支筆（Z），那么你口袋里有沒有2塊錢（X）將影響到你能不能參加考試（Y）。但是假如你已經知道你是否可以買一只筆（Z），則你口袋里有沒有2塊錢（X）就影響不到你能不能參加考試了（Y）。即已知變量Z，變量X和Y是獨立的。

PLSA最終是要求得每個並元