Mixture unigram Model, PLSA及LDA

本文轉載自查看原文 2012-08-26 17:49 4195

Topic model 在搜索和廣告，用戶興趣理解，推薦系統中有着非常泛的應用。它可以成為retrieval的方法，成為點擊模型的信號，也是推薦系統中基於內容推薦的重要算法。Topic model最近這些年很火的原因是其在語料准備上比supervised model更容易，不需要人工的標注信息。對於我們應用模型的工程師而言，在原理上搞清楚幾種常見的topic model的區別很重要，雖然影響實際應用效果的因素更主要的與訓練語料，應用場景有關，但弄清幾個算法的區別是使用topic model的前提條件。 topic models中，對unigram model和PLSA的理解非常重要。LDA雖然推理方式最復雜，公式最多，但只是個紙老虎，個人覺得理解前兩者（及其區別）比理解后者也許更困難。

Naive Bayes和Mixture unigram Model

我們可以先想想如果做的是一個文本分類的問題，已知label及被observed的詞們。我們怎么解？svm? logistic regression？思路對了，就用很直接的線性分類模型就行了。用logistic regression實際上是用下面的模型在訓練模型的參數（見下圖）

P(c_1|w_1,w_2)=\frac{P(c_1)P(w_1|c_1)P(w_2|c_1)}{\sum{P(c_i)P(w_1|c_i)P(w_2|c_i)}}=0.99

。但由於實際情況w1和w2共現的可能性遠比0.1*0.1來得大很多（極端情況下w1,w2總是共同出現，則后驗概率只有90%而已），所以這個估計太樂觀了。更進一步地，如果沒有label，就是我們所說的mixture unigram model（見下圖）。

PLSA

前面提到了PLSA，按照各種論文中介紹PLSA基本都是從產生式模型着手，先選d,再先t，再選w，每次選擇都引入一個分布。有個簡單的解釋是P(W|d)可以看成P(W|t)的線性組合(simplex)，這並不是從圖的角度來理解模型。從圖模型的角度，可以有兩種理解PLSA的方法，一種是論文中常用的方法，把表達document的隨機變量D引入，其實這個引入及把(d,w）當成一個事件，對於理解這個問題沒有任何好處。一個很簡單的疑問就是，我們如果把觀測看成是(d,w1,w2,w3..)而不是(d,w1) (d,w2) (d,w3)，不是更符合現實嗎？這兩種理解有什么區別。其實把觀測看成什么都無所謂，從likelihood function或EM的后驗的形式看我們很容易知道這兩者是等價的。(d,w1,w2,w3)的方式容易讓人理解模型本身，(d,w1),(d,w2)…的方式容易讓人理解計算過程，也和LSA更接近一些。其實，如果我們把PLSA畫成下圖的形式，跟d沒有關系。

不論是unigram model還是PLSA,我們都可以用perplexity這個度量在訓練集和測試集上看模型likelihood function上對數據解釋的是否好.通常來說,如果模型中的topic數量相同, PLSA在訓練集上的perplexity會比unigram model好. PLSA為每個詞都設計了一個hidden topic,如果加一個約束,即一個document對應的topic必須相同,那么它等價於unigram model.

LDA

PLSA可能發生的問題是overfitting，加入multinomial的conjugate prior是解決overfitting的一個思路。嘗試對PLSA的參數加入一些先驗，就會得到LDA最基本的形式。理解LDA的難點不僅在於如何理解gibbs sampling 或是variation bayes 或EP. 而在於理解后驗P(T|W)無法拆解成P(t_j|w_i)來解. P(W)沒有閉式解,所以就只能依賴蒙特卡羅等方法做近似.

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 LDA和PLSA的區別【sklearn】Gaussian Mixture Model PLSA 混合高斯模型（Gaussian mixture model, GMM） Geometric deep learning on graphs and manifolds using mixture model CNNs 一口氣講完 LSA — PlSA —LDA在自然語言處理中的使用主題模型（概率潛語義分析PLSA、隱含狄利克雷分布LDA）高斯混合模型Gaussian Mixture Model (GMM)——通過增加 Model 的個數，我們可以任意地逼近任何連續的概率密分布 lda 主題模型--TOPIC MODEL--Gibbslda++結果分析 LDA