Mixture unigram Model, PLSA及LDA


Topic model 在搜索和廣告,用戶興趣理解,推薦系統中有着非常泛的應用。它可以成為retrieval的方法,成為點擊模型的信號,也是推薦系統中基於內容推薦的重要算法。Topic model最近這些年很火的原因是其在語料准備上比supervised model更容易,不需要人工的標注信息。對於我們應用模型的工程師而言,在原理上搞清楚幾種常見的topic model的區別很重要,雖然影響實際應用效果的因素更主要的與訓練語料,應用場景有關,但弄清幾個算法的區別是使用topic model的前提條件。 topic models中,對unigram model和PLSA的理解非常重要。LDA雖然推理方式最復雜,公式最多,但只是個紙老虎,個人覺得理解前兩者(及其區別)比理解后者也許更困難。

Naive Bayes和Mixture unigram Model

我們可以先想想如果做的是一個文本分類的問題,已知label及被observed的詞們。我們怎么解?svm? logistic regression? 思路對了,就用很直接的線性分類模型就行了。用logistic regression實際上是用下面的模型在訓練模型的參數(見下圖)

,如果是從generative model的角度,我們會用naive bayes. 但是如果大多數詞們在兩類中的分布區分性較高(P(w|c_1)>>P(w|c_2)),對於很多train/test sample就會有over confidence的問題。關於over confidence,可以舉這樣一個例子,兩個詞共同出現的概率很大( P(w_1,w_2|c_i) > P(w_1|c_i)P(w_2|c_i) ),另假設 P(w_1|c_1)=P(w_2|c_1)=0.1 P(w_1|c_2)=P(w_2|c_2)=0.01,求后驗P(t|w1,w2)時我們會過多的估計,求解

P(c_1|w_1,w_2)=\frac{P(c_1)P(w_1|c_1)P(w_2|c_1)}{\sum{P(c_i)P(w_1|c_i)P(w_2|c_i)}}=0.99

。但由於實際情況w1和w2共現的可能性遠比0.1*0.1來得大很多(極端情況下w1,w2總是共同出現,則后驗概率只有90%而已),所以這個估計太樂觀了。 更進一步地,如果沒有label,就是我們所說的mixture unigram model(見下圖)。

PLSA

前面提到了PLSA,按照各種論文中介紹PLSA基本都是從產生式模型着手,先選d,再先t,再選w,每次選擇都引入一個分布。有個簡單的解釋是P(W|d)可以看成P(W|t)的線性組合(simplex),這並不是從圖的角度來理解模型。從圖模型的角度,可以有兩種理解PLSA的方法,一種是論文中常用的方法,把表達document的隨機變量D引入,其實這個引入及把(d,w)當成一個事件,對於理解這個問題沒有任何好處。一個很簡單的疑問就是,我們如果把觀測看成是(d,w1,w2,w3..)而不是(d,w1) (d,w2) (d,w3),不是更符合現實嗎?這兩種理解有什么區別。其實把觀測看成什么都無所謂,從likelihood function或EM的后驗的形式看我們很容易知道這兩者是等價的。(d,w1,w2,w3)的方式容易讓人理解模型本身,(d,w1),(d,w2)…的方式容易讓人理解計算過程,也和LSA更接近一些。其實,如果我們把PLSA畫成下圖的形式,跟d沒有關系。

不論是unigram model還是PLSA,我們都可以用perplexity這個度量在訓練集和測試集上看模型likelihood function上對數據解釋的是否好.通常來說,如果模型中的topic數量相同, PLSA在訓練集上的perplexity會比unigram model好. PLSA為每個詞都設計了一個hidden topic,如果加一個約束,即一個document對應的topic必須相同,那么它等價於unigram model.

LDA

PLSA可能發生的問題是overfitting,加入multinomial的conjugate prior是解決overfitting的一個思路。嘗試對PLSA的參數加入一些先驗,就會得到LDA最基本的形式。理解LDA的難點不僅在於如何理解gibbs sampling 或是variation bayes 或EP. 而在於理解后驗P(T|W)無法拆解成P(t_j|w_i)來解. P(W)沒有閉式解,所以就只能依賴蒙特卡羅等方法做近似.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM