了解主題模型,一般都會提到幾種最基礎的生成模型:Unigram model、Mixture of unigram,pLSA,接下來簡單介紹一下他們之間的區別:
1.Unigram model
左圖可知,一篇文檔由詞生成,每個詞有其出現的概率,所有詞概率的乘積即得到生成文檔的概率。
2.Mixture of unigram
相比unigram多了一層主題的條件概率,在各主題下出現的所有詞的概率乘積之和即為生成文檔的概率。
3.pLSA
plsa與mix unigram的區別是給定了多個可能的主題,另外該模型與LDA相比,是沒有詞分布和話題分布對應的共軛分布狄利克雷分布,即
4.textrank
可以提取文本的關鍵詞、摘要等