文本主題模型之LDA(一) LDA基礎 文本主題模型之LDA(二) LDA求解之Gibbs采樣算法 文本主題模型之LDA(三) LDA求解之變分推斷EM算法 在前面我們講到了基於矩陣分解的LSI和NMF主題模型,這里我們開始討論被廣泛使用的主題模型:隱含 ...
在文本挖掘中,主題模型是比較特殊的一塊,它的思想不同於我們常用的機器學習算法,因此這里我們需要專門來總結文本主題模型的算法。本文關注於潛在語義索引算法 LSI 的原理。 . 文本主題模型的問題特點 在數據分析中,我們經常會進行非監督學習的聚類算法,它可以對我們的特征數據進行非監督的聚類。而主題模型也是非監督的算法,目的是得到文本按照主題的概率分布。從這個方面來說,主題模型和普通的聚類算法非常的類 ...
2017-05-04 14:40 42 25252 推薦指數:
文本主題模型之LDA(一) LDA基礎 文本主題模型之LDA(二) LDA求解之Gibbs采樣算法 文本主題模型之LDA(三) LDA求解之變分推斷EM算法 在前面我們講到了基於矩陣分解的LSI和NMF主題模型,這里我們開始討論被廣泛使用的主題模型:隱含 ...
在前面我們講到了基於矩陣分解的LSI和NMF主題模型,這里我們開始討論被廣泛使用的主題模型:隱含狄利克雷分布(Latent Dirichlet Allocation,以下簡稱LDA)。注意機器學習還有一個LDA,即線性判別分析,主要是用於降維和分類的,如果大家需要了解這個LDA的信息,參看之前寫 ...
文本主題模型之LDA(一) LDA基礎 文本主題模型之LDA(二) LDA求解之Gibbs采樣算法 文本主題模型之LDA(三) LDA求解之變分推斷EM算法 本文是LDA主題模型的第二篇,讀這一篇之前建議先讀文本主題模型之LDA(一) LDA ...
得知李航老師的《統計學習方法》出了第二版,我第一時間就買了。看了這本書的目錄,非常高興,好家伙,居然把主題模型都寫了,還有pagerank。一路看到了馬爾科夫蒙特卡羅方法和LDA主題模型這里,被打擊到了,滿滿都是數學公式。LDA是目前為止我見過最復雜的模型了。 找了培訓班的視頻看,對LDA模型 ...
在文本主題模型之潛在語義索引(LSI)中,我們講到LSI主題模型使用了奇異值分解,面臨着高維度計算量太大的問題。這里我們就介紹另一種基於矩陣分解的主題模型:非負矩陣分解(NMF),它同樣使用了矩陣分解,但是計算量和處理速度則比LSI快,它是怎么做到的呢? 1. 非負矩陣分解(NMF)概述 ...
上一篇總結了潛在語義分析(Latent Semantic Analysis, LSA),LSA主要使用了線性代數中奇異值分解的方法,但是並沒有嚴格的概率推導,由於文本文檔的維度往往很高,如果在主題聚類中單純的使用奇異值分解計算復雜度會很高,使用概率推導可以使用一些優化迭代算法來求解 ...
;不同的是,LSA 將詞和文檔映射到潛在語義空間,從而去除了原始向量空間中的一些“噪音”,提高了信息檢索的精 ...
文本主題模型之LDA(一) LDA基礎 文本主題模型之LDA(二) LDA求解之Gibbs采樣算法 文本主題模型之LDA(三) LDA求解之變分推斷EM算法 本文是LDA主題模型的第三篇,讀這一篇之前建議先讀文本主題模型之LDA(一) LDA ...