GSDMM是一種基於狄利克雷多項式混合模型的收縮型吉布斯采樣算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的簡稱,它是發表在2014年KDD上的論文《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》的數學模型。
GSDMM主要用於短文本聚類,短文本聚類是將大量的短文本(例如微博、評論等)根據計算某種相似度進行聚集,最終划分到幾個類中的過程。GSDMM主要具備以下優點:
1. 可以自動推斷聚類的個數,並且可以快速地收斂;
2. 可以在完備性和一致性之間保持平衡;
3.可以很好的處理稀疏、高緯度的短文本,可以得到每一類的代表詞匯;
4. 較其它的聚類算法,在性能上表現更為突出
《A Dirichlet Multinomial Mixture Model-based Approach for Short Text Clustering》中應用狄利克雷多項式混合模型(DMM)於短文本聚類中,可以很好地處理短文本的稀疏和高緯度的問題,並且可以得到每個類的代表詞匯。再對DMM采用收縮型吉布斯采樣算法,對於短文本聚類可以得到很好的表現。同時,GSDMM可以很好地平衡聚類結果的完備性和一致性從而自動推斷類的個數且可以快速地收斂。
方法
用Movie Group Process(MGP) 來類比,電影討論課程的教授要將學生分為不同的組,並且希望在同一個組的學生看過同一部電影,因此他們有更多的東西可以討論。教授要求學生在幾分鍾之內寫下他們看過的電影。(由於時間限制,寫下的電影列表不會太長,更多可能是他們近期觀看或最喜歡的電影)。學生看過的電影表示要分類的文檔,教授需要找到一個方法將學生根據其電影列表分為不同的組。相同的組的學生具有相似的電影列表,不同的組的學生的電影列表不相同。
GSDMM短文本聚類聚類
1. 假設在初始階段,我們將文檔分類的個數指定為K, 根據文獻當中表示,在實驗中,這個K值通常比實際類的個數要大。
2. 對於每一篇文檔,用d表示,對d進行分類的概率服從多項式分布,比如將d分類到標簽為z的族,更新該族的文檔數、字數和每個字的出現次數的統計結果,也就是在原來的基礎 上,文檔數+1,字數加上文檔d的字數,該類每個字的統計結果加上d對應字的統計信息。
3. 在分類完成后,對下面操作進行迭代:
對於每篇文檔,同樣用d表示,記錄它所分類的標簽z1, 在該類z1中剔除文檔d,更新z1的相關參數 那么就該重新為d指定一個類了,此時分類的概率服從以標簽z1剔除d和d為先 驗條件的條件概率分布。這其實就是一個吉布斯采樣的過程,重新指定類的標簽z2, 更新相關的參數。
用通熟語言怎么講共軛先驗?狄利克雷分布?多項式分布?吉布斯采樣?
先驗概率:事情還沒有發生,要求這件事發生的可能性的大小
后驗概率:事情已經發生,要求這件事發生的原因是由某一個因素引起的可能性的大小。
共軛先驗: 如果某個隨機變量的后驗概率和其先驗概率屬於同一分布族,那么后驗概率和先驗概率互為共軛分布。
貝塔分布:beta分布式模擬取值范圍是從0到1時的模型的參數的分布。用拋硬幣舉例,比如拋出頭的概率的為x, 則拋出字的概率為1-x
比如拋了5次,其中兩次人頭,三次文字,概率值為 p = x^2*(1-x)^3, 對x 的估計值服從beta分布。
狄利克雷分布:狄利克雷是貝塔分布的推廣,是多項分布的共軛分布,也就是它與多項分布具有相同的分布函數
二項分布:n重伯努利試驗成功次數的離散概率分布
多項分布:為二項分布的推廣
吉布斯采樣:每一個涉及到將一個變量的值替換為以剩余變量的值為條件,從這個概率分布中抽取的那個變量的值。比如我們采樣的概率分布p(z) = p(z1, z2, z3,…,zm), 因此我們將zi替換為從概率分布p(zi|z\i)中抽取的值,其中zi表示 z的第i個元素,那么z\i表示從z1, z2,…, zm中去掉zi這一項。
