高斯混合模型Gaussian Mixture Model (GMM)——通過增加 Model 的個數,我們可以任意地逼近任何連續的概率密分布


從幾何上講,單高斯分布模型在二維空間應該近似於橢圓,在三維空間上近似於橢球。遺憾的是在很多分類問題中,屬於同一類別的樣本點並不滿足“橢圓”分布的特性。這就引入了高斯混合模型。——可以認為是基本假設!

 

高斯混合模型Gaussian Mixture Model (GMM)

摘自:http://www.infocool.net/kb/Spark/201609/193351.html

      由於本文寫的不g夠完整詳細,給出一個學習鏈接: 
      http://www.cnblogs.com/CBDoctor/archive/2011/11/06/2236286.html 
       混合模型:通過密度函數的線性合並來表示未知模型 p(x
      為什么提出混合模型,那是因為單一模型與實際數據的分布嚴重不符,但是幾個模型混合以后卻能很好的描述和預測數據。 
       高斯混合模型(GMM),說的是把數據可以看作是從數個高斯分布中生成出來的。雖然我們可以用不同的分布來隨意地構造 XX Mixture Model ,但是 GMM是最為流行。另外,Mixture Model 本身其實也是可以變得任意復雜的,通過增加 Model 的個數,我們可以任意地逼近任何連續的概率密分布。 
      二維情況下高斯分布模擬產生數據的分布是橢圓,如下圖: 
這里寫圖片描述 
      顯然對於下面圖(a),單一的高斯概率分布函數無法表達,仔細看近似包含三個橢圓,所以可以將三個高斯概率分布函數線性組合起來,各個函數有不同的參數和權重,這樣就能很好的描述所有出現的這些樣本了。這大概是高斯混合模型可以用於分類的精髓所在吧?圖(b)已經明確了樣本分類。 
這里寫圖片描述
      求解方法為最大似然參數估計方法,EM優化算法,我將在《Spark2.0機器學習系列之8-2:…》中詳細介紹。 
      大家可能會想到,上圖(a)中的數據分布太具有實驗性質了,實際中那有這樣的數據,但GMM牛逼的地方就在於通過增加 Model 的個數(也就是組成成分的數量K,其實就是我們的分類個數),可以任意地逼近任何連續的概率密分布。所以呢,理論上是絕對支持的,而實際上呢,對於多維特征數據我們往往難以可視化,所以難把握的地方也就在這里,如何選取K 值?換句化說聚類(無監督分類)拿什么標准如何評估模型的好壞?因為如果對結果有好評價指標的話,那么我們就可以實驗不同的K,選出最優的那個K就好了,到底有沒有呢? 
      這個話題又比較長,有人認為聚類的評估一定要做預先標注,沒有Index總是讓人覺得不靠譜,不是很讓人信服。但是也有不同學者提出了大量的評估方法,主要是考慮到不同聚類算法的目標函數相差很大,有些是基於距離的,比如k-means,有些是假設先驗分布的,比如GMM,LDA,有些是帶有圖聚類和譜分析性質的,比如譜聚類,還有些是基於密度的,所以難以拿出一個統一的評估方法,但是正是有這么些個原理上的不同,記着不與算法本身的原理因果顛倒的情況下,那么針對各類方法還是可以提出有針對性的評價指標的,如k-means的均方根誤差。其實更應該嵌入到問題中進行評價,很多實際問題中,聚類僅僅是其中的一步,可以對比不聚類的情形(比如人為分割、隨機分割數據集等等),所以這時候我們評價『聚類結果好壞』,其實是在評價『聚類是否能對最終結果有好的影響』。(本部分來綜合了知乎上的部分問答:如有不妥之處,敬請告知。http://www.zhihu.com/question/19635522) 
      關於聚類的評估問題,我計划再寫另外一篇文章《Spark聚類結果評估淺析》,不知道能否寫好。 
CSDN上還有文章可參考: 聚類算法初探(七)聚類分析的效果評測 http://blog.infocool.net/itplus/article/details/10322361

//訓練模型
val gmm=new GaussianMixture().setK(2).setMaxIter(100).setSeed(1L) val model=gmm.fit(dataset) //輸出model參數 for(i<-0 until model.getK){ println("weight=%f\nmu=%s\nsigma=\n%s\n" format(model.weights(i), model.gaussians(i).mean, model.gaussians(i).cov)) //weight是各組成成分的權重 //nsigma是樣本協方差矩陣 //mu(mean)是各類質點位置 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM