高斯混合模型GMM的C++實現


單高斯分布模型SGM

高斯密度函數估計是一種參數化模型。有單高斯模型(Single Gaussian Model, SGM)和高斯混合模型(Gaussian mixture model,GMM)兩類。類似於聚類,根據高斯概率密度函數(PDF,見公式1)參數的不同,每一個高斯模型可以看作一種類別,輸入一個樣本x,即可通過PDF計算其值,然后通過一個閾值來判斷該樣本是否屬於高斯模型。很明顯,SGM適合於僅有兩類別問題的划分,而GMM由於具有多個模型,划分更為精細,適用於多類別的划分,可以應用於復雜對象建模。

多維變量X服從高斯分布時,它的概率密度函數PDF為:

x是維度為d的列向量,u是模型期望,Σ是模型方差。在實際應用中u通常用樣本均值來代替,Σ通常用樣本方差來代替。很容易判斷一個樣x本是否屬於類別C。因為每個類別都有自己的u和Σ,把x代入(1)式,當概率大於一定閾值時我們就認為x屬於C類。

從幾何上講,單高斯分布模型在二維空間應該近似於橢圓,在三維空間上近似於橢球。遺憾的是在很多分類問題中,屬於同一類別的樣本點並不滿足“橢圓”分布的特性。這就引入了高斯混合模型。

高斯混合模型GMM

高斯混合模型是單一高斯機率密度函數的延伸,由於 GMM 能夠平滑地近似任意形狀的密度分布,因此近年來常被用在語音、圖像識別等方面,得到不錯的效果。

GMM認為數據是從幾個SGM中生成出來的,即

K需要事先確定好,就像K-means中的K一樣。πk是權值因子。其中的任意一個高斯分布N(x;ukk)叫作這個模型的一個component。這里有個問題,為什么我們要假設數據是由若干個高斯分布組合而成的,而不假設是其他分布呢?實際上不管是什么分布,只K取得足夠大,這個XX Mixture Model就會變得足夠復雜,就可以用來逼近任意連續的概率密度分布,只是因為高斯函數具有良好的計算性能,所GMM被廣泛地應用。

GMM是一種聚類算法,每個component就是一個聚類中心。即在只有樣本點,不知道樣本分類(含有隱含變量)的情況下,計算出模型參數(π,u和Σ),這可以用EM算法來求解。再用訓練好的模型去差別樣本所屬的分類,方法是:step1隨機選擇K個component中的一個(被選中的概率是πk);step2把樣本代入剛選好的component,判斷是否屬於這個類別,如果不屬於則回到step1。

樣本分類已知情況下的GMM

當每個樣本所屬分類已知時,GMM的參數非常好確定,直接利用Maximum Likelihood。設樣本容量為N,屬於K個分類的樣本數量分別是N1,N2,...,Nk,屬於第k個分類的樣本集合是L(k)。

樣本分類未知情況下的GMM

有N個數據點,服從某種分布Pr(x;θ),我們想找到一組參數θ,使得生成這些數據點的概率最大,這個概率就是

稱為似然函數(Lilelihood Function)。通常單個點的概率很小,連乘之后數據會更小,容易造成浮點數下溢,所以一般取其對數,變成

稱為log-likelihood function。

GMM的log-likelihood function就是:

這里每個樣本xi所屬的類別zk是不知道的。Z是隱含變量。

我們就是要找到最佳的模型參數,使得(6)式所示的期望最大,“期望最大化算法”名字由此而來。

EM估計GMM參數

1)初始值:

方案1:協方差矩陣Σk設為單位矩陣,每個模型比例的先驗概率πk=1/N,均值uk設為隨機數。

方案2:由k均值(k-means)聚類算法對樣本進行聚類,利用各類的均值作為uk,並計算Σk,πk取各類樣本占樣本總數的比例。

2)EM算法:

E-Step E就是Expectation的意思,就是假設模型參數已知的情況下求隱含變量Z分別取z1,z2,...的期望,亦即Z分別取z1,z2,...的概率。在GMM中就是求數據點由各個 component生成的概率。

注意到我們在Z的后驗概率前面乘以了一個權值因子αk,它表示在訓練集中數據點屬於類別zk的頻率,在GMM中它就是πk

M-Step M就是Maximization的意思,就是用最大似然的方法求出模型參數。現在我們認為上一步求出的r(i,k)就是“數據點xi由component k生成的概率”。根據公式(3),(4),(5)可以推出均值、協方差和權值的更新公式為:

3)收斂條件:

不斷地迭代E和M步驟,重復更新上面的三個值,直到參數的變化不顯著。

GMM的C++實現

C++代碼下載:GMM.rar

GitHub代碼:https://github.com/luxiaoxun/KMeans-GMM-HMM

代碼來自網絡,做了簡單的測試。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM