高斯混合模型GMM的C++實現

本文轉載自查看原文 2013-05-10 18:30 10933 算法/ 高斯混合模型/ GMM/ Research

單高斯分布模型SGM

高斯密度函數估計是一種參數化模型。有單高斯模型（Single Gaussian Model, SGM）和高斯混合模型（Gaussian mixture model，GMM）兩類。類似於聚類，根據高斯概率密度函數（PDF，見公式1）參數的不同，每一個高斯模型可以看作一種類別，輸入一個樣本x，即可通過PDF計算其值，然后通過一個閾值來判斷該樣本是否屬於高斯模型。很明顯，SGM適合於僅有兩類別問題的划分，而GMM由於具有多個模型，划分更為精細，適用於多類別的划分，可以應用於復雜對象建模。

多維變量X服從高斯分布時，它的概率密度函數PDF為：

x是維度為d的列向量，u是模型期望，Σ是模型方差。在實際應用中u通常用樣本均值來代替，Σ通常用樣本方差來代替。很容易判斷一個樣x本是否屬於類別C。因為每個類別都有自己的u和Σ，把x代入（1）式，當概率大於一定閾值時我們就認為x屬於C類。

從幾何上講，單高斯分布模型在二維空間應該近似於橢圓，在三維空間上近似於橢球。遺憾的是在很多分類問題中，屬於同一類別的樣本點並不滿足“橢圓”分布的特性。這就引入了高斯混合模型。

高斯混合模型GMM

高斯混合模型是單一高斯機率密度函數的延伸，由於 GMM 能夠平滑地近似任意形狀的密度分布，因此近年來常被用在語音、圖像識別等方面，得到不錯的效果。

GMM認為數據是從幾個SGM中生成出來的，即

K需要事先確定好，就像K-means中的K一樣。π_k是權值因子。其中的任意一個高斯分布N(x;u_k,Σ_k)叫作這個模型的一個component。這里有個問題，為什么我們要假設數據是由若干個高斯分布組合而成的，而不假設是其他分布呢？實際上不管是什么分布，只K取得足夠大，這個XX Mixture Model就會變得足夠復雜，就可以用來逼近任意連續的概率密度分布，只是因為高斯函數具有良好的計算性能，所GMM被廣泛地應用。

GMM是一種聚類算法，每個component就是一個聚類中心。即在只有樣本點，不知道樣本分類（含有隱含變量）的情況下，計算出模型參數（π，u和Σ），這可以用EM算法來求解。再用訓練好的模型去差別樣本所屬的分類，方法是：step1隨機選擇K個component中的一個（被選中的概率是π_k）；step2把樣本代入剛選好的component，判斷是否屬於這個類別，如果不屬於則回到step1。