1.GMM(guassian mixture model)
混合高斯模型,顧名思義,就是用多個帶有權重的高斯密度函數來描述數據的分布情況。理論上來說,高斯分量越多,極值點越多,混合高斯密度函數可以逼近任意概率密度函數,刻畫模型越精確,需要的訓練數據也就越多。
2.GMM
模型初始化:
即模型參數的初始化,一般采用kmeans或者LBG算法。
模型初始化值對模型后期的收斂有極大影響,特別是訓練模型的數據太少或者不充分時,現象尤其突出,會造成模型不收斂,甚至訓練參數出現NAN。
解決辦法:1.一方面擴大誤差范圍,這樣會造成訓練好的模型區分度不好。
2.LGB算法或者Kmeans減小胞腔數目或者或者分段數。
3.推薦 限制最小方差,避免出現完全不收斂,出現NAN情況(因為方差最小,根據概率密度公式可知,概率出現無窮大,再次迭代時,會出現NAN。從另一個角度解釋:某幾個高斯訓練迭代越滾越大,以至於某些高斯分量或者說是小數據分布區越來越窄,方差越來越小,逼近0,導致出現NAN)。
模型訓練:
模型訓練一般采用 EM算法。
模型識別:
識別就是利用訓練好的模型參數,將待識別數據(特征)與各個高斯模型做概率匹配,若A類概率最高,則判別為A類。
3.GMM應用
(1)GMM聚類
就像VQ聚類、Kmeans、LBG聚類一樣。
(2)GMM分類
同樣地,VQ、Kmeans、LBG也能進行分類,不同的是,GMM是軟判決,前三種是硬性判決。
聚類與分類的區別:聚類可以說是訓練模型的過程,用訓練好的參數,刻畫訓練數據分布。
分類可以說是識別數據的過程,判斷數據屬於哪個模型(前提是模型已經訓練好)。