EM及高斯混合模型 - 碼上歡樂

相關內容簡體繁體

EM及高斯混合模型

本文轉載自查看原文 2012-08-06 14:45 68499 GSM/ GMM/ EM/ DataMining

本文就高斯混合模型（GMM,Gaussian Mixture Model）參數如何確立這個問題，詳細講解期望最大化（EM,Expectation Maximization）算法的實施過程。

單高斯分布模型GSM

多維變量X服從高斯分布時，它的概率密度函數PDF為：

x是維度為d的列向量，u是模型期望，Σ是模型方差。在實際應用中u通常用樣本均值來代替，Σ通常用樣本方差來代替。很容易判斷一個樣x本是否屬於類別C。因為每個類別都有自己的u和Σ，把x代入（1）式，當概率大於一定閾值時我們就認為x屬於C類。

從幾何上講，單高斯分布模型在二維空間應該近似於橢圓，在三維空間上近似於橢球。遺憾的是在很多分類問題中，屬於同一類別的樣本點並不滿足“橢圓”分布的特性。這就引入了高斯混合模型。

高斯混合模型GMM

GMM認為數據是從幾個GSM中生成出來的，即

K需要事先確定好，就像K-means中的K一樣。$\pi_k$是權值因子。其中的任意一個高斯分布N(x;u_k,Σ_k)叫作這個模型的一個component。這里有個問題，為什么我們要假設數據是由若干個高斯分布組合而成的，而不假設是其他分布呢？實際上不管是什么分布，只K取得足夠大，這個XX Mixture Model就會變得足夠復雜，就可以用來逼近任意連續的概率密度分布。只是因為高斯函數具有良好的計算性能，所GMM被廣泛地應用。

GMM是一種聚類算法，每個component就是一個聚類中心。即在只有樣本點，不知道樣本分類（含有隱含變量）的情況下，計算出模型參數（π，u和Σ）----這顯然可以用EM算法來求解。再用訓練好的模型去差別樣本所屬的分類，方法是：step1隨機選擇K個component中的一個（被選中的概率是$\pi_k$）；step2把樣本代入剛選好的component，判斷是否屬於這個類別，如果不屬於則回到step1。

樣本分類已知情況下的GMM

當每個樣本所屬分類已知時，GMM的參數非常好確定，直接利用Maximum Likelihood。設樣本容量為N，屬於K個分類的樣本數量分別是N₁,N₂,...,N_k，屬於第k個分類的樣本集合是L(k)。

樣本分類未知情況下的GMM

有N個數據點，服從某種分布Pr(x;θ)，我們想找到一組參數θ，使得生成這些數據點的概率最大，這個概率就是

稱為似然函數（Lilelihood Function）。通常單個點的概率很小，連乘之后數據會更小，容易造成浮點數下溢，所以一般取其對數，變成

稱為log-likelihood function。

GMM的log-likelihood function就是：

這里每個樣本x_i所屬的類別z_k是不知道的。Z是隱含變量。

我們就是要找到最佳的模型參數，使得(6)式所示的期望最大，“期望最大化算法”名字由此而來。

EM法求解

EM要求解的問題一般形式是

Y是隱含變量。

我們已經知道如果數據點的分類標簽Y是已知的，那么求解模型參數直接利用Maximum Likelihood就可以了。EM算法的基本思路是：隨機初始化一組參數θ⁽⁰⁾，根據后驗概率Pr(Y|X;θ)來更新Y的期望E(Y)，然后用E(Y)代替Y求出新的模型參數θ⁽¹⁾。如此迭代直到θ趨於穩定。

E-Step E就是Expectation的意思，就是假設模型參數已知的情況下求隱含變量Z分別取z₁,z₂,...的期望，亦即Z分別取z₁,z₂,...的概率。在GMM中就是求數據點由各個 component生成的概率。

注意到我們在Z的后驗概率前面乘以了一個權值因子α_k，它表示在訓練集中數據點屬於類別z_k的頻率，在GMM中它就是π_k。

M-Step M就是Maximization的意思，就是用最大似然的方法求出模型參數。現在我們認為上一步求出的r(i,k)就是“數據點x_i由component k生成的概率”。根據公式(3),(4),(5)可以推出：

與K-means比較

相同點：都是可用於聚類的算法；都需要指定K值。

不同點：GMM可以給出一個樣本屬於某類的概率是多少。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 混合高斯模型（Mixtures of Gaussians）和EM算法 EM算法和高斯混合模型GMM介紹 EM算法原理以及高斯混合模型實踐高斯混合和EM算法 4. EM算法-高斯混合模型GMM詳細代碼實現 5. EM算法-高斯混合模型GMM+Lasso 高斯混合聚類及EM實現高斯混合模型（GMM）采用EM算法對高斯混合模型（GMM）進行參數估計 EM算法求高斯混合模型參數預計——Python實現

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM