混合高斯模型（Gaussian mixture model, GMM）

本文轉載自查看原文 2019-12-09 21:12 921 Object Detection

1. 前言

這就是為什么我要學習一下二維高斯分布的原因：

總感覺數學知識不夠用吶，順帶把混合高斯模型也回顧一下。

高斯分布（Gaussian distribution）有時也被稱為正態分布（normal distribution），是一種在自然界大量的存在的、最為常見的分布形式。

如果我們對大量的人口進行身高數據的隨機采樣，並且將采得的身高數據畫成柱狀圖，將會得到如下圖1所示的圖形。這張圖模擬展示了334個成人的統計數據，可以看出圖中最多出現的身高在180cm左右2.5cm的區間里。

一維高斯分布的概率密度函數如下：

其中 $\mu$ 為數據均值（期望）， $\sigma$ 為數據標准差（Standard deviation）。均值對應正態分布的中間位置，在本例中我們可以推測均值在180cm附近。標准差衡量了數據圍繞均值分散的程度。

上面的公式是概率密度函數，也就是在已知參數的情況下，輸入變量指x，可以獲得相對應的概率密度。還要注意一件事，就是在實際使用前，概率分布要先進行歸一化，也就是說曲線下面的面積之和需要為1，這樣才能確保返回的概率密度在允許的取值范圍內。

如果需要計算指定區間內的分布概率，則可以計算在區間首尾兩個取值之間的面積的大小。另外除了直接計算面積，還可以用更簡便的方法來獲得同樣的結果，就是減去區間x對應的累積密度函數（cumulative density function，CDF）。因為CDF表示的是數值小於等於x的分布概率。

高斯混合模型是對高斯模型進行簡單的擴展，GMM使用多個高斯分布的組合來刻畫數據分布。

舉例來說：

想象下現在咱們不再考察全部用戶的身高，而是要在模型中同時考慮男性和女性的身高。假定之前的樣本里男女都有，那么之前所畫的高斯分布其實是兩個高斯分布的疊加的結果。相比只使用一個高斯來建模，現在我們可以用兩個（或多個）高斯分布

其中， $\mu$ 為數據均值（期望）， $\Sigma$ 為協方差（Covariance），D 為數據維度。

高斯混合模型可以看作是由 K 個單高斯模型組合而成的模型，這 K 個子模型是混合模型的隱變量（Hidden variable）。一般來說，一個混合模型可以使用任何概率分布，這里使用高斯混合模型是因為高斯分布具備很好的數學性質以及良好的計算性能。

舉個不是特別穩妥的例子，比如我們現在有一組狗的樣本數據，不同種類的狗，體型、顏色、長相各不相同，但都屬於狗這個種類，此時單高斯模型可能不能很好的來描述這個分布，因為樣本數據分布並不是一個單一的橢圓，所以用混合高斯分布可以更好的描述這個問題，如下圖所示

首先定義如下信息：

$x_{j}$ 表示第 $j$ 個觀測數據， $j = 1,2,...,N$
$K$ 是混合模型中子高斯模型的數量， $k = 1,2,...,K$
$\alpha_{k}$ 是觀測數據屬於第 $k$ 個子模型的概率， $\alpha_{k} \geq 0$ ， $\sum_{k=1}^{K}{\alpha_{k}} = 1$
$\phi(x|\theta_{k})$ 是第 $k$ 個子模型的高斯分布密度函數， $\theta_{k} = (\mu_{k}, \sigma_{k}^{2})$ 。其展開形式與上面介紹的單高斯模型相同
$\gamma_{jk}$ 表示第 $j$ 個觀測數據屬於第 $k$ 個子模型的概率