混合高斯分布與 EM 算法


概率論中的 Jensen 不等式

對於 Jensen 不等式,通常情況下是這樣的:對於 \(f^{\prime \prime}(x) \geq 0\) 也就是對於凸函數而言,這個可以用中值定理來證明,同時這個公式還可以用於證明多項式的均值不等式與調和不等式,這里就不給出證明了,在概率的條件下就是:實際上,這就是均值不等式來的啊, E 表示數學期望

\[\mathrm{E}[f(X)] \geq f(\mathrm{E} X) \]

EM 算法講了什么

對於下面的第一行的式子, 本質上這個式子是函數隱變量的, 將這些隱變量顯示的寫出來就是下面的第二行的式子:

\[\begin{aligned} \ell(\theta) &=\sum_{i=1}^{N} \log p(x ; \theta) \\ &=\sum_{i=1}^{N} \log \sum_{z} p(x, z ; \theta) \end{aligned} \]

現在,我們假設對於每一個 $ i $ , \(Q_{i}\) 表示 $ z $ 的分布,那么我們有 \(\sum_{z} Q_{i}(z)=1, Q_{i}(z) \geq0\) 。然后我們使用 Jensen 不等式將上面的式子進行放縮,寫成下面的這樣形式,

\[\begin{aligned} \ell(\theta) =\sum_{i} \log p\left(x^{(i)} ; \theta\right) &=\sum_{i} \log \sum_{z^{(i)}} p\left(x^{(i)}, z^{(i)} ; \theta\right) \\ &=\sum_{i} \log \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)} \\ & \geq \sum_{i} \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)} \end{aligned} \]

這里的 \(Q_{i}\) 應該就是 EM 算法不斷的迭代的關鍵。

上面的式子表明 \(\ell(\theta)\) 有一個下界,從極大似然的角度考慮,我們就是要最大化這個下界,得到 $ \theta $ 的取值,但是其中的 \(Q_{i}\) 是一個隱變量的分布,我們並不知道這個分布是什么樣子的。

上面使用 Jensen 不等式關鍵的一步是:

\[f\left(\mathrm{E}_{z^{(i)} \sim Q_{i}}\left[\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}\right]\right) \geq \mathrm{E}_{z^{(i)} \sim Q_{i}}\left[f\left(\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}\right)\right] \]

這個式子取等式的時候,對於數學期望而言,只有常數可以滿足數學期望中的 Jensen 不等式相等。這里不做具體的證明,我們可以考慮從均值不等式來理解這個問題,假設這個常數是 $ c$ :

\[\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}=c \]

也就是說:

\[Q_{i}\left(z^{(i)}\right) \propto p\left(x^{(i)}, z^{(i)} ; \theta\right) \]

我們知道:\(\sum_{z} Q_{i}\left(z^{(i)}\right)=1\) ,那么我可以考慮這樣的情況:

\[1 = \sum{Q_i\left( z^{\left( i \right)} \right)} \propto \sum{p\left( x^{\left( i \right)},z^{\left( i \right)};\theta \right) } = \sum_{z} p\left(x^{(i)}, z^{\left(i \right)} ;\ \theta\right) \]

這樣的話,就有下面的公式:

\[\begin{aligned} Q_{i}\left(z^{(i)}\right) &=\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{\sum_{z} p\left(x^{(i)}, z^{\left(i \right)} ; \theta\right)} \\ &=\frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{p\left(x^{(i)} ; \theta\right)} \\ &=p\left(z^{(i)} | x^{(i)} ; \theta\right) \end{aligned} \]

這一步我們稱為 E 步驟,可以得到等式成立的條件, \(Q_{i}\left(z^{(i)}\right) :=p\left(z^{(i)} | x^{(i)} ; \theta\right)\) ,下界成立的條件,我們將這個條件帶入 $\ell(\theta) $ 得到的結果就是下界,也就是說,這個是最大似然函數的條件之一, 我們需要最大似然的就是:那么我們可以用下面的步驟來計算 $ \theta$ ,

\[\theta :=\arg \max _{\theta} \sum_{i} \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)} \]

那么這個 $ \theta$ 是不是最優的呢?接下來我們來證明 EM 算法中一個很關鍵的問題,那就是上述的 E 步驟與 M 步驟不斷放縮與收斂,最終得到最優的 $ \theta$ 的值。

所以 EM 算法的步驟可以表示成下面這樣:

  1. 函數聲明 \(\operatorname{EM}\left(p_{Y, C}(y, c ; \theta), p_{C | Y}(c | y ; \theta), \theta^{(0)}\right)\)
  2. for iteration \(t \in 1,2, \ldots\) do
  3. \(Q_{i}^{(t)} \leftarrow P\left(z_i | x_i ; \theta^{(t-1)}\right) \quad(\text { E-step })\)
  4. \(\theta^{(t)} \leftarrow \operatorname{argmax}_{\theta} \mathbb{E}_{Q_{i}^{(t)}}\left[P(y, C ; \theta)\right] \quad\left(\mathrm{M}{-\mathrm{Step}}\right)\)
  5. if \(\theta^{(t)} \approx \theta^{(t-1)}\) then
  6. return $\theta^{(t)} $

EM 算法的收斂問題證明

這個收斂的思想是這樣的:我們的 $ \theta $ 是直接通過極大似然函數算出的來的。那么 EM 算法迭代的步驟就是,我們不斷地最大化極大似然估計函數,也就是說 我們每次都最大化了 \(\ell\left(\theta^{(t)}\right)\) 的下界,只有保證 \(\ell\left(\theta^{(t)}\right) \leq \ell\left(\theta^{(t+1)}\right)\) , 這樣就會不斷地逼近最優解, 說明算法是正確的。在 EM 迭代的過程中,我們不斷改變是 \(Q_{i}\) 也就是分布函數的選擇(我們本質是更新 \(\theta\) , 改變 \(\theta\) 等價於改變 \(Q_i\) ),

為了更好的說明,假設上一步我們已經得到了一個最優解 \(\ell\left(\theta^{(t)}\right)\) 以及 $ \theta^{(t)} $ 那么在這一步,我們滿足下面的情況:

\[Q_{i}^{(t)}\left(z^{(i)}\right) :=p\left(z^{(i)} | x^{(i)} ; \theta^{(t)}\right) \ \ \ Jensen不等式條件\\ 用於計算 \ell\left(\theta^{(t+1)}\right) \]

\[\ell\left(\theta^{(t)}\right)=\sum_{i} \sum_{z^{(i)}} Q_{i}^{(t)}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta^{(t)}\right)}{Q_{i}^{(t)}\left(z^{(i)}\right)} \]

而更新的參數 \(\theta^{(t+1)}\) 就是來自最大化上面右邊的式子, 那么我們可以推出下面的不等式:

\[\begin{aligned} \ell\left(\theta^{(t+1)}\right) & \geq \sum_{i} \sum_{z^{(i)}} Q_{i}^{(t)}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta^{(t+1)}\right)}{Q_{i}^{(t)}\left(z^{(i)}\right)} \\ & \geq \sum_{i} \sum_{z^{(i)}} Q_{i}^{(t)}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta^{(t)}\right)}{Q_{i}^{(t)}\left(z^{(i)}\right)} \\ &=\ell\left(\theta^{(t)}\right) \end{aligned} \]

對於上面的兩個不等式做出以下解釋:

  1. 第一個不等式來自 Jensen 不等式,原式是這樣的:\(\ell(\theta) \geq \sum_{i} \sum_{z^{(i)}} Q_{i}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta\right)}{Q_{i}\left(z^{(i)}\right)}\) 對任意的$ Q_i $ 與\(\theta\) 均成立,這里為什么對任意的 \(\theta\) 都成立, 是因為 \(Q\) 本質也是由 \(\theta\) 決定的.
  2. 對於第二個不等式, 就是我們前面 M 步驟的結果, 最大化下面的極大似然函數的時候得到$ \theta^{(t+1)}$ 所以第二個式子顯然:

\[\sum_{i} \sum_{z^{(i)}} Q_{i}^{(t)}\left(z^{(i)}\right) \log \frac{p\left(x^{(i)}, z^{(i)} ; \theta^{(t)}\right)}{Q_{i}^{(t)}\left(z^{(i)}\right)} \]

綜上證明了 EM 算法的收斂性問題

混合高斯分布

在一般的情況下,對於所得到的樣本集,\(X=\left\{x_{1}, \dots, x_{N}\right\}\),我們的目標是最大化似然函數,通過最大化似然函數來獲取參數的值。這是似然函數往往取對數表示就是:

\[\begin{aligned} L(\theta | X) &=\log \left(\prod_{i=1}^{N} p\left(x_{i} | \theta\right)\right) \\ &=\sum_{i=1}^{N} \log p\left(x_{i} | \theta\right) \end{aligned} \]

這個過程的參數估計可以描述成:

\[\hat{\theta}=\arg \max _{\theta} L(\theta | X) \]

這個結果是可以直接計算出來的,那么引入混合高斯分布會是什么樣呢?

混合高斯分布:

簡單的說就是,非混合的情況下,我們的數據集滿足高斯分布,這樣用極大似然就直接算出高斯分布中的參數就可以了。那么混合的情況下就是,數據集是由多個滿足高斯分布的數據集線性組合起來,這個時候我們理解為:有 \(k\) 個滿足不同參數的高斯分布的原數據集,並且 \(\sum_{j=1}^{k} \pi_{j}=1\).

此時:

\[p(\boldsymbol{x})=\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right) \]

舉個例子說明:

我們假設男生的身高符合正態分布, \(\mathcal{N_1}\left(\boldsymbol{\mu}_{1}, \boldsymbol{\Sigma}_{1}\right)\) 女生的身高符合正態分布 \(\mathcal{N_2}\left(\boldsymbol{\mu}_{2}, \boldsymbol{\Sigma}_{2}\right)\) , 現在我們得到一個關於身高的樣本數據集, 但是不知道男生與女生的比例, 要擬合這個身高數據集符合哪種分布, 這里就可以使用混合高斯分布,

\[p(\boldsymbol{x})= \pi_{1} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{1}, \boldsymbol{\Sigma}_{1}\right) + \pi_{2} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{2}, \boldsymbol{\Sigma}_{2}\right) \]

其中 \(\pi_1\)\(\pi_2\) 就表示男生與女生的比例. 也表示 \(p(x)\) 對不同高斯分布的可能性,

在上面的問題中, \(\pi_1\)\(\pi_2\) 是未知參數 , 那么這個例子與一個問題很類似, 那就是貝葉斯分布的問題, 如果我們在已知后驗概率的情況下, 就可以很簡單的計算先驗概率了, 也就是說, 如果我們已知男生滿足的高斯分布的參數, \(\mu_1\)\({\Sigma}_{1}\) 和 女生高斯分布的參數 \(\mu_2\)\({\Sigma}_{2}\) , 這時就可以反過來使用貝葉斯計算出 \(\pi_1\)\(\pi_2\) 的值.

混合高斯分布與貝葉斯

對於一個混合高斯分布來說, \(\pi_1, \pi_2, \dots, \pi_n\) 對這個分布來說也是未知參數, 這里我們從貝葉斯的角度來改寫這個未知參數的形式, 這樣做的目的是為了更好的使用下面的 EM 算法以及 EM 算法的計算方式, 對於上面的 \(N\) 維混合高斯分布, 我們取一個向量\(N\) 維向量 \({z}\) 表示取得的, 其中 $ z_k(1 \leq k \leq K) $, 只能取 0 與 1 兩個值, 其中 \(p(z_i == 1)\) 表示第 i 中高斯分布被選中的概率, 而 \(p(z_i = 0)\) 表示未被選中的概率, 那么用向量 \(z\) 表示混合高斯分布就有兩種方式, 一種是類似於

\[[1,1,1,0,0,\dots, 1, 0, 1] \]

的形式, 這樣直接使用向量的乘法的到概率,

而另一種是

\[[0,1,0, 0\dots, \dots, 0] \]

的形式, 這里只有一個 \(z_i\) 為 1, 因為我們要使用貝葉斯分布, 反過來使用全概率公式, 所以我們使用第二種形式, 在這種形式下, \(z_i\) 之間是相互獨立的, 所以 \(z\) 向量的概率可以寫成:

\[p(\boldsymbol{z})=p\left(z_{1}\right) p\left(z_{2}\right) \ldots p\left(z_{K}\right)=\prod_{k=1}^{K} \pi_{k}^{z_{k}} \]

然后對應於 \(z_i\) 的那一個分布是服從高斯分布的, 可以將對應的 \(z_i\) 分布的概率表示如下:

\[p\left(\boldsymbol{x} | z_{i}=1\right)=\mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right) \]

進而上式有可以寫成如下形式:

\[p(\boldsymbol{x} | \boldsymbol{z})=\prod_{i=1}^{N} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)^{z_{i}} \]

我們知道, 在向量 \(z\) 中, 假設 \(z_j = 1\) 那么對於所有的 \(z_i (i\neq j)\) 都有 \(z_i = 0\), 所以上式成立很顯然, 我們得到了 \(p(z)\)\(p(x|z)\) 就可以得到 \(p(x)\) 的公式了:

\[\begin{aligned} p(\boldsymbol{x}) &=\sum_{\boldsymbol{z}} p(\boldsymbol{z}) p(\boldsymbol{x} | \boldsymbol{z}) \\ &=\sum_{\boldsymbol{z}}\left(\prod_{k=1}^{K} \pi_{k}^{z_{k}} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)^{z_{k}}\right) \\ &=\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right) \end{aligned} \tag{1} \]

公式 (1) 本質上使用的是全概率公式, 因為向量 \(z\) 的表示方式我們取的是第二種, 上式中 \(p(z)p(x|z)\) 的結果是 \(p(x,z)\) 所以要用全概率公式相加, 從上面的式子我們驚奇的發現, 我們 \(p(x)\) 改寫成了后驗概率的形式, 因為我們划分了所有的 \(z_i\) , 在不同的向量 \(z\) 的基礎上得到的概率 \(p(x)\), 這時反過來就可以求先驗概率:

\[\begin{aligned} \gamma\left(z_{i}\right) &=p\left(z_{i}=1 | \boldsymbol{x}\right) \\ &=\frac{p\left(z_{i}=1\right) p\left(\boldsymbol{x} | z_{i}=1\right)}{p\left(\boldsymbol{x}, z_{i}=1\right)} \\ &=\frac{p\left(z_{i}=1\right) p\left(\boldsymbol{x} | z_{i}=1\right)}{\sum_{j=1}^{N} p\left(z_{j}=1\right) p\left(\boldsymbol{x} | z_{j}=1\right)}(\text { 全概率公式 }) \\ &=\frac{\pi_{i} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{\boldsymbol{i}}\right)}{\sum_{j=1}^{N} \pi_{j} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)}(\text {結合}(1) . \end{aligned} \tag{2} \]

EM 算法用於混合高斯分布

前面的 EM 算法是一般情況下的 EM 算法求解以及證明的過程, 那么在實際的計算的過程中, EM 算法求解 GMM 問題是什么樣的呢? 下面的公式 (3) 是基本的公式,

\[p(\boldsymbol{x|\pi, \mu, \Sigma})=\sum_{k=1}^{K} \pi_{i} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right) \tag{3} \]

這個公式與 EM 算法最終的最大化的公式是一樣的(因為 Jensen 不等式的條件), 所以對這個公式求極大似然,

\[\prod_{i}^{N} p(\boldsymbol{x|\pi, \mu, \Sigma}) = \prod_{n}^{N} \sum_{i}^{N} \pi_{i} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right) \tag{4} \]

然后對這個公式求對數, 以及求偏導, 可以很容易得到下面的公式:

\[0=-\sum_{n=1}^{N} \frac{\pi_{i} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{j} \pi_{j} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)} \boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{n}-\boldsymbol{\mu}_{i}\right) \tag{5} \]

對於公式(5), 前面部分是通常的對數求導, 將 \(\sum^{K} \pi_{i} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)\) 放在分母, 然后后面的 \(\boldsymbol{\Sigma}_{i}^{-1}\left(\boldsymbol{x}_{n}-\boldsymbol{\mu}_{i}\right)\) 就是一維的正態分布的求導公式, 這樣就可以求出 \(\mu_i\) 的值了,

\[\boldsymbol{\mu}_{i}=\frac{1}{N_{i}} \sum_{n=1}^{N} \gamma\left(z_{n i}\right) \boldsymbol{x}_{n} \tag{6.1} \]

其中

\[N_i = \sum_{n=1}^N \gamma\left(z_{n i}\right) \tag{6.2} \]

對上面公式的解釋:

  1. \(\gamma\left(z_{n i}\right)\) 表示對於樣本 \(x_n\) 屬於第 \(i\) 類的概率, 在男生女生問題中就是對於某一個樣本屬於男生或者女生的概率
  2. \(N_i\) 就是對於所有樣本, 屬於第 \(i\) 類的概率的個數總和
  3. \(\mu_i\) 就將這個值進行加權平均, 在公式 6.1 中, \(x_n\) 表示權值, \(\gamma\left(z_{n i}\right)\) 表示概率

同理, 使用極大似然的方法可以求得:

\[\boldsymbol{\Sigma}_{i}=\frac{1}{N_{i}} \sum_{n=1}^{N} \gamma\left(z_{n i}\right)\left(x_{n}-\boldsymbol{\mu}_{i}\right)\left(x_{n}-\boldsymbol{\mu}_{i}\right)^{T} \]

最后是 \(\pi_1, \pi_2, \dots, \pi_n\) , 這個的極大值是條件極大值, 條件限制是 \(\sum_{1}^{N} \pi_i = 1\) , 也就是在求偏導的時候需要加入拉格朗日算子, 使用拉格朗日乘子法:

\[\ln p(\boldsymbol{x} | \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})+\lambda\left(\sum_{i=1}^{N} \pi_{i}-1\right) \tag{7.1} \]

求上式關於 \(\pi_i\) 的極大似然函數, 得到:

\[0=\sum_{n=1}^{N} \frac{\mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{j} \pi_{j} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)}+\lambda \tag{7.2} \]

公式 7.2 求導的過程就是, 第一部分與前面對 \(\mu\) 求導類似, 這里分子不變很顯然, 對於結果兩邊同乘以 \(\pi_i\) 得到:

\[0=\sum_{n=1}^{N} \frac{\pi_{i} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{j} \pi_{j} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)}+\lambda \pi_{i} \]

結合公式 (2) 可以得到:

\[0 = N_i + \lambda \pi_i \\ 0 = \sum_{i = 1}^{N} N_i + \lambda \sum_{i=1}^{N} \pi_i \\ 0 = N+k \tag{7.3} \]

最終得到就是:

\[\pi_i = \frac{N_i}{N} \]

EM 算法求解的迭代過程

EM 算法的不斷迭代收斂過程就是不斷地計算 E 步驟與 M 步驟, 直到期望的似然函數收斂,

E Step

根據當前的 \(\pi_i\) , \(\mu_i\) , \(\Sigma_i\) 計算:

\[y(z_nk) = \frac{\pi_{i} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}{\sum_{j}^{N} \pi_{j} \mathcal{N}\left(\boldsymbol{x}_{n} | \boldsymbol{\mu}_{j}, \boldsymbol{\Sigma}_{j}\right)} \]

同時需要記錄的值為:

\[p(\boldsymbol{x})=\sum_{i=1}^{N} \pi_{i} \mathcal{N}\left(\boldsymbol{x} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right) \]

M Step

使用上面的公式更新參數:

\[\boldsymbol{\mu}_{i+1}=\frac{1}{N_{i}} \sum_{n=1}^{N} \gamma\left(z_{n i}\right) \boldsymbol{x}_{n} \\ \boldsymbol{\Sigma}_{i+1}=\frac{1}{N_{i}} \sum_{n=1}^{N} \gamma\left(z_{n i}\right)\left(x_{n}-\boldsymbol{\mu}_{i}\right)\left(x_{n}-\boldsymbol{\mu}_{i}\right)^{T} \\\\ \pi_{i+1} = \frac{N_i}{N} \tag{8} \]

其中:

\[N_i = \sum_{n=1}^N \gamma\left(z_{n i}\right) \tag{6.2} \]

最后再計算,

\[\ln p(\boldsymbol{x} | \boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})=\sum_{n=1}^{N} \ln \left\{\sum_{i=1}^{N} \pi_{i} \mathcal{N}\left(\boldsymbol{x}_{i} | \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)\right\} \]

判斷是否收斂, 不收斂, 返回至 E Step, 然后在 M Step 繼續更新, 直到收斂.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM