[x-means] 1.x-means簡介

本文轉載自查看原文 2015-08-01 07:39 3891 聚類算法/ x-means

本文基於《X-means》和《BIC-notes》（原論文中BIC公式有誤，這是對BIC的補充）

\(BIC(\phi)=\hat{l_{\phi}}(D)-\frac{p_{\phi}}{2}\cdot log\ R\)
其中\(\phi\)表示模型，\(\hat{l_{\phi}}(D)\)為likelihood，\(p_{\phi}\)為模型的復雜度（自由參數個數）
X-means的假設：identical spherical assumption
數據由X個高斯函數殘生，每個高斯函數有一樣的方差\(\sigma\)(每個維度上的變量不相關，協方差矩陣為\(diag(\sigma)\))、不同的\(\mu_i\)；
數據生成時，根據概率\(p_i\)選擇一個高斯函數\(g_i\)，然后生成一個點
所以似然函數為：
\(l_{\phi}(D) = \sum_{i=1}^R [log\ p(g_{(i)})+log\ p(x_i)]\)
其中\(p(g_{(i)})\)為生成點\(x_i\)的高斯函數被選到的概率
計算BIC，需要計算最大化的\(\hat{l_{\phi}}(D)\),所以需要對參數進行估計
\(p(g_k)=\frac{R_k}{R}\)
\(\sigma^2=\frac{1}{MR}\sum_{k=1}^{K}\sum_{x_i\in D_k}{\left\|x_i-\mu_k\right\|}^2\)
文中使用無偏估計，即\(\sigma^2=\frac{1}{M(R-K)}\sum_{k=1}^{K}\sum_{x_i\in D_k}{\left\|x_i-\mu_k\right\|}^2\)
\(p_{\phi}\)自由參數個數
K-1個高斯函數選擇到的概率，MK 個每個高斯函數每個維度上的mean，1個方差
所以\(p_{\phi}=(M+1)K\)

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 K-means與K-means++ K-Means ++ 算法 sklearn k-means K-means Algorithm k-means++ 聚類-K-Means fuzzy c-means K-Means++算法 K-means 算法 K-Means算法