聚類——認識GMM算法
作者:凱魯嘎吉 - 博客園 http://www.cnblogs.com/kailugaji/
一、GMM概述
二、GMM算法步驟
三、具體推導參考文獻
1. 李航. 統計學習方法[M]. 清華大學出版社, 2012.
2. Bishop C M. Pattern Recognition and Machine Learning (Information Science and Statistics)[M]. Springer-Verlag New York, Inc. 2006.
注:GMM數學公式推導用到了貝葉斯公式、條件期望公式、拉格朗日乘數法、極大似然估計、參數估計。概率論與數理統計的內容居多,事先應掌握概率論與數理統計基本內容。
四、總結
1. GMM算法中間參數估計部分用到了EM算法,EM算法分為兩步:
(1)E步:求目標函數期望,更多的是求目標函數取對數之后的期望值。
(2)M步:使期望最大化。用到極大似然估計,拉格朗日乘數法,對參數求偏導,最終確定新的參數。
2.K-means,FCM與GMM算法參數估計的數學推導思路大體一致,都先確立目標函數,然后使目標函數最大化的參數取值就是迭代公式。
3.三個算法都需要事先指定k。K-means與FCM中的k指的是要聚的類的個數,GMM算法中的k指的是k個單高斯混合模型。
4.三個算法流程一致:
(1)通過一定的方法初始化參數(eg:隨機,均值······)
(2)確立目標函數
(3)通過一定的方法使目標函數最大化,更新參數迭代公式(eg:EM,粒子群······)
(4)設置一定的終止條件,使算法終止。若不滿足條件,轉向(3)
補充:GMM的MATLAB代碼:https://github.com/kailugaji/Gaussian_Mixture_Model_for_Clustering