K-Means算法的收斂性和如何快速收斂超大的KMeans？

本文轉載自查看原文 2017-06-08 22:55 8806 機器學習/深度學習

　　不多說，直接上干貨！

　　面試很容易被問的：K-Means算法的收斂性。

　　在網上查閱了很多資料，並沒有看到很清晰的解釋，所以希望可以從K-Means與EM算法的關系，以及EM算法本身的收斂性證明中找到蛛絲馬跡，下次不要再掉坑啊。

EM算法的收斂性

通過EM算法來找到似然函數的極大值，思路如下：
希望找到最好的參數

令

(對於log函數的Jensen不等式)

此處輸入圖片的描述

　　盡量使

對於EM的目標來說：應該使得

由上面的推導，可以得出EM的框架：
此處輸入圖片的描述

回到最初的思路，尋找一個最好的

　　通過上面的分析，我們可以知道，在EM框架下，求得的參數

　　假設使用平方誤差作為目標函數：

　　固定參數

　　固定數據點的分配，更新參數（中心點）

　　所以，答案有了吧。為啥K-means會收斂呢？目標是使損失函數最小，在E-step時，找到一個最逼近目標的函數

如何快速收斂超大的KMeans？

　　最近，被一個牛人問道了這個問題：超億個節點，進行KMeans的聚類，每次迭代都要進行K×億的運算，如何能讓這個迭代快速的收斂？

　　當場暈倒，從來沒有考慮過這些問題，基礎的數據挖據算法不考慮超大級別的運算問題。

　　回來想了想，再看看Mahout的KMeans的實現方法，覺得可以這么解決.

　　1. 第一次迭代的時候，正常進行，選取K個初始點，然后計算所有節點到這些K的距離，再分到不同的組，計算新的質心；

　　2. 后續迭代的時候，在第m次開始，每次不再計算每個點到所有K個質心的距離，僅僅計算上一次迭代中離這個節點最近的某幾個（2到3）個質心的距離，決定分組的歸屬。對於其他的質心，因為距離實在太遠，所以歸屬到那些組的可能性會非常非常小，所以不用再重復計算距離了。

　　3. 最后，還是用正常的迭代終止方法，結束迭代。

這個方法中，有幾個地方需要仔細定義的。

　　第一，如何選擇m次？過早的話，后面的那個歸屬到遠距離組的可能性會增加；過晚，則收斂的速度不夠。

　　第二，如何選擇最后要比較的那幾個質心點數？數量過多則收斂的速度提高不明顯，過少則還是有可能出現分組錯誤。

這兩個問題應該都沒有標准答案，就如同K值的選取。我自己思考的基本思路可以是:

　　1. 從第三次開始就開始比較每次每個質心的偏移量，亦即對於收斂的結束的標准可以划分兩個閾值，接近優化的閾值（比如偏移范圍在20%）和結束收斂的閾值（比如偏移范圍在10%以內）。m次的選擇可以從達到接近優化的閾值開始。

　　2. 選擇比較的質心點數可以設定一個閾值，比較一個點到K個質心的距離，排序這些距離，或者固定選取一個數值，比如3個最近的點，或者按最近的20%那些質心點。

　　這些就是基本的思路。歡迎大家討論。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 K-Means 聚類算法 K-means聚類算法 K-Means算法總結 K-Means聚類算法 K-means聚類算法聚類算法：K-Means k-means算法概述聚類算法(K-means聚類算法) EM算法（1）：K-means 算法 K-means算法Java實現