Mini Batch K-Means算法是K-Means算法的一種優化變種,采用小規模的數據子集(每次訓練使用的數據集是在訓練算法的時候隨機抽取的數據子集)減少計算時間,同時試圖優化目標函數; Mini Batch K-Means算法可以減少K- Means算法的收斂時間,而且產生的結果效果只是略差於標准K-Means算法
算法步驟如下:
●首先抽取部分數據集,使用K-Means算法構建出K個聚簇點的模型
●繼續抽取訓|練數據集中的部分數據集樣本數據,並將其添加到模型中,分配給距離最近的聚簇中心點
●更新聚簇的中心點值(每次更新都只用抽取出來的部分數據集)
●循環迭代第二步和第三步操作,直到中心點穩定或者達到迭代次數,停止計算操作
例如,10000個樣本,每次拿1000個樣本,做一次K-means,無放回。
再取1000個......