K-Means 聚類分析學習筆記


在之前分享的鏈家二手房數據分析的練習中用到了 K-Means 聚類分析方法,所以就順道一起復習一下 K-Means 的基礎知識好了。

K-Means 聚類分析可將樣本分為若干個集群,它的核心思想就是使某集群的數據點與其對應的中心之間的距離最小。所以 K-Means 聚類分析通常會假設已知集群的中心或者至少已知集群的數目。

當觀測對象包含缺失值時,那么在 K-Means 聚類分析的過程中會把該觀測對象除外。

比如說,對於一個有 p 個變量 n 個觀察值的矩陣 X 而言,我們可以指定一個 K * P 的矩陣為初始中心,或者直接在矩陣 X 中選取 K * P 個中心。

K-Means 聚類分析包含兩個重要的過程。第一個是選取初始中心,第二個是根據中心歸類分組。

>> 選取初始中心


若假設將樣本分為 K 個集群,那么: 1. 將前 K 個觀測值設為集群中心 2. 遍歷其余觀測值。若該觀測值與其最近的中心點的距離大於任意兩個相隔最近的中心的距離,則新的觀測值替代這兩個原中心中距離較近的中心成為新的集群中心。說的一頭霧水的吧……還是看看圖吧。

01

比如說,某個樣本具有 6 個初始中心。當循環比較至點 a 時,可以發現點 a 到中心 6 的距離大於中心 6 與中心 5 之間的距離,於是點 a 取代離它較近的中心 6 成為新的中心。

>> 歸類觀測值


利用歐式距離將每個觀測值歸入到離它最近的集群中。

02

比如說將觀測值 i 歸入到集群 k 中,那么觀測值 i 和集群 k 的距離校正值為:

03

觀測值和其他集群(集群 j )的距離校正值為:

04

如果觀測值與集群 j 的距離校正值是相較於其他集群而言最小,且小於該觀測值目前所處的集群 k 的距離,那么將觀測值 i 歸入集群 j,並且更新每個集群的中心為其群內所有觀測值的均值。

不斷重復以上步驟,直至迭代次數達到上線或者兩次更新中心后的集群內平方和之差小於閾值。
05


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM