1. 打開數據,依次選擇 分析-> 分類 -> K-均值聚類…

2. 將分類的關鍵變量選入,這里以PM2.5和O3的監測數據為例。

3. 單擊 迭代…,將 最大迭代次數設置成一個將大的數值,單機 繼續

4. 單擊 保存…,勾選 聚類成員和與聚類中心的距離,單擊 繼續

5. 單擊 選項…,勾選 統計中的所有選項,缺失值中選擇 成列排除個案,單擊 繼續

6. 聚類數設置為5,單擊確定

7. 結果解讀:迭代歷史記錄,反應了迭代過程中聚類中心的變動情況。第10次無變動,說明算法收斂。

8. 結果解讀:最終聚類中心,是個各類的均值,可用於之后的分類。

9. 結果解讀:最終聚類中心之間的距離,可用於分析聚類情況是否合適,是否有必要減少或增加類的數量

10. 結果解讀:ANOVA(單因素方差分析),可根據F值大小近似得到變量對聚類的貢獻,如下表說所示,重要程度排序為 O3_OBS > PM25_OBS,同時 二者的顯著性均低於0.05,均對聚類有顯著的貢獻。

11 .結果解讀:每個聚類中的個案數目,統計各類別數目及缺失情況。

12. 聚類結果,會保存在數據表中,QCL_1標注個案的類別,QCL_2表示個案與聚類中心的距離

13. 可視化,依次選擇 圖形 -> 圖表構建器…

14. 選擇 散點圖/點圖 中的分組散點圖,將其拖入繪圖展示區中

15. 將O3_OBS和PM25_OBS分別拖入橫軸和縱軸

16. 將個案聚類編號拖入設置顏色方框中,單擊確定

17. 繪圖效果如下所示,可以直觀展示聚類效果。

參考資料:
https://www.sohu.com/a/208536450_109461
https://blog.csdn.net/weixin_44255182/article/details/108969852
