定義

聚類分析（Cluster Analysis）又稱群分析，是根據“物以類聚”的道理，對樣品或指標進行分類的一種多元統計分析方法，它們討論的對象是大量的樣品，要求能合理地按各自的特性來進行合理的分類，沒有任何模式可供參考或依循，即是在沒有先驗知識的情況下進行的。聚類分析起源於分類學，在古老的分類學中，人們主要依靠經驗和專業知識來實現分類，很少利用數學工具進行定量的分類。

例題

為了研究世界各國森林、草原資源的分布規律，共抽取了21個國家的數據，每個國家3項指標，見下表1。請進行聚類分析。

表1數據表

國別	森林覆蓋率（%）	林木蓄積量（億立方米）	草原面積（萬公頃）
中國	12.5	93.5	31908
美國	30.4	202.0	23754
日本	67.2	24.8	58
德國	28.4	14.0	599
英國	8.6	1.5	1147
法國	26.7	16.0	1288
意大利	21.1	3.6	514
加拿大	32.7	192.8	2385
澳大利亞	13.9	10.5	45190
前蘇聯	41.1	841.5	37370
捷克	35.8	8.9	168
波蘭	27.8	11.4	405
匈牙利	17.4	2.5	129
南斯拉夫	36.3	11.4	640
羅馬尼亞	26.7	11.3	447
保加利亞	34.7	2.5	200
印度	20.5	29.0	1200
印尼	84.0	33.7	1200
尼日利亞	16.1	0.8	2090
墨西哥	24.6	32.6	7450
巴西	67.6	238.0	15900

k均值聚類

[X,data] = xlsread('data5.xlsx');
Xval = zscore(X);%數據標准化
val1 = pdist(Xval);% 距離
val2 = linkage(val1);% 變量之間的鏈接
val3 = cophenet(val2,val1);% 評價聚類
T=cluster(val2,4);% 創建聚類，4類
H=dendrogram(val2);% 制作譜系圖

可以看到T值，整個已經被分成了4類

因此，分類為：

{10},{21},{3,18},{其他}

即：{前蘇聯}，{巴西}，{日本，印尼}，{其他國家}

系統聚類

使用SPSS導入數據

使用系統聚類，首先對數據進行標准化處理（Z得分）之后，使用系統分類（勾選譜系圖）可以得到

將系數提取出來，降序繪制成折線圖

從圖中我們可以看出，k=4開始，折線下降趨勢變緩。因此，根據譜系圖我們可以得到分類：

中國澳大利亞美國
日本印尼巴西
前蘇聯
德國，波蘭等其他國家

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 SPSS聚類分析 SPSS-聚類分析 SPSS聚類分析：K均值聚類分析利用SPSS對數據做系統聚類分析聚類分析詳解聚類分析案例 Mahout聚類分析 Mahout聚類分析實驗12-SPSS-聚類分析-公司員工績效評估 python聚類分析