聚類分析是根據對象的特性對其進行定量分類的一種多元統計方法。 比如:不同地區城鎮居民收入和消費狀況的分類研究;區域經濟及社會發展水平的分析及全國區域經濟綜合評價.......
通常聚類分析分為Q型聚類分析和R型聚類分析。
Q型聚類分析:對樣品的分類;
R型聚類分析:對變量的分類。
通常聚類之前,要首先分析樣品(或變量)間的相似性。
樣品相似性度量(距離):明氏距離(歐式距離、絕對值距離、切比雪夫距離)、馬氏距離。
變量相似性度量(相似系數):夾角余弦、相關系數
距離越小(相似系數越大),樣品(變量)相似性越大
系統聚類法的過程是:假設總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n 1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n 2類;……,以上步驟一直進行下去;最后將所有的樣品(或變量)全聚成一類。為了直觀反映系統聚類過程,可以將整個聚類過程繪制一張圖,圖稱為譜系圖或樹狀結構圖。 常用的系統聚類法:最短距離法、最長距離法、組間類平均法、組內類平均法、重心法、中間法、Ward法
系統聚類法是一種比較成功的聚類方法。然而當樣本點數量十分龐大時,則是一件非常繁重的工作,且聚類的計算速度也比較慢。此時K-均值聚類就會顯得方便,適用。 K均值法是麥奎因(MacQueen,1967)提出的,這種算法的基本思想是將每一個樣品分配給最近中心(均值)的類中,具體的算法至少包括以下三個步驟: 1.確定類別數目k 2.將所有的樣品分成K個初始類; 3.通過歐氏距離將某個樣品划入離中心最近的類中,並對獲得樣品 與失去樣品的類,重新計算中心坐標; 4.重復步驟2,直到所有的樣品都不能再分配時為止。
例:
系統聚類:
快速聚類
分類情況如下: 第一類:阿富汗、中國、印度、印度尼西亞、馬來西亞、老撾、菲律賓、泰國 第二類:澳門、新加坡 第三類:香港、以色列、日本、沙特、韓國
由上表可知:第一類國家和地區的經濟水平相對較低,人口老齡化程度也相對較輕。第二類國家和地區的經濟水平較高,同時人口老齡化程度嚴重。第三類國家和地區的經濟水平居中,人口老齡化程度較重。