聚類分析(層次聚類分析(Q型聚類和R型聚類)、快速聚類分析)
聚類分析的實質:是建立一種分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。這里所說的類就是一個具有相似性的個體的集合,不同類之間具有明顯的區別。
聚類分析的特點:聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標准,聚類分析能夠從樣本數據出發,自動進行分類。
1.層次聚類分析
定義:層次聚類分析是根據觀察值或變量之間的親疏程度,將最相似的對象結合在 一起,以逐次聚合的方式(Agglomerative Clustering),它將觀察值分類,直到最后所有樣本都聚成一類。
分類:層次聚類分析有兩種形式,一種是對樣本(個案)進行分類,稱為Q型聚類;另一種是對研究對象的觀察變量進行分類,稱為R型聚類。
1.1Q型聚類
定義:層次聚類分析中的Q型聚類,它使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析。
層次聚類分析中,測量樣本之間的親疏程度是關鍵。聚類的時候會涉及到兩種類型親疏程度的計算:一種是樣本數據之間的親疏程度,一種是樣本數據與小類、小類與小類之間的親疏程度。
小類:是在聚類過程中根據樣本之間親疏程度形成的中間類,小類和樣本、小類與小類繼續聚合,最終將所有樣本都包括在一個大類中。
樣本數據之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數來度量。
連續變量的樣本距離測量方法:歐氏距離、歐氏距離平方、Chebychev距離、Block距離、Minkowski距離、Customized距離(用戶自定義距離)、Pearson相關系 數、Sosine相似度
順序或名義變量的樣本親疏程度測量方法:Chi-square measure、Phi-square measure
樣本數據與小類、小類與小類之間的親疏程度測量方法:最短距離法、最長距離法、類間平均鏈鎖法、類內平均鏈鎖法、重心法、離差平方和法
SPSS操作
1.2R型聚類
定義:層次聚類分析中的R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量聚在一起。以便可以從不同類中分別選出具有代表性的變量 作分析,從而減少分析變量的個數。
R型聚類的計算公式和Q型聚類的計算公式是類似的,不同的是R型聚類是對變量間進行距離的計算,Q型聚類則是對樣本間進行距離的計算。
SPSS操作
2.快速聚類分析
定義:快速聚類分析是由用戶指定類別數的大樣本資料的逐步聚類分析。它先對數據進行初始分類,然后逐步調整,得到最終分類。
快速聚類分析的實質是 K-Mean聚類。
在快速聚類分析中,用戶可以自己指定初始的類中心點。
SPSS操作