1. 概述
系統聚類法也稱為多層次聚類法,分類的單位由高到低呈樹狀結構,且所處的位置越低其包含的樣本點就越少,共同特征越多。這種方法適合於數據量較小的情況,當數據量較大時系統聚類法的速度較慢。
2. 算法核心思想
其做法是開始時把每個樣品作為一類,然后把最靠近的兩個或若干個樣品(即距離最小的群品)首先聚為小類,再將已聚合的小類按其類間距離合並(兩兩或若干),不斷繼續下去,最后把一切子類都聚合到一個大類。
3. 算法實現步驟
以n個樣本的聚類分析為例,系統聚類法的步驟如下:
1、將數據標准化。
2、計算n個樣本兩兩之間的距離。
3、將每個樣本歸為一類,根據計算出的樣本間的距離合並距離最近的兩類為一個新類。
4、再計算新類與其他各類的距離,同樣再根據計算出的距離合並距離最近的兩類為一個新類。
5、循環以上過程直至類別個數為1。
6、畫出各階段的聚類圖並決定類別的個數。
常用的空間距離有:絕對值距離、歐氏距離、切比雪夫距離、馬氏距離和蘭氏距離等。