一 、前提條件:
1.變量之間不存在多重共線性;
2.變量服從正態分布;
二、原理:
第一步,預聚類、准聚類過程:
構建聚類特征樹(CFT),分成很多子類。
開始時,把某個觀測量放在樹的根節點處,它記錄有該觀測量的變量信息,然后根據指定的距離測度作為相似性依據,使每個后續觀測量根據它與已有節點的相似性,放到最相似的節點中,如果沒有找到某個相似性的節點,就為它形成一個新的節點。
第二步,正式聚類:
將以第一步完成的預聚類作為輸入,對之使用分層聚類的方法進行再聚類(對數似然函數)。
每一個階段,利用施瓦茲貝葉斯信息准則(BIC)評價現有分類是否適合現有數據,
並在最后給出符合准則的分類方案。
三、優點:
1.海量數據處理;
2.自動標准化數據;
3.能夠處理分類變量和連續變量的混合數據;
4.可自動丟棄異常值或者將異常值歸入最近的類。
5.可自動確定或者根據業務需要人工指定分類數目;
