公式實在不好敲呀,我拍了我筆記上的公式部分。原諒自己小學生的字體(太丑了)。
聚類屬於無監督學習方法,典型的無監督學習方法還有密度估計和異常檢測。
聚類任務:將數據集中的樣本划分為若干個不相交的子集,每個子集為一個類。
性能指標(有效性指標):類內相似度高,類間相似度低。
性能度量:
(1)外部指標:
將性能結果C={Ci, i=1...k},與參考模型結果C*{C*i, i=1..s}進行對比(其中參考模型一般為專家根據經驗划分的類),得出一些參數:
根據這些參數算出不同的外部指標,這些指標都在0-1之間,且值越大越好
(2)內部指標:(只考慮聚類結果,有距離來定義各個參數)
- 距離計算
距離性質:
常用距離(范數):
1、閔可夫斯基距離:
2、曼哈頓距離:
3、歐氏距離(最常用):
3、VDM距離
4、閔可夫與VDM結合(混合屬性)
- 原型聚類
1、K-means(簡單又經典的聚類方法):
input:樣本集 D={xi, i=1...m},
k(欲分類類別個數)
output:划分為K類:C={Ci, i=1...k}
步驟:
(1)隨機選取K個樣本作為均值向量
(2)計算每個樣本與各均值向量的距離
(3)由剛剛划分出的類別求出新的均值向量,再重復步驟(2)
(4)直到n+1輪迭代與第n輪相同(相似),算法停止迭代
2、學習向量量化(Learning Vector Quantization, LVQ)
思路:找一組原型你向量刻畫聚類結構,但此算法假設數據樣本都是帶有類標記的。用樣本本身的類標記進行輔助聚類。
input:樣本集D={(xi,yi),i=1...m}
原型向量個數q,各原型向量預設類別標記{ti, i=1...q}
學習率:η
output:原型向量
步驟:
(1)初始化一組原型向量
(2)選取樣本,找到與其最近的原型向量(以距離刻畫)
(3)根據樣本本身類標記與原型類標記是否一致決定如何更新原型向量。
(4)更新公式:
(5)滿足條件(迭代次數或其他)后迭代停止。
3、高斯混合聚類
高斯分布(正態分布):
混合分布: