機器學習之聚類


公式實在不好敲呀,我拍了我筆記上的公式部分。原諒自己小學生的字體(太丑了)。

 

聚類屬於無監督學習方法,典型的無監督學習方法還有密度估計和異常檢測。

聚類任務:將數據集中的樣本划分為若干個不相交的子集,每個子集為一個類。

性能指標(有效性指標):類內相似度高,類間相似度低。

性能度量:

(1)外部指標:

 將性能結果C={Ci, i=1...k},與參考模型結果C*{C*i, i=1..s}進行對比(其中參考模型一般為專家根據經驗划分的類),得出一些參數:

根據這些參數算出不同的外部指標,這些指標都在0-1之間,且值越大越好

(2)內部指標:(只考慮聚類結果,有距離來定義各個參數)

  • 距離計算

距離性質:

常用距離(范數):

1、閔可夫斯基距離:

2、曼哈頓距離:

3、歐氏距離(最常用):

3、VDM距離

4、閔可夫與VDM結合(混合屬性)

 

  • 原型聚類

1、K-means(簡單又經典的聚類方法):

input:樣本集 D={xi, i=1...m},

           k(欲分類類別個數)

output:划分為K類:C={Ci, i=1...k}

步驟:

(1)隨機選取K個樣本作為均值向量

(2)計算每個樣本與各均值向量的距離

(3)由剛剛划分出的類別求出新的均值向量,再重復步驟(2)

(4)直到n+1輪迭代與第n輪相同(相似),算法停止迭代

2、學習向量量化(Learning Vector Quantization, LVQ)

思路:找一組原型你向量刻畫聚類結構,但此算法假設數據樣本都是帶有類標記的。用樣本本身的類標記進行輔助聚類。

input:樣本集D={(xi,yi),i=1...m}

           原型向量個數q,各原型向量預設類別標記{ti, i=1...q}

          學習率:η

output:原型向量

步驟:

(1)初始化一組原型向量

(2)選取樣本,找到與其最近的原型向量(以距離刻畫)

(3)根據樣本本身類標記與原型類標記是否一致決定如何更新原型向量。

(4)更新公式:

(5)滿足條件(迭代次數或其他)后迭代停止。

3、高斯混合聚類

高斯分布(正態分布):

混合分布:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM