機器學習之聚類

本文轉載自查看原文 2018-05-06 12:16 890 機器學習

公式實在不好敲呀，我拍了我筆記上的公式部分。原諒自己小學生的字體（太丑了）。

聚類屬於無監督學習方法，典型的無監督學習方法還有密度估計和異常檢測。

聚類任務：將數據集中的樣本划分為若干個不相交的子集，每個子集為一個類。

性能指標（有效性指標）：類內相似度高，類間相似度低。

性能度量：

（1）外部指標：

將性能結果C={C_i,i=1...k},與參考模型結果C^*{C^*_i, i=1..s}進行對比（其中參考模型一般為專家根據經驗划分的類），得出一些參數：

根據這些參數算出不同的外部指標，這些指標都在0-1之間，且值越大越好

（2）內部指標：（只考慮聚類結果，有距離來定義各個參數）

距離性質：

常用距離（范數）：

1、閔可夫斯基距離：

2、曼哈頓距離：

3、歐氏距離（最常用）：

3、VDM距離

4、閔可夫與VDM結合（混合屬性）

1、K-means（簡單又經典的聚類方法）：

input：樣本集 D={x_i,i=1...m},

k（欲分類類別個數）

output：划分為K類：C={C_i,i=1...k}

步驟：

（1）隨機選取K個樣本作為均值向量

（2）計算每個樣本與各均值向量的距離

（3）由剛剛划分出的類別求出新的均值向量，再重復步驟（2）

（4）直到n+1輪迭代與第n輪相同（相似），算法停止迭代

2、學習向量量化（Learning Vector Quantization, LVQ）

思路：找一組原型你向量刻畫聚類結構，但此算法假設數據樣本都是帶有類標記的。用樣本本身的類標記進行輔助聚類。

input：樣本集D={（x_i,y_i),i=1...m}

原型向量個數q，各原型向量預設類別標記{t_i,i=1...q}

學習率：η

output：原型向量

步驟：

（1）初始化一組原型向量

（2）選取樣本，找到與其最近的原型向量（以距離刻畫）

（3）根據樣本本身類標記與原型類標記是否一致決定如何更新原型向量。

（4）更新公式：

（5）滿足條件（迭代次數或其他）后迭代停止。

3、高斯混合聚類

高斯分布（正態分布）：

混合分布：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 機器學習-聚類Clustering 機器學習——聚類算法機器學習--聚類系列--層次聚類機器學習-層次聚類（划分聚類）機器學習——層次聚類算法【機器學習】---密度聚類從初識到應用 8.機器學習之聚類算法機器學習-文本聚類實例-kmeans 圖解機器學習 | 聚類算法詳解 5.機器學習——DBSCAN聚類算法