多元統計分析-聚類分析

本文轉載自查看原文 2018-12-23 14:53 600 機器學習-多元統計分析

聚類分析是一個迭代的過程

對於n個p維數據，我們最開始將他們分為n組

每次迭代將距離最近的兩組合並成一組

若給出需要聚成k類，則迭代到k類是，停止

計算初始情況的距離矩陣一般用馬氏距離或歐式距離

個人認為考試只考 1,2

比較有用的方法是3,4,5,8

最喜歡第8種

距離的計算

　　歐式距離

　　　　距離的二范數

　　馬氏距離

　　　　對於X₁, X₂ 均屬於N(u, Σ)

　　　　X₁,X₂的距離為 (X₁ - X₂) / sqrt(Σ)

那么不同的聚類方法其實也就是不同的計算類間距離的方法

1.最短距離法

　　計算兩組間距離時，將兩組間距離最短的元素作為兩組間的距離

2.最長距離法

　　將兩組間最長的距離作為兩組間的距離

3.中間距離法

　　將G_p,G_q合並成為G_r

　　計算G_r與G_k的距離時使用如下公式

　　D²_kr = 1/2 * D²_kp + 1/2 * D²kq + β * D²_pq

　　 β是提前給定的超參數-0.25<=β<=0

4.重心法

　　每一組都可以看成一組多為空間中點的集合，計算組間距離時，可使用這兩組點的重心之間的距離作為類間距離

　　若使用的是歐氏距離

　　那么有如下計算公式

　　D²_kr = n_p/n_r * D²_kp + n_q/n_r * D²kq - (n_p*n_q / n_r*n_r ) * D²_pq

5.類平均法

　　兩組之間的距離 = 組間每兩個樣本距離平方的平均值開根號

　　表達式為D²_kr = n_p/n_r * D²_kp + n_q/n_r * D²kq

6.可變類平均法

　　可以反映合並的兩類的距離的影響

　　表達式為D²_kr = n_p/n_r*(1- β) * D²_kp + n_q/n_r *(1- β) * D²kq + β*D²_pq

　　0<=β<1

7.可變法

　　D²_kr = (1- β)/2 * (D²_kp + D²_kq) + β*D²_pq

8.離差平方和法

　　這個方法比較實用

　　就是計算兩類距離的話，就計算，如果將他們兩類合在一起之后的離差平方和

　　因為若兩類本身就是一類，和本身不是一類，他們的離差平方和相差較大

　　離差平方和:類中每個元素與這一類中的均值距離的平方之和

　　若統一成之前的公式就是

　　D²_kr = (n_k + n_p)/(n_r + n_k) * D²_kp + (n_k + n_q)/(n_r + n_k) -(n_k)/(n_r + n_k) * * D²_pq

一些性質

　　除了中間距離法之外，其他的所有聚類方法都具有單調性

　　單調性就是指每次聚類搞掉的距離遞增

　　空間的濃縮和擴張

　　D(A)>=D(B) 表示A矩陣中的每個元素都不小於B

　　 D(短) <= D(平) <= D(長)

　　D(短，平) <= 0

　　D(長，平) >= 0

　　中間距離法無法判斷

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多元統計分析：典型習題多元統計分析01：多元統計分析基礎多元統計分析-判別分析 ORACLE的統計分析多元統計分析05：多元正態分布的假設檢驗(1) 多元統計分析06：多元正態分布的假設檢驗(2) 多元統計分析02：多元正態分布的定義和性質多元統計分析04：多元正態分布的抽樣分布多元統計分析03：多元正態分布的參數估計統計分析_頻度分析