聚類分析（一）：相似性度量

本文轉載自查看原文 2021-04-07 22:43 352 聚類分析

1.歐式距離

衡量樣本間相似性和差異性的方法就是計算兩個樣本之間的距離。
對於距離，我們最熟悉的莫過於歐式距離，設\(a=(x_1,x_2,\cdots,x_n),b=(y_1,y_2,\cdots,y_n)\),那么\(a\)和\(b\)的歐式距離定義為：

\[ d(a,b)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \tag{1} \]

歐式距離有許多缺點，比如會受到距離單位的影響。針對這些影響，在計算距離之前需要對數據進行標准化，假設有\(m\)個樣本依次為\(x^{(1)},x^{(2)},\cdots,x^{(m)}\)；每個樣本有n個特征：\(x^{(j)}=(x_1^{(j)},x_2^{(j)},\cdots,x_n^{(j)})\)。那么第\(k\)個特征的樣本均值，樣本標准差可表示為：

\[\bar{X}_k=\frac{1}{m}\sum_{i=1}^mx^{(i)}_k \tag{2} \]

\[S_k=[\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}_k-\bar{X}_k)^2]^{1/2} \tag{3} \]

對於每個數據可以進行標准化處理：

\[y_k^{(i)}=\frac{x_k^{(i)}-\bar{X}_k}{S_k} \tag{4} \]

2.馬氏距離

馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的，表示點與一個分布之間的距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是，它考慮到各種特性之間的聯系（例如：一條關於身高的信息會帶來一條關於體重的信息，因為兩者是有關聯的），並且是尺度無關的(scale-invariant)，即獨立於測量尺度。（百度抄的）
馬氏距離的定義：
設總體\(G\)的均值向量為\(\mu\),協方差矩陣為\(\Sigma\),\(X\),\(Y\)為總體中的兩個樣本。
\(X\)和\(Y\)的距離定義為

\[d_m^2(X,Y)=(X-Y)^T\Sigma^{-1}(X-Y). \tag{5} \]

\(X\)和總體\(G\)的距離定義為

\[d_m^2(X,G)=(X-\mu)^T\Sigma^{-1}(X-\mu) \tag{6} \]

3.指標距離

y有時不僅需要對樣品進行分類，也需要對指標進行分類。衡量指標距離常用到的是相似系數，用\(C_{ij}\)表示指標\(i\)和指標\(j\)的相似系數，\(C_{ij}\)的絕對值趨向於0時，表示指標關系越疏遠，\(C_{ij}\)的絕對值趨向於1時，表示指標關系越密切。常用到的相似系數有夾角余弦和相關系數。

（1）夾角余弦

從幾何圖形中的啟發而來，定義為：

\[C_{ij}(1)=\frac{\sum_{k=1}^mx_i^{(k)}x_j^{(k)}}{[\sum_{k=1}^m(x_i^{(k)})^2\sum_{k=1}^m(x_j^{(k)})^2]^{1/2}}\tag{7} \]

(2) 相關系數

相關系數可以理解為數據標准化后的夾角余弦。

\[C_{ij}(2)=\frac{\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)(x_j^{(k)}-\bar{X}_j)}{[\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)^2\sum_{k=1}^m(x_j^{(k)}-\bar{X}_j)^2]^{1/2}}\tag{8} \]

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 時間序列分析 | 相似性度量基本方法向量的相似性度量特征相似性度量（原）直方圖的相似性度量樣本間相似性度量距離相似性度量方法收集相似性度量 - 數據挖掘算法（2）機器學習各種相似性度量及Python實現相似性度量(Similarity Measurement)與“距離”(Distance) 余弦距離、歐氏距離和傑卡德相似性度量的對比分析