聚類分析(一):相似性度量


1.歐式距離

   衡量樣本間相似性和差異性的方法就是計算兩個樣本之間的距離。
   對於距離,我們最熟悉的莫過於歐式距離,設\(a=(x_1,x_2,\cdots,x_n),b=(y_1,y_2,\cdots,y_n)\),那么\(a\)\(b\)的歐式距離定義為:

\[ d(a,b)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \tag{1} \]

   歐式距離有許多缺點,比如會受到距離單位的影響。針對這些影響,在計算距離之前需要對數據進行標准化,假設有\(m\)個樣本 依次為\(x^{(1)},x^{(2)},\cdots,x^{(m)}\);每個樣本有n個特征:\(x^{(j)}=(x_1^{(j)},x_2^{(j)},\cdots,x_n^{(j)})\)。那么第\(k\)個特征的樣本均值,樣本標准差可表示為:

\[\bar{X}_k=\frac{1}{m}\sum_{i=1}^mx^{(i)}_k \tag{2} \]

\[S_k=[\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}_k-\bar{X}_k)^2]^{1/2} \tag{3} \]

對於每個數據可以進行標准化處理:

\[y_k^{(i)}=\frac{x_k^{(i)}-\bar{X}_k}{S_k} \tag{4} \]

2.馬氏距離

   馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示點與一個分布之間的距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是,它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的),並且是尺度無關的(scale-invariant),即獨立於測量尺度。(百度抄的)
   馬氏距離的定義:
設總體\(G\)的均值向量為\(\mu\),協方差矩陣為\(\Sigma\),\(X\),\(Y\)為總體中的兩個樣本。
\(X\)\(Y\)的距離定義為

\[d_m^2(X,Y)=(X-Y)^T\Sigma^{-1}(X-Y). \tag{5} \]

\(X\)和總體\(G\)的距離定義為

\[d_m^2(X,G)=(X-\mu)^T\Sigma^{-1}(X-\mu) \tag{6} \]

3.指標距離

   y有時不僅需要對樣品進行分類,也需要對指標進行分類。衡量指標距離常用到的是相似系數,用\(C_{ij}\)表示指標\(i\)和指標\(j\)的相似系數,\(C_{ij}\)的絕對值趨向於0時,表示指標關系越疏遠,\(C_{ij}\)的絕對值趨向於1時,表示指標關系越密切。常用到的相似系數有夾角余弦和相關系數。

(1)夾角余弦

從幾何圖形中的啟發而來,定義為:

\[C_{ij}(1)=\frac{\sum_{k=1}^mx_i^{(k)}x_j^{(k)}}{[\sum_{k=1}^m(x_i^{(k)})^2\sum_{k=1}^m(x_j^{(k)})^2]^{1/2}}\tag{7} \]

(2) 相關系數

相關系數可以理解為數據標准化后的夾角余弦。

\[C_{ij}(2)=\frac{\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)(x_j^{(k)}-\bar{X}_j)}{[\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)^2\sum_{k=1}^m(x_j^{(k)}-\bar{X}_j)^2]^{1/2}}\tag{8} \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM