1.歐式距離
衡量樣本間相似性和差異性的方法就是計算兩個樣本之間的距離。
對於距離,我們最熟悉的莫過於歐式距離,設\(a=(x_1,x_2,\cdots,x_n),b=(y_1,y_2,\cdots,y_n)\),那么\(a\)和\(b\)的歐式距離定義為:
歐式距離有許多缺點,比如會受到距離單位的影響。針對這些影響,在計算距離之前需要對數據進行標准化,假設有\(m\)個樣本 依次為\(x^{(1)},x^{(2)},\cdots,x^{(m)}\);每個樣本有n個特征:\(x^{(j)}=(x_1^{(j)},x_2^{(j)},\cdots,x_n^{(j)})\)。那么第\(k\)個特征的樣本均值,樣本標准差可表示為:
對於每個數據可以進行標准化處理:
2.馬氏距離
馬氏距離(Mahalanobis distance)是由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出的,表示點與一個分布之間的距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是,它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的),並且是尺度無關的(scale-invariant),即獨立於測量尺度。(百度抄的)
馬氏距離的定義:
設總體\(G\)的均值向量為\(\mu\),協方差矩陣為\(\Sigma\),\(X\),\(Y\)為總體中的兩個樣本。
\(X\)和\(Y\)的距離定義為
\(X\)和總體\(G\)的距離定義為
3.指標距離
y有時不僅需要對樣品進行分類,也需要對指標進行分類。衡量指標距離常用到的是相似系數,用\(C_{ij}\)表示指標\(i\)和指標\(j\)的相似系數,\(C_{ij}\)的絕對值趨向於0時,表示指標關系越疏遠,\(C_{ij}\)的絕對值趨向於1時,表示指標關系越密切。常用到的相似系數有夾角余弦和相關系數。
(1)夾角余弦
從幾何圖形中的啟發而來,定義為:
(2) 相關系數
相關系數可以理解為數據標准化后的夾角余弦。
