特征-相似度衡量


明氏距離(Minkowski Distance)

\[d(x,y)=(\sum_{k=1}^n|x_k-y_k|^s)^{1\over s} \]

s越大,某一維上的較大差異對最終差值的影響也越大.

  • s=1, 曼哈頓距離
  • s=2, 歐式距離
  • s=∞,上確界距離(Supermum Distance),等同於切比雪夫距離

廣義的n維空間中的度量,通也被稱為\(L_s\)范數.
Manhattan距離又稱City Block Distance(城市距離、棋盤距離).
歐式距離就是\(L_2\)范數,歐式距離缺點:
歐幾里得距離對平移太敏感,因為忽略平移不變性問題而不加分辨的使用歐幾里得距離來比較模式之間的相似性,有時候會帶來嚴重的誤差;在處理其他的轉換(比如圖像旋轉,或尺度變換)時,也存在適應性很差的缺點。

切比雪夫距離

\[d(x,y)=\max_{1\le k\le n}|x_k-y_k| \]

通常也被稱為\(L_∞\)范數

漢明距離

字符串或編碼由一個變為另一個所需操作的最小替換次數。
漢明距離在simhash算法(可用於比較兩個文檔之間的相似度)中也有重要應用。

皮爾遜相關系數(Pearson correlation coefficient)

如果兩個向量x,y的值的范圍相差較大,如[1,5]跟[10,100],那么計算相似度時使用歐式距離等方法顯然不合適.在不進行歸一化的條件下可以使用皮爾遜相關系數計算一致性.

\[\begin{align} r &={ \sum_{i=1}^n(x_i-\bar x)(y_i-\bar y) \over \sqrt{ \sum_{i=1}^n(x_i-\bar x)^2}\sqrt{ \sum_{i=1}^n(y_i-\bar y)^2}}\in[-1,1] \\ &= {\sum_{i=1}^n x_iy_i -{1\over n}\sum_{i=1}^n x_i\sum_{i=1}^n y_i \over \sqrt{\sum_{i=1}^n x_i^2-{1\over n}(\sum_{i=1}^n x_i)^2}\sqrt{\sum_{i=1}^n y_i^2-{1\over n}(\sum_{i=1}^n y_i)^2}} \end{align} \]

在編程實現上通常使用第二個式子計算,好處是可以通過單遍掃描來實現.
好的一致性,如r=1在二維平面上表現為所有點在一條直線上.

皮爾遜相關距離

\(D_{XY}=1-\rho_{XY}\)

馬氏距離(Mahalanobis Distance)

\[d(x,y)=\sqrt{(x-y)^T\Sigma^{-1}(x-y)} \]

由印度統計學家馬哈拉諾比斯(P. C. Mahalanobis)提出,表示數據的協方差距離。是一種有效的計算兩個未知樣本集的相似度的方法。
與歐氏距離不同的是它考慮到各種特性之間的聯系(例如:一條關於身高的信息會帶來一條關於體重的信息,因為兩者是有關聯的),並且是尺度無關的(scale-invariant),即獨立於測量尺度。
如果協方差矩陣為單位矩陣,那么馬氏距離就簡化為歐氏距離。

余弦相似度

向量點積

向量\(\lt X,Y \gt\)的點積:

\[X\cdot Y=\sum_{i=1}^n (x_i y_i) \]

\(R^n\)中的兩個向量通過點積的方式映射成一個實數值,可以將\(R^n\)稱為n維歐幾里得空間,點積稱為歐式點積。

向量長度

\[\|X\|=\sqrt{X\cdot X}=\sqrt{\sum_{i=1}^n (x_i)^2} \]

又稱為\(R^n\)上的歐式范數。

余弦相似度

\[\theta_{similarity}=cos(\theta)=\frac{X\cdot Y}{\|X\|\cdot \|Y\|}=\frac{\sum_{i=1}^n (x_i y_i)}{\sqrt{\sum_{i=1}^n (x_i)^2 \cdot \sum_{i=1}^n (y_i)^2}} \]

即兩個向量間夾角的余弦值。

在圖像分類中的應用

余弦相似度可用在任何維度的向量比較中,因此在高維空間中被廣泛應用。
過程如下:

  1. 計算每類樣本中的特征向量(類別特征)
  2. 對未知分類的圖像計算其樣本特征
  3. 計算兩個響亮的余弦相似度
  4. 選擇余弦相似度最大的類別作為未知圖像對應的類別或將大於閾值的多個類別作為結果。

最簡單的提取圖像特征向量的方法:

  1. 將圖像分成幾大塊
  2. 計算每一塊的顏色值的均值
  3. 均值組成的向量即為特征碼。

文本分類

如文本s是一段軍事新聞的描述,現在需要對兩段新聞t1、t2進行分類,判斷哪個更像是軍事方面的。

  1. 文本預處理,如果是中文,使用結巴分詞等完成中文分詞,形成詞條庫,並去除無關緊要的停用詞。
  2. 統計每個詞條的詞頻。
  3. 由每個詞的詞頻組成特征碼
  4. 余弦相似性計算。

距離測度的選取原則

需要精心選擇類內變化平緩,類間變化劇烈的距離測度!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM