numpy :: 計算特征之間的余弦距離


 余弦距離在計算相似度的應用中經常使用,比如:

  • 文本相似度檢索
  • 人臉識別檢索
  • 相似圖片檢索

原理簡述

下面是余弦相似度的計算公式(圖來自wikipedia):

余弦相似度的計算公式,來自維基百科

但是,余弦相似度和常用的歐式距離的有所區別。

  • 余弦相似度的取值范圍在-1到1之間。完全相同時數值為1,相反反向時為-1,正交或不相關是為0。(如下圖,來源
  • 歐式距離一般為正值,歸一化之后在0~1之間。距離越小,越相似。

歐式距離用於相似度檢索更符合直覺。因此在使用時,需要將余弦相似度轉化成類似歐氏距離的余弦距離。

維基頁面中給出的角距離計算公式如下(圖來自wikipedia):

 

 

由於在計算圖片或者文本相似度時,提取的特征沒有負值,余弦相似度的取值為0~1,因此采用更簡便的方法,直接定義為:

余弦距離 = 1- 余弦相似度

 

代碼分析

根據輸入數據的不同,分為兩種模式處理。

  • 輸入數據為一維向量,計算單張圖片或文本之間的相似度 (單張模式)
  • 輸入數據為二維向量(矩陣),計算多張圖片或文本之間的相似度 (批量模式)
 1 import numpy as np
 2 def cosine_distance(a, b): 3 if a.shape != b.shape: 4 raise RuntimeError("array {} shape not match {}".format(a.shape, b.shape)) 5 if a.ndim==1: 6 a_norm = np.linalg.norm(a) 7 b_norm = np.linalg.norm(b) 8 elif a.ndim==2: 9 a_norm = np.linalg.norm(a, axis=1, keepdims=True) 10 b_norm = np.linalg.norm(b, axis=1, keepdims=True) 11 else: 12 raise RuntimeError("array dimensions {} not right".format(a.ndim)) 13 similiarity = np.dot(a, b.T)/(a_norm * b_norm) 14 dist = 1. - similiarity 15 return dist

 

6~7 行 , np.linalg.norm 操作是求向量的范式,默認是L2范式,等同於求向量的歐式距離。

9~10行 ,設置參數 axis=1 。對於歸一化二維向量時,將數據按行向量處理,相當於單獨對每張圖片特征進行歸一化處理。

13行,np.dot 操作可以支持兩種模式的運算,來自官方文檔的解釋:

 numpy.dot(about=None)

  Dot product of two arrays. Specifically,

  • If both a and b are 1-D arrays, it is inner product of vectors (without complex conjugation).

  • If both a and b are 2-D arrays, it is matrix multiplication, but using matmul or b is preferred.

為了保持一致性,都使用了轉置操作。如下圖所示,矩陣乘法按線性代數定義,必須是 行 × 列才能完成乘法運算。舉例 32張128維特征進行運算,則應該是 32x128 * 128x32 才行。

  

參考文章


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM