歐式距離與余弦相似度


1)概述

  兩者都是評定個體間差異的大小的。歐幾里得距離度量會受指標不同單位刻度的影響,所以一般需要先進行標准化,同時距離越大,個體間差異越大;

  空間向量余弦夾角的相似度度量不會受指標刻度的影響,余弦值落於區間[-1,1],越小。

2)計算公式

  歐氏距離(也叫幾里得離)公式:

 

  余弦相似度的計算公式如下:

3)歸一化

一般來說,為了比較的方便,都會對得到的結果進行歸一化處理:

1)在歐氏距離公式中,取值范圍會很大,一般通過如下方式歸一化:

  sim = 1 / (1 + dist(X,Y))

2)因為余弦值的范圍是 [-1,+1] ,相似度計算時一般需要把值歸一化到 [0,1],一般通過如下方式:

  sim = 0.5 + 0.5 * cosθ

經過歸一化處理以后,相似度全部落在了0和1之間,值越大,相似度越高。

4)相似度度量的選擇

  選擇哪種度量方式,沒有統一的結論,要依據處理數據的特點來進行確定,可以參考一下知乎上關於這個問題的討論:http://www.zhihu.com/question/19640394

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM