1)概述
兩者都是評定個體間差異的大小的。歐幾里得距離度量會受指標不同單位刻度的影響,所以一般需要先進行標准化,同時距離越大,個體間差異越大;
空間向量余弦夾角的相似度度量不會受指標刻度的影響,余弦值落於區間[-1,1],值越大,差異越小。
2)計算公式
歐氏距離(也叫歐幾里得距離)公式:

余弦相似度的計算公式如下:

3)歸一化
一般來說,為了比較的方便,都會對得到的結果進行歸一化處理:
1)在歐氏距離公式中,取值范圍會很大,一般通過如下方式歸一化:
sim = 1 / (1 + dist(X,Y))
2)因為余弦值的范圍是 [-1,+1] ,相似度計算時一般需要把值歸一化到 [0,1],一般通過如下方式:
sim = 0.5 + 0.5 * cosθ
經過歸一化處理以后,相似度全部落在了0和1之間,值越大,相似度越高。
4)相似度度量的選擇
選擇哪種度量方式,沒有統一的結論,要依據處理數據的特點來進行確定,可以參考一下知乎上關於這個問題的討論:http://www.zhihu.com/question/19640394
