什么是余弦距離
余弦距離 = 1 - 余弦相似度
余弦相似度計算方法如下
余弦距離的值域 [0, 2]
一般深度學習用余弦相似度作為預測值
什么是歐式距離
歐氏距離與余弦距離的選擇
總體來說
- 歐氏距離體現數值上的絕對差異,而余弦距離體現方向上的相對差異
- 關注絕對誤差的時候,選歐式距離
- 例如分析用戶活躍度,以登陸次數(單位:次)和平均觀看時長(單:分鍾)作為特征時,余弦距離會認為(1,10)、(10,100)兩個用戶距離很近;但顯然這兩個用戶活躍度是有着極大差異的,此時我們更關注數值絕對差異,應當使用歐氏距離
- 關注絕對誤差的時候,選歐式距離
- 余弦相似度在高維的情況下依然保持“相同時為1,正交時為0,相反時為-1”的性質
- 歐式距離的數值受維度的影響,范圍不固定,並且含義也比較模糊