相似度計算(余弦距離/歐式距離)


1.余弦距離

適用場景:余弦相似度衡量的是維度間取值方向的一致性,注重維度之間的差異,不注重數值上的差異。

舉例:如某T恤從100塊降到了50塊(A(100,50)),某西裝從1000塊降到了500塊(B(1000,500)),那么T恤和西裝都是降價了50%,兩者的價格變動趨勢一致,可以用余弦相似度衡量,即兩者有很高的變化趨勢相似度,但是從商品價格本身的角度來說,兩者相差了好幾百塊的差距,歐氏距離較大,即兩者有較低的價格相似度。

2.歐式距離

適用場景:歐氏度量的是數值上的差異性。

舉例:如果要對電子商務用戶做聚類,區分高價值用戶和低價值用戶,用消費次數和平均消費額,這個時候用余弦夾角是不恰當的,因為它會將(2,10)和(10,50)的用戶算成相似用戶,但顯然后者的價值高得多,因為這個時候需要注重數值上的差異,而不是維度之間的差異。



 

參考文獻:

【1】關於歐氏距離和余弦相似度的使用場景 - wo的博客 - CSDN博客


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM