用戶相似度衡量


  在機器學習中,通常會碰到相似度衡量的問題,而且廣泛用於數據挖掘的分類和聚類中,描述個體之間的差異大小的方式有很多,這篇博客總結的比較全面:http://blog.csdn.net/sp_programmer/article/details/40889103

  

  然而具體到衡量用戶相似度的問題的時候,不一定所有的衡量距離的方法效果都好。

  

  目前主要有三種度量用戶間相似性的方法,分別是:余弦相似性、相關相似性以及修正的余弦相似性。

  ①余弦相似性(Cosine):用戶一項目評分矩陣可以看作是n維空間上的向量,對於沒有評分的項目將評分值設為0,余弦相似性度量方法是通過計算向量間的余弦夾角來度量用戶間相似性的。設向量i和j分別表示用戶i和用戶j在n維空間上的評分,則用基於協同過濾的電子商務個性化推薦算法研究戶i和用戶j之間的相似性為:

  ②修正的余弦相似性 (AdjustedCosine):余弦相似度未考慮到用戶評分尺度問題,如在評分區間[1一5]的情況下,對用戶甲來說評分3以上就是自己喜歡的,而對於用戶乙,評分4以上才是自己喜歡的。通過減去用戶對項的平均評分,修正的余弦相似性度量方法改善了以上問題。用幾表示用戶i和用戶j共同評分過的項集合,Ii和壽分別表示用戶i和用戶j評分過的項集合,則用戶i和用戶j之間的相似性為:

  ③相關相似性(Correlation)此方法是采用皮爾森(Pearson)相關系數來進行度量。

  摘自知乎:https://www.zhihu.com/question/21824291/answer/20537560

 

  除了上述的方法,根據文獻資料來看,spearman秩相關系數或者均方差也能用於計算用戶間的接近程度。

 

  然而實驗結果分析,對於基於用戶的推薦系統,pearson相關系數對比其他的方法更勝一籌。不過后來發現的基於物品的推薦技術,余弦相似度比pearson相關系數表現更好(摘自《推薦系統》)。

  

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM