1、相似度的幾種方法
1.1Jaccard相關系數
Jaccard相關系數主要用於計算兩個集合的並集和交集的比值來度量用戶相似度
注:Jaccard相關系數適合計算離散型集和的相似度,對於非離散型的評分矩陣,Jaccard相關系數沒有考慮評分值對相似度的影響,對於10級評分矩陣的相似度計算效果較差
1.2余弦相似度
余弦相似度通過計算兩個向量間的夾角余弦值衡量兩個用戶的相似度,首先找到兩個用戶共同評過分的項目集,然后再計算這兩個向量余弦值,余弦相似度更加注重方向上的相似性而非距離上的。
1.3皮爾森相關系數
皮爾森相關系數利用向量間的線性相關性表示用戶相似度,首先找到兩個用戶共同評過分的項目集,然后再計算這兩個向量的相關系數
1.4歐幾里德距離
歐幾里德距離是最常見的距離計算公式,計算多維空間各個點的絕對距離,同類型的還有曼哈頓距離,明可夫斯距離等
因為計算是基於各維度特征的絕對數值,所以歐氏度量需要保證各維度指標在相同的刻度級別,比如對身高(cm)和體重(kg)兩個單位不同的指標使用歐式距離可能使結果失效
2、標准化的幾種方式
2.1 0-1標准化
2.2 Z-score標准化
這種方式處理后的數據服從正態分布,需要用到均值mu和標准差sigma
2.3 Sigmoid函數
Sigmoid函數是一個具有S型曲線的函數都可以稱為Sigmoid函數,在(0, 0.5)處中心對稱,在(0, 0.5)附近有比較大的斜率,而當數據趨向於正無窮和負無窮的時候,映射出來的值就會無限趨向於1和0
參考:https://blog.csdn.net/kryolith/article/details/39770187