幾種相似度方法


1、相似度的幾種方法

1.1Jaccard相關系數

     Jaccard相關系數主要用於計算兩個集合的並集和交集的比值來度量用戶相似度

    

 

注:Jaccard相關系數適合計算離散型集和的相似度,對於非離散型的評分矩陣,Jaccard相關系數沒有考慮評分值對相似度的影響,對於10級評分矩陣的相似度計算效果較差

1.2余弦相似度

    余弦相似度通過計算兩個向量間的夾角余弦值衡量兩個用戶的相似度,首先找到兩個用戶共同評過分的項目集,然后再計算這兩個向量余弦值,余弦相似度更加注重方向上的相似性而非距離上的。

 

 

1.3皮爾森相關系數

    皮爾森相關系數利用向量間的線性相關性表示用戶相似度,首先找到兩個用戶共同評過分的項目集,然后再計算這兩個向量的相關系數

  

 

1.4歐幾德距離

    歐幾里德距離是最常見的距離計算公式,計算多維空間各個點的絕對距離,同類型的還有曼哈頓距離,明可夫斯距離等

    因為計算是基於各維度特征的絕對數值,所以歐氏度量需要保證各維度指標在相同的刻度級別,比如對身高(cm)和體重(kg)兩個單位不同的指標使用歐式距離可能使結果失效

 

 

2、標准化的幾種方式

2.1 0-1標准化

 

2.2 Z-score標准化

  這種方式處理后的數據服從正態分布,需要用到均值mu和標准差sigma

2.3 Sigmoid函數

Sigmoid函數是一個具有S型曲線的函數都可以稱為Sigmoid函數,在(0, 0.5)處中心對稱,在(0, 0.5)附近有比較大的斜率,而當數據趨向於正無窮和負無窮的時候,映射出來的值就會無限趨向於1和0

 

 

參考:https://blog.csdn.net/kryolith/article/details/39770187

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM