協同過濾用戶相似度度量

本文轉載自查看原文 2016-05-18 20:00 2309 協同過濾/ 相似度/ 推薦算法

閔氏距離(Minkowski Distance)

當r=1時，曼哈頓距離(Manhatten)

當r=2時，歐氏距離(Euclidean)

r=無窮大，上確界距離(Supermum Distance)

皮爾遜相關系數(Pearson CORRELATION Coeffcient)，取值[-1,1]，1表示完全相關，-1表示完全不相關

近似計算公式

余弦相似度計算，取值[-1,1]，1表示完全相似，-1表示完全不相似

users = {"Angelica": {"Blues Traveler": 3.5, "Broken Bells": 2.0, "Norah Jones": 4.5, "Phoenix": 5.0, "Slightly Stoopid": 1.5, "The Strokes": 2.5, "Vampire Weekend": 2.0},
         "Bill":{"Blues Traveler": 2.0, "Broken Bells": 3.5, "Deadmau5": 4.0, "Phoenix": 2.0, "Slightly Stoopid": 3.5, "Vampire Weekend": 3.0},
         "Chan": {"Blues Traveler": 5.0, "Broken Bells": 1.0, "Deadmau5": 1.0, "Norah Jones": 3.0, "Phoenix": 5, "Slightly Stoopid": 1.0},
         "Dan": {"Blues Traveler": 3.0, "Broken Bells": 4.0, "Deadmau5": 4.5, "Phoenix": 3.0, "Slightly Stoopid": 4.5, "The Strokes": 4.0, "Vampire Weekend": 2.0},
         "Hailey": {"Broken Bells": 4.0, "Deadmau5": 1.0, "Norah Jones": 4.0, "The Strokes": 4.0, "Vampire Weekend": 1.0},
         "Jordyn":  {"Broken Bells": 4.5, "Deadmau5": 4.0, "Norah Jones": 5.0, "Phoenix": 5.0, "Slightly Stoopid": 4.5, "The Strokes": 4.0, "Vampire Weekend": 4.0},
         "Sam": {"Blues Traveler": 5.0, "Broken Bells": 2.0, "Norah Jones": 3.0, "Phoenix": 5.0, "Slightly Stoopid": 4.0, "The Strokes": 5.0},
         "Veronica": {"Blues Traveler": 3.0, "Norah Jones": 5.0, "Phoenix": 4.0, "Slightly Stoopid": 2.5, "The Strokes": 3.0}
        }#{用戶：{作品：評分}}
def manhattan(rating1, rating2):#計算曼哈頓距離
    """Computes the Manhattan distance. Both rating1 and rating2 are dictionaries
       of the form {'The Strokes': 3.0, 'Slightly Stoopid': 2.5}"""
    distance = 0
    commonRatings = False 
    for key in rating1:
        if key in rating2:
            distance += abs(rating1[key] - rating2[key])
            commonRatings = True
    if commonRatings:
        return distance
    else:
        return -1
def pearson(rating1, rating2):#計算Pearson相關系數
    sum_xy = 0
    sum_x = 0
    sum_y = 0
    sum_x2 = 0
    sum_y2 = 0
    n = 0
    for key in rating1:
        if key in rating2:
            n += 1
            x = rating1[key]
            y = rating2[key]
            sum_xy += x * y
            sum_x += x
            sum_y += y
            sum_x2 += pow(x, 2)
            sum_y2 += pow(y, 2)
    # now compute denominator
    denominator = sqrt(sum_x2 - pow(sum_x, 2) / n) * sqrt(sum_y2 - pow(sum_y, 2) / n)
    if denominator == 0:
        return 0
    else:
        return (sum_xy - (sum_x * sum_y) / n)/denominator

相似度的選擇：

當不同用戶對不同商品評價標准的范圍不一樣時，使用皮爾遜相關系數；

當數據稠密，且屬性值大小十分重要，使用歐氏或者曼哈頓距離；

當數據稀疏，存在很多零值，考慮余弦相似度。

來自《A Programmer's Guide To Data Mining》

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於用戶的協同過濾算法相似度度量算法基於用戶的協同過濾算法距離和相似度度量[轉] 基於用戶和項目協同過濾原理及實例基於用戶的推薦協同過濾算法的算法基於用戶的協同過濾來構建推薦系統 Mahout實現基於用戶的協同過濾算法基於用戶的協同過濾推薦算法協同過濾中相似度的計算方式