Overview of the Evaluated Algorithms for the Personal Recommendation Systems
顧名思義,這篇中文論文講述的是推薦系統的評價方法,也就是,如何去評價一個推薦系統的好與不好。
-
引言
1.個性化推薦系統通過建立用戶與產品之間的二元關系 ,利用用戶已有的選擇過程或相似性關系挖掘每個用戶潛在感興趣的對象 ,進而進行個性化推薦 ,其本質就是信息過濾。
2.一個完整的推薦系統由3部分組成:
收集用戶信息的行為記錄模塊;
分析用戶喜好的模型分析模塊;
推薦算法模塊(最核心):
Ⅰ.協同過濾推薦算法;
Ⅱ.基於內容的推薦算法;
Ⅲ.基於用戶-產品二部圖關系的推薦算法;
Ⅳ.混合推薦算法;
3.評價推薦算法是困難的:
1) 不同的算法在不同數據集上的表現不同;
2) 評價的目的也不盡相同 ;
3) 對不同的數據是否需要在線用戶的測試 ?
4) 選擇哪些指標進行綜合評價也十分困難。這4方面的因素直接決定了評價的客觀性和合理性。
-
准確度評價指標
1.預測准確度
預測准確度考慮推薦算法的預測打分與用戶實際打分的相似程度。
平均絕對誤差指標MAE(Mean Absolute Error):
與MAE相關的其他指標有平均平方誤差MSE(Mean Squared Error)和標准平均絕對誤差 (Normalized Mean Absolute Error,簡稱NMAE) 。
平均平方誤差MSE:
eg.有一個電影評價系統,它可以對某一部電影給出其他用戶評價電影的“星”的平均數(就好像豆瓣書評一樣),而且給出對某個用戶的預測“星數”。而預測准確度就是能夠度量系統中預測“星”數與用戶實際給出的“星”數的差別。打分區間為[0,10]
對用戶A的預測 電影1 電影2 電影3 電影4 系統預測打分 10 4 7 9 用戶實際打分 8 5 7 6
平均絕對誤差MAE:
平均平方誤差MSE:
標准平均絕對誤差(做標准化):
預測准確度 優點 平均絕對誤差MAE:
1.計算方法簡單,易於理解;
2.每個系統的平均絕對誤差唯一,從而能夠區分兩個系統平均絕對誤差的差異缺點 不適合二元選擇信息,如喜歡或不喜歡
不適合那些只在意推薦列表前端的預測誤差,而對系統的整體誤差並不是很在意的系統
在用戶偏差的程度比較小時也不適用,因為用戶只關心把好產品錯歸為壞產品 ,或者把壞產品錯歸為好產品的比例。例如 ,
以 3.5個星為界區分好壞 ,那么把4預測成了5,或者把3預測成了2都對用戶沒有影響。
2.分類准確度
分類准確度定義為推薦算法對一個產品用戶是否喜歡判定正確的比例。因此 ,當用戶只有二元選擇時 ,用分類准確度進行評價較為合適。
准確率和召回率:
准確率定義為系統的推薦列表中用戶喜歡的產品和所有被推薦產品的比率:,准確率表示用戶對一個被推薦產品感興趣的可能性。
召回率定義為推薦列表中用戶喜歡的產品與系統中用戶喜歡的所有產品的比率,召回率表示一個用戶喜歡的產品被推薦的概率。
P=4/9 R=4/11
利用准確率和召回率對推薦系統進行評價的最大問題在於它們必須要一起使用才能全面評價算法的好壞。
為了同時考察准確率和召回率 , Pazzan iM 等把二者綜合考慮提出了 F指標 。F指標定義為
另外一個度量系統分類准確度的重要指標就是受試者工作特征曲線 (receiver operating characteristic curve,簡稱ROC曲線)。
3.排序准確度
排序准確度用於度量推薦算法產生的列表符合用戶對產品排序的程度。
用平均排序分 ( average ranking score)度量推薦系統的排序准確度 ,具體定義如下:
其中, N 為訓練集中用戶未選擇的產品個數, Li 為預測集中待預測產品 i在推薦列表中的位置。
4.預測打分關聯
預測打分關聯分析系統的打分排序與用戶實際的打分排序之間的關聯關系 ,常常用於刻畫推薦系統的准確度。與預測准確度不同的地方在於 ,預測打分關聯不考慮預測打分與用戶打分各單項的偏差 ,而是考慮兩者之間整體的相關程度。
推薦系統中, 3個常用的相關性描述有Pearson關聯、Spearman 關聯和Kenda ll′s Tau。
預測打分關聯 優點 可以比較多通道打分系統的排名 ,計算簡單且對全部系統只返回一個值。 缺點 Kendall′s Tau的缺點是給每個等距離交換賦予相等的權重。因此 ,在推薦列表中排名第 1與第 2的差別和排名 1 000與 1 001的差別一樣。而實際上 ,用戶可能只關心排名前 10的產品 ,而永遠不會檢查排在 1 000的產品。因此 ,排名 1與 2之間的差別對用戶的影響更大。Spea rm an相關對“弱排序 ”解決得並不好。所謂弱排序指的是至少兩個產品的打分是一樣的 ,反之 ,每個產品打分都不同的排序叫做完全排序。由於系統會把得分相同的產品排在不同的位置 , Spearm an對不同的排序的反饋值不一樣。但是這並不合理 ,因為用戶並不關心他打分相同的產品是如何排序的。Kendall′s Tau也有類似的問題。
5.距離標准化指標——NDPM
在推薦系統中 , NDPM 的核心思想為:對比系統預測打分排名與用戶實際排名的偏好關系,對基於偏好關系的度量進行標准化,具體定義如下:
其中, c-為系統排序與用戶排序相沖突的個數,例如,系統認為用戶喜歡 1超過 2,而用戶卻說正好相反; cu 為相容的個數; ci為用戶排序中有偏好關系的產品總數。ND PM 與 Spea rm an系數和 Kendall′s Tau相似 ,但是NDPM 的結果更精確。Balabanovc M和 Shoham Y將 ND PM指標用於評價 FAB系統的准確度,取得了非常好的效果。
6.半衰期效用指標
推薦系統為用戶呈現一個排序的產品列表 ,但多數用戶並不願意深入瀏覽這個列表。在 Internet網頁推薦系統中 ,設計者聲稱絕大多數的 Inte rnet用戶不會深入瀏覽搜索引擎返回的結果 ,而且用戶願意瀏覽推薦列表的函數呈指數衰減 ,這里將衰減強度描述為一個半衰參數。
系統的半衰期由所有用戶
半衰期的平均值得到。為了得到一個高的半衰期效用值 ,系統必須把用戶打分高的產品賦予高的打分值。缺點是如果實際的效用函數不是指數衰減的 ,那么系統的半衰期效用與用戶的實際感受差別就會很大。例如 ,如果用戶常常在推薦列表前 20個產品中搜索 ,那么效用函數只應該對前 20個產品賦值 ,而后的都應設為 0。
半衰期效用指標 缺點 1) 系統中的弱排序使得即使對同一個系統排序 ,其結果也不同;
2) 因為max函數的緣故 ,所有打分小於默認值的產品的作用相同。
-
准確度之外的評價指標
1.推薦列表的流行性和多樣性
利用平均海明距離度量推薦系統中推薦列表的多樣性。
2.覆蓋率
覆蓋率定義為可以預測打分的產品占所有產品的比例。在推薦系統中 ,覆蓋率尤其重要 ,因為只有覆蓋率高才有可能盡可能多地找到用戶感興趣的產品。覆蓋率最簡單的計算方法就是隨機地選取若干用戶 - 產品對 ,對每一個用戶 - 產品對都做一次預測 ,衡量一下可預測的產品占所有產品的比例。正如准確率和召回率必須同時使用一樣 ,覆蓋率必須結合准確率進行使用 ,因為推薦系統不能僅僅為了提高覆蓋率而給出一個差的准確率。
3.新鮮性和意外性
一些推薦系統具有非常高的准確率和相對合理的覆蓋率 ,但是僅僅有這些 ,系統可能還是對用戶沒有任何幫助。例如 ,如果某購物推薦系統向沒有購買牛奶的用戶推薦牛奶 ,在統計上 ,這或許非常准確:每個人都可能購買牛奶。然而 ,人們都很熟悉牛奶 ,即使系統不推薦 ,用戶也會知道是否需要購買。因此 ,最佳的方案是向用戶推薦他們從未購買過 ,但是感興趣的產品。音樂或電影推薦系統也是如此 ,給用戶推薦流行的產品 ,無疑會提高系統的准確率 ,但是用戶不會從系統中得到任何新的信息。
4.用戶的滿意度
用戶對推薦系統的滿意度不僅僅取決於系統的准確度 ,而是更多地取決於系統在多大程度上可以幫助用戶完成任務。因此 ,如果想要度量用戶對一個推薦系統的評價 ,首先這個系統必須對自身的任務有一個清晰的定義 ,進而 ,針對特定的任務選擇適當的指標對推薦算法進行評價。
-
小結
可以從以下方面繼續進行深入研究:
1) 用戶對算法准確度的敏感度。
2) 算法對不同領域的普適性。
不同的推薦算法在不同的數據集上的表現不同。對於某個推薦算法 ,在什么類型的數據上可以發揮最好的效果。
3) 廣義的質量評價。
大部分評價指標只重視准確度 ,忽略了覆蓋率 ,新鮮性系統發現新鮮產品的能力以及用戶的滿意度等特性。因為用戶總是同時從多個方面綜合評價實際系統 ,因此准確度高的算法在實際應用中表現卻不一定好。是否能把這些指標進行結合 ,提出一個綜合性評價指標 ,這樣系統設計者就可以模仿用戶直接對系統進行評價。
4) 個人隱私的保護。
推薦系統的本質是利用用戶現有的選擇信息或者配置文件 ,發掘用戶的興趣、愛好。用戶如果希望得到推薦系統的幫助 ,必須共享一些個人的隱私數據。對系統來說 ,不僅需要有效保護用戶的個人隱私 ,而且需要在盡可能少利用用戶隱私數據的情況下做出准確、合理的推薦。反過來 ,用戶只有在確認系統可以有效保護個人的隱私數據的情況下 ,才願意使用推薦系統。因此 ,未來的准確度指標應該結合個人隱私數據保護的水平進行使用。
5) 推薦系統的魯棒性研究。
推薦系統在實際投入應用后 ,有些惡意用戶希望用自己的選擇信息破壞系統中正常的用戶 - 產品二元關系。以期降低系統的准確度 ,改變系統提供給正常用戶的推薦列表 ,從而達到破壞系統本身或抬高某些產品被推薦程度的目的。隨着推薦系統的日益廣泛使用 ,系統魯棒性的研究日益重要。只有經得起這種惡意攻擊考驗的系統才具有持久的生命力。