1.1 什么是推薦系統
(1)解決信息過載的三種方式:
- 分類目錄(雅虎)
- 搜索引擎(谷歌):滿足用戶有明確目的時的主動查找請求;
- 推薦系統:用戶沒有明確目的時幫助他們發現感興趣的內容。
(2)推薦系統可以更好的發掘商品的長尾
傳統2/8理論受到挑戰。互聯網條件下,由於貨架成本極端低廉,電子商務網站往往能出售比傳統零售店更多種類的商品。與傳統零售業相比,電商的長尾商品數量極其龐大,這些長尾的總銷售額甚至能超過熱門商品。
推薦系統通過發掘用戶的行為,找到用戶的個性化需求,從而將長尾商品准確地推薦給需要它的用戶,幫助用戶發現那些他們感興趣但很難發現的商品。
推薦算法的本質是通過一定的方式將用戶和物品聯系起來,不同的推薦系統利用了不同的方式。
1.2 個性化推薦系統的應用
(1)推薦系統由前台展示頁面、后台的日志系統以及推薦算法3部分構成 。
- 電子商務
- 主要應用有:
- 個性化商品推薦列表:基於物品,基於好友;
- 相關商品推薦列表(cross selling):使用了不同用戶行為計算物品的相關性;
- 打包銷售:推薦一套商品,打包購買打折;
- 主要應用有:
- 電影和視頻網站:基於物品的推薦,推薦用戶喜歡的相似的電影。
-
個性化音樂網絡電台
-
個性化推薦成功應用的兩個因素
- 存在信息過載
- 用戶大部分時候沒有明確需求
個性化網絡電台非常符合上訴兩項
- 設計上不允許點歌,而是給用戶一定形式的反饋(喜歡、不喜歡、跳過),經過用戶一定時間的反饋,電台就可以從用戶的歷史行為中習得用戶的興趣模型,從而使用戶的播放列表越來越符合用戶對歌曲的興趣。
- Pandora 根據專家標注的音樂基因來計算歌曲相似度;Last.fm給用戶推薦和他有相似聽歌愛好的其他用戶喜歡的歌曲,利用用戶行為。
- 音樂推薦的特點:物品空間大/種類多/不需全神貫注消費 / 物品重用率高 / 上下文相關(包括用戶當時的心情,比如沮喪的時候喜歡聽勵志的歌曲,和所處情境比如睡覺前喜歡聽輕音樂) / 次序比較重要 / 高度社會化 (分享自己喜歡的音樂)
-
- 社交網絡
- 主要應用:
- 利用用戶的社交網絡信息對用戶進行個性化的物品推薦
- 信息流的會話推薦(推薦評論、好友狀態等):盡量看到熟悉好友的最新會話
- 給用戶推薦好友
- 主要應用:
- 個性化閱讀
個性化閱讀同樣符合前面提出的需要個性化推薦的兩個因素:用戶面臨信息過載的問題;用戶很多時候並沒有必須看某篇具體文章的需求,只是想了解該領域。
新聞類的閱讀要有很強的時效性。
-
-
用戶關注自己興趣的人,然后看關注用戶看的文章;
- 收集用戶對文章的偏好,根據反饋數據不斷更新用戶個性化列表;
- 根據用戶之間興趣相似度,給用戶推薦和他興趣相似的用戶喜歡的文章;
-
- 基於位置的服務:上下文信息,位置和社交網絡的結合。
- 個性化郵件:優先級收件箱,先瀏覽重要的,再瀏覽其他。
- 個性化廣告
- 個性化廣告投放技術:
- 上下文廣告:通過分析用戶正在瀏覽的網頁內容,投放和網頁內容相關的廣告。代表系統是谷歌的Adsense。
- 搜索廣告:通過分析用戶在當前會話中的搜索記錄,判斷用戶的搜索目的,投放和用戶目的相關的廣告。
- 個性化展示廣告:根據用戶的興趣標簽,對不同用戶投放不同的展示廣告。
- 個性化廣告投放技術:
1.3 推薦系統評測
一個完整的推薦系統一般存在3個參與方:用戶、網站、內容提供方。要考慮三方面的利益。好的推薦系統准測用戶的行為,且擴展用戶的視野,幫助用戶發現他們感興趣且不容易發現的東西;幫助商家將埋沒在長尾中的好商品推薦給可能對他感興趣的用戶;推薦系統本身收集反饋,完善推薦質量,增加交互,提高收入。
- 推薦系統實驗方法:
- 離線實驗
- 用戶調查
- 在線 A/B test
- 評測指標:
- 用戶滿意度
可以以問卷的形式;一般情況下用點擊率、用戶停留時間和轉化率等指標度量用戶的滿意度。 - 預測准確率:在訓練集上建立用戶的行為和興趣模型預測用戶在測試集上的行為,並計算預測行為和測試集上實際行為的重合度作為預測准確率。
- 評分預測: RMSE / MAE
- TopN 推薦:准確率 、召回率, 准確率、召回率曲線。
- 推薦目的是找到用戶最有可能感興趣的電影,而不是預測用戶看了電影后會給怎樣的分數(就是有的電影用戶感興趣,但看了之后給的評分會低,這個也要推薦)。
- 覆蓋率
- 描述一個推薦系統對物品長尾的發掘能力。覆蓋率有不同的定義方法,最簡單的定義為推薦系統能夠推薦出來的物品占總物品集合的比例。
- 覆蓋率是一個內容提供商會關心的指標,推薦系統不僅有較高的用戶滿意度,還有較高覆蓋率。
- 覆蓋率的其它定義: P27
- 推薦系統的馬太效應:推薦系統的初衷是希望消除馬太效應,使得各種物品都能被展示給對它們感興趣的某一類人群。可以使用基尼系數來判斷是否有明顯的馬太效應。
- 多樣性
為了滿足用戶廣泛的興趣,推薦列表需要能夠覆蓋用戶不同的興趣領域。多樣性描述了推薦列表中物品兩兩之間的不相似性。 - 新穎性:希望在不犧牲准確率的前提下提高多樣性和新穎性。
- 驚喜度:與歷史興趣不相似,但用戶滿意
- 信任度
提高推薦系統信任度的方式有增加推薦系統的透明度(提供推薦的解釋);考慮用戶的社交網絡信息,利用好友信息給用戶做推薦,並且用好友進行推薦解釋。 - 實時性:新聞,微博等。
- 健壯性
- 反作弊
- 商業指標:給公司帶來盈利。
- 總結
指標總結
- 用戶滿意度
- 評測維度
在推薦系統評測報告中包含不同維度下的系統評測指標,能幫我們全面地了解推薦系統性能。- 用戶維度:主要包括用戶的人口統計學信息、活躍度以及是不是新用戶等。
- 物品維度:包括物品的屬性信息、流行度、平均分以及是不是新加入的物品等。
- 時間維度:包括季節,是工作日還是周末,是白天還是晚上等。