推薦系統實踐(項亮)— 第1章 好的推薦系統


1.1 什么是推薦系統

 (1)解決信息過載的三種方式:

  1. 分類目錄(雅虎)
  2. 搜索引擎(谷歌):滿足用戶有明確目的時的主動查找請求;
  3. 推薦系統:用戶沒有明確目的時幫助他們發現感興趣的內容。

(2)推薦系統可以更好的發掘商品的長尾

  傳統2/8理論受到挑戰。互聯網條件下,由於貨架成本極端低廉,電子商務網站往往能出售比傳統零售店更多種類的商品。與傳統零售業相比,電商的長尾商品數量極其龐大,這些長尾的總銷售額甚至能超過熱門商品。

  推薦系統通過發掘用戶的行為,找到用戶的個性化需求,從而將長尾商品准確地推薦給需要它的用戶,幫助用戶發現那些他們感興趣但很難發現的商品。

  推薦算法的本質是通過一定的方式將用戶和物品聯系起來,不同的推薦系統利用了不同的方式。

1.2 個性化推薦系統的應用

(1)推薦系統由前台展示頁面、后台的日志系統以及推薦算法3部分構成 。

  • 電子商務
    • 主要應用有:
      1. 個性化商品推薦列表:基於物品,基於好友;
      2. 相關商品推薦列表(cross selling):使用了不同用戶行為計算物品的相關性;
      3. 打包銷售:推薦一套商品,打包購買打折;
  • 電影和視頻網站:基於物品的推薦,推薦用戶喜歡的相似的電影。
  • 個性化音樂網絡電台

    • 個性化推薦成功應用的兩個因素

      1. 存在信息過載
      2. 用戶大部分時候沒有明確需求

      個性化網絡電台非常符合上訴兩項

    • 設計上不允許點歌,而是給用戶一定形式的反饋(喜歡、不喜歡、跳過),經過用戶一定時間的反饋,電台就可以從用戶的歷史行為中習得用戶的興趣模型,從而使用戶的播放列表越來越符合用戶對歌曲的興趣。
    • Pandora 根據專家標注音樂基因計算歌曲相似度;Last.fm給用戶推薦和他有相似聽歌愛好的其他用戶喜歡的歌曲,利用用戶行為。
    • 音樂推薦的特點:物品空間大/種類多/不需全神貫注消費 / 物品重用率高 / 上下文相關(包括用戶當時的心情,比如沮喪的時候喜歡聽勵志的歌曲,和所處情境比如睡覺前喜歡聽輕音樂) / 次序比較重要 / 高度社會化 (分享自己喜歡的音樂)
  • 社交網絡
    • 主要應用:
      1. 利用用戶的社交網絡信息對用戶進行個性化的物品推薦
      2. 信息流的會話推薦(推薦評論、好友狀態等):盡量看到熟悉好友的最新會話
      3. 給用戶推薦好友
  • 個性化閱讀

  個性化閱讀同樣符合前面提出的需要個性化推薦的兩個因素:用戶面臨信息過載的問題;用戶很多時候並沒有必須看某篇具體文章的需求,只是想了解該領域。

  新聞類的閱讀要有很強的時效性。

    • 用戶關注自己興趣的人,然后看關注用戶看的文章;

    • 收集用戶對文章的偏好,根據反饋數據不斷更新用戶個性化列表;
    • 根據用戶之間興趣相似度,給用戶推薦和他興趣相似的用戶喜歡的文章;
  • 基於位置的服務:上下文信息,位置和社交網絡的結合。
  • 個性化郵件:優先級收件箱,先瀏覽重要的,再瀏覽其他。
  • 個性化廣告
    • 個性化廣告投放技術:
      1. 上下文廣告:通過分析用戶正在瀏覽的網頁內容,投放和網頁內容相關的廣告。代表系統是谷歌的Adsense。
      2. 搜索廣告:通過分析用戶在當前會話中的搜索記錄,判斷用戶的搜索目的,投放和用戶目的相關的廣告。
      3. 個性化展示廣告:根據用戶的興趣標簽,對不同用戶投放不同的展示廣告。

 1.3 推薦系統評測

  一個完整的推薦系統一般存在3個參與方:用戶、網站、內容提供方。要考慮三方面的利益。好的推薦系統准測用戶的行為,且擴展用戶的視野,幫助用戶發現他們感興趣且不容易發現的東西;幫助商家將埋沒在長尾中的好商品推薦給可能對他感興趣的用戶;推薦系統本身收集反饋,完善推薦質量,增加交互,提高收入。

    • 推薦系統實驗方法:
      1. 離線實驗
      2. 用戶調查
      3. 在線 A/B test
    • 評測指標:
      1. 用戶滿意度
          可以以問卷的形式;一般情況下用點擊率、用戶停留時間和轉化率等指標度量用戶的滿意度。
      2. 預測准確率:在訓練集上建立用戶的行為和興趣模型預測用戶在測試集上的行為,並計算預測行為和測試集上實際行為的重合度作為預測准確率。
        • 評分預測: RMSE / MAE
        • TopN 推薦:准確率 、召回率, 准確率、召回率曲線。
        • 推薦目的是找到用戶最有可能感興趣的電影,而不是預測用戶看了電影后會給怎樣的分數(就是有的電影用戶感興趣,但看了之后給的評分會低,這個也要推薦)。
      3. 覆蓋率
          • 描述一個推薦系統對物品長尾的發掘能力。覆蓋率有不同的定義方法,最簡單的定義為推薦系統能夠推薦出來的物品占總物品集合的比例。
          • 覆蓋率是一個內容提供商會關心的指標,推薦系統不僅有較高的用戶滿意度,還有較高覆蓋率。
          • 覆蓋率的其它定義: P27 
        • 推薦系統的馬太效應:推薦系統的初衷是希望消除馬太效應,使得各種物品都能被展示給對它們感興趣的某一類人群。可以使用基尼系數來判斷是否有明顯的馬太效應。
      4. 多樣性
          為了滿足用戶廣泛的興趣,推薦列表需要能夠覆蓋用戶不同的興趣領域。多樣性描述了推薦列表中物品兩兩之間的不相似性。
      5. 新穎性:希望在不犧牲准確率的前提下提高多樣性和新穎性。
      6. 驚喜度:與歷史興趣不相似,但用戶滿意
      7. 信任度
          提高推薦系統信任度的方式有增加推薦系統的透明度(提供推薦的解釋);考慮用戶的社交網絡信息,利用好友信息給用戶做推薦,並且用好友進行推薦解釋。
      8. 實時性:新聞,微博等。
      9. 健壯性
        • 反作弊
      10. 商業指標:給公司帶來盈利。
      11. 總結

        • 指標總結
    • 評測維度
        在推薦系統評測報告中包含不同維度下的系統評測指標,能幫我們全面地了解推薦系統性能。
      • 用戶維度:主要包括用戶的人口統計學信息、活躍度以及是不是新用戶等。
      • 物品維度:包括物品的屬性信息、流行度、平均分以及是不是新加入的物品等。
      • 時間維度:包括季節,是工作日還是周末,是白天還是晚上等。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM