[推薦系統]推薦系統相關概念梳理 - 碼上歡樂

相關內容簡體繁體

[推薦系統]推薦系統相關概念梳理

本文轉載自查看原文 2019-11-10 10:12 285

推薦概念

信息過濾系統解決信息過載用戶需求不明確的問題
- 利用一定的規則將物品排序展示給需求不明確的用戶
推薦搜索區別
- 推薦個性化較強，用戶被動的接受，希望能夠提供持續的服務
- 搜索個性化弱，用戶主動搜索，快速滿足用戶的需求
推薦和 web項目區別
- 構建穩定的信息流通通道
- 推薦信息過濾系統
- web 對結果有明確預期
- 推薦結果是概率問題

Lambda 架構介紹

離線計算和實時計算共同提供服務的問題
離線計算優缺點
- 優點能夠處理的數據量可以很大比如pb級別
- 缺點速度比較慢分鍾級別的延遲
實時計算
- 優點響應快來一條數據處理一條 ms級別響應
- 缺點處理的數據量小一些
離線計算的框架
- hadoop hdfs mapreduce
- spark core , spark sql
- hive
實時計算框架
- spark streaming
- storm
- flink
消息中間件
- flume 日志采集系統
- kafka 消息隊列
存儲相關
- hbase nosql數據庫
- hive sql操作hdfs數據

推薦算法架構

召回
- 協同過濾算相似度 memory base
  
  基於模型的 model base 矩陣分解
- 基於內容
  - 分詞
  - 詞權重（提取關鍵詞） tf-idf
  - word2Vec 詞向量
  - 物品向量
排序
- 邏輯回歸
策略調整

推薦模型構建流程

數據收集
- 顯性評分
- 隱性數據
特征工程
- 協同過濾：用戶-物品評分矩陣
- 基於內容：分詞 tf-idf word2Vec
訓練模型
- 協同過濾
  - kNN
  - 矩陣分解梯度下降 ALS
評估、模型上線

協同過濾思路介紹

CF 物以類聚人以群分
做協同過濾的話首先特征工程把用戶-物品的評分矩陣創建出來
基於用戶的協同過濾
- 給用戶A 找到最相似的N個用戶
- N個用戶消費過哪些物品
- N個用戶消費過的物品中-A用戶消費過的就是推薦結果
基於物品的協同過濾
- 給物品A 找到最相似的N個物品
- A用戶消費記錄找到這些物品的相似物品
- 從這些相似物品先去重-A用戶消費過的就是推薦結果

相似度計算

余弦相似度、皮爾遜相關系數
- 向量的夾角余弦值
- 皮爾遜會對向量的每一個分量做中心化
- 余弦只考慮方向不考慮向量長度
- 如果評分數據是連續的數值比較適合中余弦、皮爾遜計算相似度
傑卡德相似度
- 交集/並集
- 計算評分是0 1 布爾值的相似度

使用不同相似度計算方式實現協同過濾

如果買/沒買點/沒點數據 0/1 適合使用傑卡德相似度
- from sklearn.metrics import jaccard_similarity_score
- jaccard_similarity_score(df['Item A'],df['Item B'])
- from sklearn.metrics.pairwise import pairwise_distances
- user_similar = 1-pairwise_distances(df,metric='jaccard')
一般用評分去做協同過濾推薦使用皮爾遜相關系數
- 評分預測
- $$
  pred(u,i)=\hat{r}{ui}=\cfrac{\sum{v\in U}sim(u,v)*r_{vi}}{\sum_{v\in U}|sim(u,v)|}
  $$
基於用戶和基於物品的協同過濾嚴格上說，屬於兩種算法，實踐中可以都做出來，對比效果，選擇最靠譜的

協同過濾基於模型的算法

用戶-物品矩陣比較稀疏的時候直接去取物品向量用戶向量計算相似度不太適合
基於模型的方法可以解決用戶-物品矩陣比較稀疏的問題
矩陣分解
- 把大的矩陣拆成兩個小的用戶矩陣物品矩陣 MXN 大矩陣 M X K K X N K<<M k<<N
- 大矩陣約等於用戶矩陣乘物品矩陣
- 使用als 交替最小二乘法來優化損失 spark ML recommandation 包封裝了als
- 優化之后的用戶矩陣取出用戶向量
- 優化之后的物品矩陣取出物品向量
- 用戶向量點乘物品向量得到最終評分的預測

推薦系統的評價

准確率覆蓋率
- 准確率
  - 學術 rmse mas 點擊率預估精准率
  - 工程 A/B test 對比不同的算法在線上運行對關鍵指標的影響
    - baseline 基准線熱門排行
    - 灰度發布
EE
- Exploitation & Exploration 探索與利用問題
- Exploitation 利用用戶的歷史行為只給他曾經看過的/消費過的相似物品
- Exploration(探測搜索) 發現用戶的新興趣
- ee問題實際上是矛盾
評估手段
- 離線評估和在線評估結合, 定期做問卷調查
  - 在線評估
    - 灰度發布 & A/B測試

推薦系統的冷啟動

用戶冷啟動
- 盡可能收集用戶信息構建用戶畫像（打標簽）
- 根據用戶的標簽可以做人群聚類用以有用戶的行為做推薦
- 更多的使用流行度推薦
物品冷啟動
- 物品打標簽構建物品畫像
- 基於內容的推薦
系統冷啟動
- 如果應用缺少用戶行為數據->基於內容的推薦
- 隨着用戶行為積累的越來越多->協同過濾
- 基於內容和協同過濾共同工作

基於內容的推薦

給物品打標簽
- 系統自己提取從業務數據庫中提取
- 用戶填寫
- 中文分詞利用算法計算詞的權重
  - tf-idf tf term frequency 詞頻 5/100 *2
    - idf 逆文檔頻率 log 10 文本庫篇數/出現關鍵詞的文章篇數
    - 1000 10python 1000/10 100 2
    - 1000/1000 log(1) = 0
  - textrank
利用標簽的文字轉換成詞向量
- word2Vec 詞->向量
- 用向量來表示語義
- 如果兩個詞的詞向量相似度比較高認為這兩個詞的語義相近
利用詞向量構建物品的向量
- 一個物品有N個關鍵詞每一個關鍵詞對應一個詞向量
- 求和（權重*詞向量）/N
- 利用N個關鍵詞的詞向量獲取物品向量
通過物品向量計算相似度
- 皮爾遜相關系數計算物品向量的相似度

基於內容的推薦基於物品的協同過濾區別

content_base ：詞向量->物品向量->計算相似度
item_based cf :user-item matrix->物品向量->相似度
content_base item_based cf 不一樣
- 物品向量構建過程有區別
- 基於內容的推薦
  - 物品向量文本（物品描述信息，系統填標簽，用戶填標簽）
- 基於物品的協同過濾
  - 用戶對物品的評分矩陣用戶的行為數據中來

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 推薦系統相關比賽-kaggle 推薦系統相關算法(1)：SVD 推薦系統推薦系統推薦系統之--- 推薦系統實例談談推薦系統（一）什么是推薦系統【推薦系統】一、推薦系統簡介推薦系統（3)---推薦可能遇到的問題【推薦系統篇】--推薦系統之訓練模型基於Spark的電影推薦系統（推薦系統~7）

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM