推薦算法-基於內容的推薦

本文轉載自查看原文 2019-09-04 14:59 754 推薦系統

根據推薦物品的元數據發現物品的相關性，再基於用戶過去的喜好記錄，為用戶推薦相似的物品。

一、特征提取：抽取出來的對結果預測有用的信息

對物品的特征提取-打標簽(tag)

對文本信息的特征提取-關鍵詞

二、特征工程：使用專業背景知識和技巧處理數據，使得特征能在機器學習算法上發揮更好的作用的過程

特征工程步驟：

1、特征清洗

2、特征處理：特征按照數據類型分類，有不同的特征處理方法

　　　　a、數值型：

　　　　　　歸一化：

　　　　　　離散化：

　　　　　離散化的兩種方式：等步長【簡單】、等頻【更精准，但每次需要對數據分布進行重新計算】

　　　　b、類別型：數據本身沒有大小關系，要做到公平，又能夠分開他們

　　　　　　One-Hot編碼/啞變量：將類別型數據平行的展開【特性空間會膨脹】。

　　　　c、時間型：既可以做離散值又可以看作連續值

　　　　d、統計型：加減平均、分位線、次序性，比例類

3、特征選擇

三、基於UGC的推薦

1、用戶生成標簽(UGC)：

用戶用標簽來描述對物品的看法，所以用戶生成標簽(UGC)是聯系用戶和物品的紐帶，也是反應用戶興趣的重要數據源

2、三元組(用戶u，物品i，標簽b) ：用戶u給物品i打上了標簽b

3、用戶u對物品i的興趣公式為：

4、UGC問題：

傾向於給熱門標簽、熱門物品比較大的權重，推薦的個性化、新穎度就會降低

四、詞頻-逆文檔頻率（Term Frequency-Inverse Doucment Frequency TF-IDF）

TF-IDF：信息檢索與文本挖掘的常用加權技術。

用以評估一個字詞對於一個文件集或一個語料庫中的其中一份文件的重要程度。

字詞的重要性隨着它在文件中出現的次數成正比增加，但同時會隨着它在預料庫中出現的頻率成反比下降。

TF-IDF的主要思想是：

如果某個單詞在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。