基於標簽的推薦系統


一、 標簽系統

標簽是一種無層次化結構、 用來描述信息的關鍵詞, 可以作為
物品的元信息。 利用標簽可以更好地組織和推薦物品。
根據解決的問題, 可以將標簽系統分為兩種:
1. 根據 Item 的標簽為用戶推薦 Item;
2. 在用戶打標簽時, 推薦合適的 Item 的標簽;

二、 標簽算法及優化

a. 算法流程:

1. 統計每個用戶常用標簽
2. 對於每個標簽, 統計打過這個標簽次數較多的物品
3. 對於一個用戶, 找到其常用標簽, 然后找到具有這些標簽的最熱門物品

b. 興趣公式:

c. 算法優化:

上述算法有缺點, 它會的權重。 優化方式類似於 TF-IDF, 給熱門程度加一個懲罰項。

 

 

      對於標簽很少的情況,可以通過計算相似標簽來擴展標簽,計算算法可以為余弦相似度。標簽擴展可以提升准確率和召回率,但是會降低覆蓋率和新穎度

d. 標簽清理

      用戶自己打的標簽有時並不能反應物品的客觀事實,比如情緒類的標簽,有趣,並不代表別的用戶覺得有趣。

並且,不同標簽有時候會表示同一個意思,比如cpp和c++。這時候就需要規則,將這兩個標簽合並(在stackoverflow上,打cpp標簽會自動變為c++)。

三、 給用戶推薦標簽

為用戶提供標簽有兩個好處:

  1. 提高標簽質量
  2. 方便用戶輸入標簽

標簽推薦的算法:

a. 基於內容推薦,比如LDA;  

b. 根據物品熱門標簽和用戶常用標簽推薦。

四、 新聞推薦中標簽系統的想法

1. 新聞應用中,用戶閱讀新聞后,不會對新聞打標簽,所以標簽來源只會是原作者,或者系統通過基於內容的關鍵詞提取。

2. 用戶有效瀏覽新聞后,需要記錄該新聞對應的標簽,用於以后的推薦。

3. 給作者推薦標簽可以根據作者輸入的第一個字符開始推薦相關的熱門標簽。

4. 原始標簽的聚類並分層。(比如 標簽哈登和標簽卡戴珊可以生成興趣標簽NBA花邊)

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM