個性化推薦根據用戶興趣和行為特點,向用戶推薦所需的信息或商品,幫助用戶在海量信息中快速發現真正所需的商品,提高用戶黏性,促進信息點擊和商品銷售。推薦系統是基於海量數據挖掘分析的商業智能平台,推薦主要基於以下信息:
- 熱點信息或商品
- 用戶信息,如性別、年齡、職業、收入以及所在城市等等
- 用戶歷史瀏覽或行為記錄
- 社會化關系
基於人口統計學的推薦機制(Demographic-based Recommendation)是一種最易於實現的推薦方法,它只是簡單的根據系統用戶的基本信息發現用戶的相關程度,然后將相似用戶喜愛的其他物品推薦給當前用戶。
首先,系統對每個用戶都有一個用戶 Profile 的建模,其中包括用戶的基本信息,例如用戶的年齡,性別等等;然后,系統會根據用戶的 Profile 計算用戶的相似度,可以看到用戶 A 的 Profile 和用戶 C 一樣,那么系統會認為用戶 A 和 C 是相似用戶,在推薦引擎中,可以稱他們是“鄰居”;最后,基於“鄰居”用戶群的喜好推薦給當前用戶一些物品。
這種基於人口統計學的推薦機制的好處在於:
l因為不使用當前用戶對物品的喜好歷史數據,所以對於新用戶來講沒有“冷啟動(Cold Start)”的問題。
l這個方法不依賴於物品本身的數據,所以這個方法在不同物品的領域都可以使用,它是領域獨立的(domain-independent)。
然后,這個方法的缺點和問題就在於,這種基於用戶的基本信息對用戶進行分類的方法過於粗糙,尤其是對品味要求較高的領域,比如圖書,電影和音樂等領域,無法得到很好的推薦效果。另外一個局限是,這個方法可能涉及到一些與信息發現問題本身無關卻比較敏感的信息,比如用戶的年齡等,這些用戶信息不是很好獲取。
基於內容的推薦是在推薦引擎出現之初應用最為廣泛的推薦機制,它的核心思想是根據推薦物品或內容的元數據,發現物品或者內容的相關性,然后基於用戶以往的喜好記錄,推薦給用戶相似的物品。這種推薦系統多用於一些資訊類的應用上,針對文章本身抽取一些tag作為該文章的關鍵詞,繼而可以通過這些tag來評價兩篇文章的相似度。
這種推薦系統的優點在於:
l易於實現,不需要用戶數據因此不存在稀疏性和冷啟動問題。
l基於物品本身特征推薦,因此不存在過度推薦熱門的問題。
然而,缺點在於抽取的特征既要保證准確性又要具有一定的實際意義,否則很難保證推薦結果的相關性。豆瓣網采用人工維護tag的策略,依靠用戶去維護內容的tag的准確性。
原文鏈接: http://blog.csdn.net/liulingyuan6/article/details/54341761
推薦系統中常用的技術可大致分為四類:基於內容的過濾、協同過濾、基於規則的方法和混合方法。
基於內容過濾
基於內容過濾推薦系統思路如下:
(1)通過在抓取每個商品的一系列特征來構建商品檔案;
(2)通過用戶購買的商品特征來構建基於內容的用戶檔案;
(3)通過特定的相似度方程計算用戶檔案和商品檔案的相似度;
(4)推薦相似度最高的n個商品。所以,這種推薦基於與已購買商品的相似度來進行推薦。
最初,這種系統用於文檔推薦如網絡新聞, 網頁以及書籍。 用戶檔案和商品檔案都以使用信息提取技術或信息過濾技術提取出的關鍵詞集合來表示。鑒於兩個檔案都以權重向量的形式表示,則相似度分數則可以使用如余弦近似度方程或皮爾森相關系數等啟發式方程來計算得到。其它的技術如分類模型,構建一個統計方法或者數據挖掘方法,來判斷文檔內容和用戶是否相關。
基於內容過濾局限:
(1)不容易找到足夠數量的特征來構建檔案(特征缺少問題);
(2) 推薦內容局限於目標用戶已購買商品(超特化問題);
(3) 還未有購買記錄的新用戶或偏好特殊的用戶不能得到合適的推薦(新用戶、特殊用戶問題) 。
其中基於規則的方法
基於關聯規則的推薦系統的首要目標是挖掘出關聯規則,也就是那些同時被很多用戶購買的物品集合,這些集合內的物品可以相互進行推薦。目前關聯規則挖掘算法主要從Apriori和FP-Growth兩個算法發展演變而來。
基於關聯規則的推薦系統一般轉化率較高,因為當用戶已經購買了頻繁集合中的若干項目后,購買該頻繁集合中其他項目的可能性更高。該機制的缺點在於:
l計算量較大,但是可以離線計算,因此影響不大。
l由於采用用戶數據,不可避免的存在冷啟動和稀疏性問題。
l存在熱門項目容易被過度推薦的問題。
使用數據挖掘技術從大量的過往交易數據中獲取規則。它可以是會同時被購買的商品之間的關聯規則,也可以是按時間依次被購買商品的序列模型。基於規則的推薦方法的主要局限為難以為沒有在關聯規則或序列模型中出現的商品進行推薦。Aggarwal提出了一種針對目標市場的發現局部關聯規則的技術。他們首先聚類分析了來自UCI機器學習數據中的蘑菇數據集和成人數據集兩個購物籃數據,然后從每個類別中提取關聯規則。Huang提出了一個序列模式推薦系統來預測超市中顧客隨時間變換的購買行為。