Mahout的推薦系統

本文轉載自查看原文 2017-04-30 10:31 11850 Hadoop Mahout概念學習系列

Mahout的推薦系統

什么是推薦系統
為什使用推薦系統
推薦系統中的算法

什么是推薦系統

為什么使用推薦系統？

　　促進廠商商品銷售，幫助用戶找到想要的商品

　　推薦系統無處不在，體現在生活的各個方面

　　圖書推薦；QQ好友推薦；優酷，愛奇藝的視頻推薦；豆瓣的音樂推薦；大從點評的餐飲推薦；世紀佳緣的相親推薦；智聯招聘的職業推薦。

　　亞馬遜的推薦系統深入到網站的各類商品，為亞馬遜帶來了至少30%的銷售額。

推薦引擎工作原理

　　推薦系統主要向用戶推薦可能感興趣商品的系統。系統會給用戶以TopN推薦給用戶商品。

　　系統主要使用的數據是用戶的歷史商品購買記錄，這部分數據存放在公司的數據庫中。

Mahout的推薦系統整體架構

推薦系統的實現

　推薦系統中的算法

Apriori算法
基於用戶
基於內容
基於協同過濾（用的最多）

Apriori算法-購物籃分析(關聯分析)

　　“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市。沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象：在某些特定的情況下，“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中，這種獨特的銷售現象引起了管理人員的注意，經過后續調查發現。
　　原來，美國的婦女通常在家照顧孩子，所以她們經常會囑咐丈夫在下班回家的路上為孩子買尿布，而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。
　　這個發現為商家帶來了大量的利潤，但是如何從浩如煙海卻又雜亂無章的數據中，發現啤酒和尿布銷售之間的聯系呢？

Apriori算法的產生

　　1993年美國學者Agrawal提出通過分析購物籃中的商品集合，從而找出商品之間關聯關系的關聯算法，並根據商品之間的關系，找出客戶的購買行為。Agrawal從數學及計算機算法角度提出了商品關聯關系的計算方法——Apriori算法。
　　沃爾瑪從上個世紀90年代嘗試將Aprior算法引入到POS機數據分析中，並獲得了成功，於是產生了“啤酒與尿布”的故事。

Apriori算法

如何尋找？
　　在歷史購物記錄中，一些商品總是在一起購買。但人看上去不是那么的直觀的，而是隱蔽的。讓計算機做這事，設法計算法讓計算機自動去找，找到這樣的模式(規律)。

目標:尋找那些總是一起出現商品。
　　mahout實戰—>機器學習實戰

　　《mahout實戰》與《機器學習實戰》一起購買的記錄數占所有商品記錄總數的比例——支持度(整體)
　　買了《mahout實戰》與《機器學習實戰》一起購買的記錄數占所有購買《mahout實戰》記錄數的比例——置信度(局部)
需要達到一定的閾值

　　支持度、置信度越大，商品出現一起購買的次數就越多，可信度就越大。

支持度：在所有的商品記錄中有2%量是購買《mahout實戰》與《機器學習實戰》
置信度：買《mahout實戰》的顧客中有60%的顧客購買了《機器學習實戰》

　　作用：找到商品購買記錄中反復一起出現的商品，幫能助營銷人員做更好的策略，幫助顧客方便購買。

　　策略：
　　　　1、同時購買的商品放一起
　　　　2、同時購買的商品放兩端

支持度、置信度轉化為數學語言進行計算：
　　A表示《mahout實戰》 B表示《機器學習實戰》

support(A->B) = P(AB) （《mahout實戰》和《機器學習實戰》一起買占總的購買記錄的比例）
confidence(A->B) = P(B|A) （購買了《mahout實戰》后，買《機器學習實戰》占的比例）

項集：項的集合稱為項集，即商品的組合。
k項集：k種商品的組合，不關心商品件數，僅商品的種類。
項集頻率：商品的購買記錄數，簡稱為項集頻率，支持度計數。
注意，定義項集的支持度有時稱為相對支持度，而出現的頻率(比例)稱為絕對支持度。
頻繁項集：如果項集的相對支持度滿足給定的最小支持度閾值，則該項集是頻繁項集。
強關聯規則:滿足給定支持度和置信度閾值的關聯規則