1 什么是購物籃分析
購物籃分析(Market basket analysis)是用來挖掘消費者已購買的或保存在購物車中物品組合規律的方法。這個概念適用於不同的應用,特別是商店運營。源數據集是一個巨大的數據 記錄,購物籃分析的目的發現源數據集中不同項之間的關聯關系。例如,購買鞋的顧客,有10%的可能也會買襪子,60%的買面包的顧客,也會買牛奶。這其中最有名的例子就是 "尿布和啤酒"的故事:
我們去沃爾瑪超市會發現一個很有趣的現象:貨架上啤酒與尿布竟然放在一起售賣,這看似兩者毫不相關的東西,為什么會放在一起售賣呢?
原來,在美國,婦女們經常會囑咐她們的丈夫下班以后給孩子買一點尿布回來,而丈夫在 買完尿布后,大都會順手買回一瓶自己愛喝的啤酒(由此看出美國人 愛喝酒)。商家通過對一年多的原始交易記錄進行詳細的分析,發現了這對神奇的組合。於是就毫不猶豫地將尿布與啤酒擺放在一起售賣,通過它們的關聯性,互相促進銷售。“啤酒與尿布”的故事一度是營銷界的神話。

2 關聯規則
2.1 簡介
那么問題來了,商家是如何發現啤酒與尿布兩者之間的關聯性呢?
這里就用到了關聯規則挖掘。大致意思就是從大量數據中找出某兩個 對象(暫且稱為X, Y)的關聯性。
關聯規則就是從一種行為中發現與之相關聯的另一種行為,即A→B,並用一定的概率度加以保 證。關聯規則廣泛的應用在零售業、金融業和互聯網行業。運用在購物籃分析中,挖掘一般顧客在購買X產品的同時還會購買其他什么產品,於是制定相應營銷策略,進行捆綁銷售,增加銷售量。
又如金融業中,預測銀行客戶需求,如果數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限 額,更高端的新信用卡,或者需要一個住房改善 貸款,這些產品都可以通過信用卡賬單郵寄給客戶。電子購物網站也使用關聯規則進行挖掘,一些購物網站使用關聯規則設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。
2.2 如何來度量一個規則是否足夠好?
有兩個量,置信度(Confifidence)和支持度(Support)。
支持度( support):
支持度也就是A和B同時出現的頻率,即P(AB)。如果A和B一起出現的頻率非常小,那么就說明了A和B之間的聯系並不大; 但若一起出現的頻率非常頻繁,那么A和B的關聯性也就自然更大。上面例子的支持度就是: 800/10000*100%=8%。
置信度(confifidence):
置信度也稱為可靠度,置信度表示了 這條規則有多大程度上值得可信。 也就是在A出現的情況下B出現的概率,即P(B|A),P(B|A)=P(AB)/P(A)。因此,上面例子的置信度就是: P(AB)=8%,P(A)=1000/10000*100%=10%,P(B|A)=8%/10%=80%
置信度揭示了B出現時,A是否一定會出現,如果出現則其大概有多大的可能出 現。如果置信度為100%,則說明了B出現時,A一定出現。那么,對這種情況而言,假設A和B是市場上的兩種商品,就沒有理由不 進行捆綁銷售了。如果置信度太低,那么就會 產生這樣的疑問,A和B關系並不大,也許與B關聯的並不是A。
最小支持度:
它表示了一組物品集在統計意義上需要滿足的最低程度。
最小可信度 :
它反映了關聯規則的最低可靠程度。
2.3 購物籃分析的應用
購物籃分析的主要應用如下:
個性化推薦:在界面上 給用戶推薦相關商品
組合優惠券:給購買過得用戶發放同時購買組合內商品的優惠券
捆綁銷售:將相關商品組合起來銷售
3 描述性統計結果
數據集中一共有9835個記錄,也就是9835個訂單,其中有2159個訂單只買了一件商品。整個數據集 總共有169種商品。
購買量最大的前五位商品分 別是:
whole milk (全脂牛奶),other vegetables (其他蔬菜),rolls/buns (甜點),soda (碳酸飲料), yogurt(酸奶)

4 Apriori關聯分析
Apriori算法實現基本流程:
①選出滿足支持度最小閾值的所有項集,即頻繁項集;
②從頻繁項集中找出滿足最小置信度的所有規則。
其實apriori算法特別好理解,就是只計算頻繁集都特別高的子集。比如在我們數據集中,頻繁集最高的單個商品是whole milk(全脂牛奶),那么,在計算並集的時候,從這個商品開始入手計算。節省了運行次數和空間。
由於默認的支持度為10%,可信度為80%,對於當前的9835條交易記錄來說過高,使得沒有這樣的交易滿足這兩個條件。因此,如果使用 Apriori算法的默認參數設置時將產生0條規則。故需要人為調整支持度和可信度,這里不妨將支持度設置為1%,即認為某種商品在購物籃中至少出現98次,可信度設置為30%,即認為同時出現某幾種商品組合的概率為30%。
