小白學數據分析之關聯分析理論篇


關聯分析的學習

在說關聯分析之前,先說說自己這段時間的一些感受吧,這段時間相對輕松一些,有一些時間自己自己來學習一些新東西和知識,然而卻發現捧着一本數據挖掘理論的書籍在一點一點的研讀實在是很漫長,而且看過了沒有什么感覺。數據這一行理論很多,算法很多,模型很多,自己現在一直是結合業務來做的數據分析與挖掘,相比電商而言,游戲業做的數據大多很糙,但是僅僅結合業務和運營,更加注重我們客戶的質量和維護,當然這不是說電商沒做,實際上電商一直在做,然而最近一次經歷發現,我們過多的時候去討論了算法,模型,新理論,新算法研究,比如爬蟲,JS,寫個腳本測試一下,驗證一下,可我一直在考慮,為什么我們要這么做?意義究竟是什么?你費了九牛二虎之力做好的研究,能夠以后一直使用,形成規范嗎?或者一直是想到一個就研究一下,用畢,放下了,再有新的在研究。

以前看了蘇傑的產品經理那本書,其中有一個例子很好,為什么停車位游戲里面就只有四個停車位,而不是八個?回答這個問題,我覺得你即使數據理論、算法在NB你也很難搞得明白,你還是要僅僅結合業務搞明白內在的一些疑問,你才能防守研究。技術流派的數據分析必須要,但是完全的主導,缺少了人性和上層的構建,厲害的技術,NB的算法也無濟於事。

然而理論,算法,模型我們還要學習,核心在於我們如何理解和使用,這些東西都是經歷了實踐的檢驗,所以才有存在和學習的意義。但請不要為技術論,過度理性的思維往往就走到死胡同,我們也需要喬爺一般的嗅覺和敏感。

廢話太多,開始吧。

關聯分析是啥?

關聯分析是數據挖掘中很重要的一類技術,其實就是挖掘事物之間的聯系。

關聯分析都研究什么關系?

關聯分析研究的關系有兩種:簡單關聯關系和序列關聯關系。

簡單關聯關系

比如在FPS游戲中,購買M4A1的玩家中80%會購買MP5沖鋒槍,這就是一種簡單的關聯關系,經典的購物籃分析中有個例子說,購買面包的顧客中80%會購買牛奶。面包和牛奶作為一種早餐的搭配是大家所接受的,二者沒有共同屬性,但是二者搭配后就是一頓美味早餐。商場購買時,如果你把這兩樣擺在一起時,就會刺激顧客的潛意識(這是定位理論的內容,以后再說,文章題目‘從定位理論來看關聯購買應用實施’),聯系了二者的關系,並刺激購買。這是一種簡單的關聯關系。

序列關聯關系

在FPS中,購買雷包的玩家中80%會購買閃光雷和高爆雷,這屬於序列關系,也就是說具有先后順序。再比如買了iphone手機的顧客中80%會選擇購買iphone手機保護殼,這就是序列關聯關系,一般沒人先去買個保護殼再去買手機。這是存在先后的時間上的順序的。這里就再說一個例子,比如裝備強化系統,我們可以衡量一下得到寶石然后去打孔鑲嵌寶石的關系或者先去打孔后去直接購買寶石的關系分析,一般游戲為了刺激玩家在強化方面的消費能力,會選擇贈送部分寶石,引導玩家強化,那么我們是否可以做一個分析?

怎么定量的分析這種關聯關系?

說到定量分析這種關系,分析就得有個算法或者公式,這就是我們約定一個規則,我們要按照規則來做分析,學名叫做關聯規則。早期是在研究超市顧客購買商品的規律方面得到廣泛應用,也就是購物籃分析。

游戲的數據分析需要做不?

關聯分析在電商、零售、保險等諸多領域廣泛應用。對於游戲數據分析來說,關聯分析的確是我們要非常重視的一塊,尤其是道具收費模式占據主導的網游市場,當然時間收費游戲也需要這樣來做,我們的運營活動效果評估,玩家的充值購買習慣,游戲行為跟蹤,精准推送都是和關聯分析有很大的關系。其實游戲中道具的消費除了玩家自身與系統的高度融合和自主消費以外,其實還有一部分隱形的消費,或者說是延伸消費,打個比方,比如我們去一個超市目標很明確就是要去買一瓶可樂,然而往往我們結賬時手里不是單純就有一罐可樂,可能還有口香糖,可能還有其他的商品,為什么?人是視覺動物,純粹理性消費存在,但是受到外界刺激和影響,往往刺激再生消費,也就是很多的沖動型消費,而在游戲中來看,就是打開這些消費,關聯分析就是尋找這些刺激因素,進而延伸玩家的消費。

關聯規則是什么?

規則這里就是一種衡量事物的標准,再說白了就是一個算法。關聯規則主要有兩種。今天就先說說簡單規則的理論部分。

簡單關聯規則

簡單關聯規則屬於無指導的學習方法,着重探索內部結構。簡單關聯規則也是我們使用最多的一類技術。算法有Apriori、GRI、Carma,其中Apriori和Carma主要是如何提高關聯規則的分析效率,而GRI注重如何將單一概念層次的關聯推廣到更多概念層次的關聯,進而揭示事物內在結構。

在網游方面的應用目前我想到了幾個:

1、  基於玩家的購買行為進行玩家區分;

2、  付費用戶流失分析,比如是否是因為某些道具的下架導致玩家付費流失;

3、  道具商城道具的位置擺放,玩家購買后的推薦購買,交叉銷售。

簡單關聯規則的數據存儲形式

數據存儲形式主要有兩種,一種是交易數據格式,另一種是表格數據格式,詳見早期一篇文章所述內容。

判斷標准

說到判斷標准,其實就是對於簡單關聯規則有效性實用性的檢驗,因為不是所有關聯規則都有效,某些規則適用范圍有限,進而這些規則不具有有效性,所以我們要有一些判斷的標准。

規則支持度(Support)

支持度,就是支持某一事件發生的概率,可以這么理解,所謂規則支持度就是表示商品A和商品B同時出現的概率(A和B同時出現這一事件的概率),即S A->B=N(A&B)/N ,N代表總的個數,N(A&B)代表同時出現A和B的次數,如果S值很低,那么規則普遍性一般,應用層次太低。

規則置信度(confidence)

 置信度,就是特定個體對待特定命題真實性相信的程度,也就是令人信服的水平,具體來說比如在商品A購買的顧客中,購買商品B的概率,或者說購買水平。這其實是一個條件概率的問題,即在A出現情況下B出現的可能性,即C A->B=N(A&B)/N(A)如果置信水平高,那么這種特定條件出現可能性就很高。

前項支持度 S A = N(A)/N

后項支持度 S B=N(B)/N

由此這里我們可以推斷出 C和S是存在關系的,即:

 C A->B = S A->B/ S A

在關聯分析,我們希望得到的規則是具有很高的C和S的。可是如果S高,但是C低,那么整個的這個規則令人信服的程度就會下降,如果反過來,那么意味着這個規則產生的普遍性不高,就是應用層有問題,但是置信水平還可以。

所以說我們雖然可以通過簡單關聯規則分析生成很多的關聯規則,然而我們必須得有一個臨界值(閾值),來控制C和S的水平,因為我們能生成很多的規則,通過閾值控制掃除一些我們不需要的或者無用的規則。

 當然了,通過我們設定的閾值的置信度和支持度就是一條有效的規則,但有效就一定意味着可以使用嗎?事實上,還不行,因為有效的規則下不一定有實際的指導意義。因為揭示出的關系有可能只是一種隨機關聯的關系。說白了就是巧合。舉一個例子,通過關聯規則我們發現購買道具A的玩家40%為男性角色,S=40%,C=40%。此時閾值為20%,看來符合以上我們所說的情況,但是我們經過分析發現玩家中那行角色比例也是40%,而這就是一種隨機關聯,不具備實用性。

因此我們需要一些指標來輔助監測規則實用性。

規則提升度(lift)

L A->B=C A->B/ S B

實際就是置信度與后項的比值。提升度反映了商品A出現對於商品B的影響程度。大於1才有意義,也就是A對於B的促進作用,越大越好。

置信差(Confidence Difference)

置信度與后項支持度的絕對值差。

CD=|C A->B-S B|

置信差進一步提高關聯規則結果的可用性,其差代表了獲得關聯規則所提供信息的多少。

置信率(Confidence Ratio)

CR=1-|min(lift,1/lift)|

置信率當然也是越高越好,有的時候我們置信差很低,那么也可以參考CR值,與剛才提到的lift相似,lift越大越好,進而這里來看,lift越大,那么CR也就越大。

當然了衡量的標准還有正態卡方、信息差,這里不再講述,感興趣自己可以看看。

下面我們說說序列關聯規則

序列關聯規則

核心在於怎么找到事物發展的前后關聯性,比如用戶訪問web站點,具體的頁面點擊習慣,購買商品過程關聯性,較為著名的比如超市商品貨架的布局。研究序列關聯性可以幫助我們推斷后續發生的可能性,並調整好順序,擴大份額。這在游戲中的道具推送,玩家與系統的交互,任務接取,道具購買有直接的關系。

如下圖所示,為玩家的購買道具時序數據,每一行為一個事務序列數,代表一個玩家。

比如1號玩家首先購買A和B,之后購買C,再次購買D,這就是一個購買序列,而這個序列對於我們分析購買流失,具有很大的意義。1號顧客的購買序列可以表示出來,此外,購買序列還可以進行分解,分列出子序列。如下圖。

定量分析序列指標

序列長度

表示序列拆分出來的子序列,以玩家1為例有3個子序列,因此序列長度為3。

序列大小

表示序列中擁有的項目數量,玩家1有四個項目,A、B、C、D。

序列支持度

序列普遍性的衡量標准,包含某個序列的序列的事事務序列數占總事務序列數的比例。比如C{D}>C{A}的支持度為2/4=0.5。

序列規則支持度

包含某序列的規則的事務占總事務的比例。

序列規則置信度

同時包含前項和后項事務數與僅包含前項事務數的比值,即支持度與前項支持度的比值。

好了,理論第一部分就到這里,以后說說兩類關聯分析的算法 Apriori、GRI、Carma、Sequence。

參考:

Clementine 數據挖掘方法及應用 薛薇著

Jiawei Han,Micheline Kamber.Data Mining:Concept and Techniques,Morgan Kaufmann Publishers,Inc.2001 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM