小白學數據分析-----> 利用SPSS對DAU/MAU進行比率分析


最近在看幾個數據分析平台的數據,基本上都有DAU/MAU這個指標,這個指標很早之前就在社交游戲平台得以廣泛使用,對於這個指標的一些解析,以前有寫過,今天換個角度,通過比率分析來具體的分析一下這個DAU/MAU。或許從中你會得到一些其他的信息。

DAU/MAU的傳統分析與局限性

首先,我們來看一下這個圖:

此圖總結的是2011年12月25日到2012年9月19日的DAU/MAU的比值曲線圖,可以看到初期的的變化比較劇烈,這點是因為剛剛開始測試,初期的DAU導入速度比MAU導入速度更快一些,因此此時比值相對較高,因為初期的DAU貢獻主要來自於新登用戶,DAU的快速擴張能力很強。

但是我們去除初期的幾個上線版本時期的數據,得到新的曲線時,就會發現其實這個比值存在一些差異的情況,比如圖中的2月份,每日產生的DAU/MAU彼此之間的差異很顯著。也就是全距很大,這樣算數平均計算出來的每月DAU/MAU就會出現問題,不夠准確反映該月的粘性情況(其實在這里我們計算的平均月DAU/MAU是一個加權均值)。

關於剛才提到的算數平均值有時候不穩定的原因,我這里拿出來一張8個月的箱線圖,可以看到1,4,7這三個月的每日比值是存在一些離群點的,DAU/MAU是從宏觀上來看用戶粘性和登錄情況的(一般我們都是平均一個月的DAU/MAU),如果我們看到以上的情況,那么我們DAU/MAU的這種平均計算式有問題的,這樣計算平均值(算數),就會屏蔽了真實情況,在此箱線圖為解釋該問題的說明。有關箱線圖的認識請參考我以前的文章。

下面是DAU和MAU的趨勢圖,能夠看到盡管數量級不同,但是整體曲線的走勢是一致的,這點直接反饋在DAU/MAU這個比值上,因此這個比值的參考意義就很大了。但是如剛才所言,我們是參考每個月的平均比值水平,這種做法其實如果我們要做幾個月之間的活躍和粘性分析時是不夠准確的。因此我們還要采用一些其他的辦法。

DAU

MAU

關於數據分類可以參看一下的內容:http://baike.baidu.com/view/7032740.htm

DAU/MAU的分析探討

針對這個指標我做了兩個方面的探討,第一個就是引入幾何平均數來處理這個指標,針對該方法的詳細探討這里不去詳說,主要就是對於加權均值的處理發生了變化。該方法的核心就是幾何平均數的使用,這部分知識請參見幾何平均數的概念和使用。

第二個探討就是今天的主角,引入比率分析法。

比率分析主要用於對兩個變量間變量值的比率變化進行描述分析,適用於定距型變量。關於數據分類可以參看一下的內容:http://baike.baidu.com/view/7032740.htm

比率分析能夠提供中位數、均值等基本的統計指標,當然了也提供離差系數(COD),價格相關微分(PRD)等等,進而刻畫出比率變量的集中趨勢和離散程度。這種比率分析實際上應用范圍和形式很廣泛。SPSS提供了比率分析的功能,此處我就用SPSS來分析一下DAU/MAU。

首先打開該模塊,如下圖所示:

打開以后我們看到如下的對話框

在此對話框中,分子我們選擇DAU,分母就是MAU,組變量就是比率分析中的分組變量,一般為名義或者序數度量。

接下來,我們打開統計量按鈕,彈出如下的對話框

這里面分成了集中趨勢部分、離散部分、集中指數部分、中位數百分比之內部分。

集中趨勢提供了一些基本統計指標,具體含義如下:

中位數:小於該值的比率數與大於該值的比率數相等;

均值:比率的總和除以比率的總數所得的結果;

權重均值:分子的均值除以分母的均值所得到的結果;

置信區間:顯示均值、中位數和加權均值的置信區間,取值范圍0-100.

離散提供了測量觀察值中的變量差或分散量,具體含義如下:

AAD(Average Absolute Deviation):平均絕對偏差,計算公式為

COD(Coefficient of Dispersion):離差系數

PRD(Price-related Differential):價格相關微分,回歸系數,即均值除以加權均值所得到的值;

中位數居中COV(Median Centered COV):中位數居中的方差系數

均值居中COV(Mean Centered COV):均值居中的方差系數

標准差:比率與比率均值間的偏差的平方和,再除以比率總數減一,取正的平方根所得到的值;

范圍:最大比率減去最小比率;

最大值:最大比率;

最小值:最小比率。

集中指數主要是用於度量落在某個區間的比率百分比主要有三部分:

低比例:最低比率小於1;

高比例:最高比例大於1;

中位數百分比之內:通過指定中位數的百分比而隱式定義區間大小,輸入范圍在0-100,計算區間下界(1-0.01*值)*中位數,上屆(1+0.01*值)*中位數

結果分析

我們選擇,均值、中位數、均值居中COV、COD、高低比例在0.05-0.8之間。確定后看輸出結果如下:

首先看到的是摘要部分,這里看到我們選擇了8個月的數據,進行分析。

隨后就是我們要看到的分析部分

首先能看到均值(mean),隨后是中位數(median)這兩列能夠大概比較一下均值與中位數之間的偏離程度。比較明顯的能夠看到在1月份和2月份的差距比較大,這種差距可以參考離散系數這一列的數值,從離散系數的大小能夠分析出該月的DAU/MAU比值的離散程度。可以看出來,從一月份之后離散程度逐漸下降。

方差系數部分我們選擇了均值居中cov,1月、2月、4月的方差系數較大,因此這三個月的變化比較大。

集中系數部分我們選擇的百分比例在0.05-0.8之間,可以看到除了2月份以外,集中程度較高的是1月份、3月份、但是4月份的集中程度很低。此處,單獨看集中程度不能說明數據的穩定,還要參考比如離散系數,均值集中情況綜合分析。最后我們來看一下DAU/MAU的曲線,來驗證我們剛才所得到的結論。

從我們的比率分析以及曲線趨勢來看,從5月份以后我們的DAU/MAU比值趨於穩定,用戶的游戲粘性和活躍情況相對開始穩定,但是之前的1月份到4月份的情況變化比較大,需采用其他輔助的形式予以判斷。從DAU/MAU的這個分析上我們大致也知道了產品的震盪浮動期是4-5個月,隨后進入相對穩定的時期。這點是從產品的生命周期角度來看的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM