小白學數據分析------>描述性統計術語匯總


以下所說的統計學術語大家可以參考小蚊子blog的內容

http://blog.sina.com.cn/s/blog_49f78a4b0102dwz9.html

術語是幫助我們打開思路,通過多個角度對數據進行深度解讀,數據分析師不能僅僅靠着對數據的一種感覺和敏感來進行數據分析,這樣的主觀性太強,在合理必要的情況下,使用前人已經總結和使用的方法往往對我們更有幫助,但也要記住不要陷入這個指標誤區中,核心還在於人(但不是讓你憑感覺作分析),在於人對待問題的思考方式,解決辦法。

今天來說說描述性統計分析,統計性描述分析是作為統計分析的第一步,在日常的數據分析中其實我們經常使用一些特征值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特征值對於我們有一定的幫助,描述性統計分析是進行正確的統計推斷的先決條件。通過數據的分布類型和特點、集中和離散程度可進行初步分析。

鄙人經常使用Excel或者SPSS進行描述性的統計分析,描述性的統計分析包括數據收集、整理、顯示,對數據信息的初步提取分析,在SPSS中我們有專門的描述性分析,其中涉及了很多的統計量,今天就索性把這些都列出來,給大家參考學習一下,需要說明的是這里列出來的不代表你就必須使用這些統計量,還是要根據業務的需要,適當的選取參考的統計量指標,這些指標是幫助我們分析數據異動,變化的“工具”,但請不要陷入指標的誤區,每個指標的使用都是有一定的適用范圍,大家需謹慎使用。

集中趨勢:平均數(算數平均數、幾何平均數、調和平均數、算術-幾何平均數、平均數不等式)、眾數、中位數等。

離散程度:全距、內距、平均差、標准誤、離散系數等。

分布:偏態系數、峰度系數,反映數據偏離正態分布的程度。

下面為大家解釋一下這些統計量,知識源於MBALIB、百度百科、wiki。

首先來看平均數,平均數是統計學最常用的統計量,用於表示各觀測值相對集中較多的中心位置,可以說是對數據集中趨勢的反映,通常情況下初學者容易把平均數認為一組數據之和除以該組數據的個數,其實這樣認識是有一定問題的,嚴格來說,平均數包括算數平均數、幾何平均數、調和平均數、眾數和中位數。具體的來看一下每個平均數的定義,適用范圍。

算數平均數:各觀測值的總和除以觀測值個數所得的商,簡稱平均數或均數,在統計學上的優點就是它較中位數、眾數更少受到隨機因素影響,缺點是它更容易受到極端數影響。比如在游戲日活躍人數方面,不同的游戲的活躍波動幅度是不同的,有的游戲會出現明顯的異動和極值情況,比如一周內,周五、周六和周日的日活躍和PCU非常高,那么我們在計算這一周7天的平均日活躍時最好是不要計算一周的算數平均數,當然波動幅度不是非常大還是可以使用的,如下圖所示的兩款游戲的日活躍曲線,A游戲最好分開計算周末和平日的日活躍,B游戲則不需要分開計算。

A游戲

B游戲

(http://zh.wikipedia.org/wiki/%E7%AE%97%E6%95%B8%E5%B9%B3%E5%9D%87%E6%95%B8)

幾何平均數:n個變量值連乘積的n次方根,適用於對比率數據的平均,並主要用於計算數據平均增長(變化)率。

如下圖所示的DAU-1和DAU-2的波動率就是使用了幾何平均數來進行的計算,在Excel中有專門的統計函數計算幾何平均數Geomean(),通過對環比-DAU-1和環比-DAU-2進行幾何平均數的計算得到兩個波動率,來衡量數據在每天的波動情況,進而進行下一步深入的分析過程。

(http://wiki.mbalib.com/wiki/%E5%B9%B3%E5%9D%87%E6%95%B0)

調和平均數:求一組數值的平均數的方法中的一種,一般是在計算平均速率時使用,在游戲數據分析方面暫時沒有想到應用之處。

眾數:指一組數據中出現次數最多的那個數據,一組數據可以有多個眾數,也可以沒有眾數。從分布角度看,眾數是具有明顯集中趨勢的數值。眾數不受極大或極小值的影響。眾數的計算只有在總體比較多,而且又是明顯集中於某個變量值時才具有意義,舉個例子,比如我們看待游戲中交易成交的價格是多少,就可以利用計算眾數幫助分析。

(http://wiki.mbalib.com/wiki/%E5%B9%B3%E5%9D%87%E6%95%B0)

中位數:將數據按大小順序排列起來,形成一個數列,居於數列中間位置的那個數據。所研究的數據中有一半小於中位數,一半大於中位數。中位數的作用與算術平均數相近,也是作為所研究數據的代表值。在一個等差數列或一個正態分布數列中,中位數就等於算術平均數。

在數列中出現了極端變量值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變量值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。

在玩家的金幣存留和消耗方面,我們會使用中位數作為一種輔助的分析思路,玩家的消費能力和充值能力會受到個人的能力等其他因素的影響,那么意味着這其中必然存在低端消費充值,也存在高端的消費充值,在使用算數平均數計算ARPU的同時,我們也利用中位數進行性付費客群的消費和充值的划分和研究,究竟在付費用戶金子塔中,50%的消費充值居於什么樣的水平,和ARPU的計算究竟差多少,如果是嚴格的正態分布,那么ARPU和中位數應該是一致的,但實際肯定不一致,我們要看看這個峰度系數究竟是多少,當然只看這個是不夠的,在眾數存在的情況下,結合這幾個指標,橫向和縱向的對比分析,能夠幫助我們打開一下思路進行分析。

http://wiki.mbalib.com/wiki/%E5%B9%B3%E5%9D%87%E6%95%B0

全距:最大值與最小值之間的差距,離散程度的最簡單測度值,易受極端值影響。

內距(四分位差):將一組數據從小到大升序排列,分成4等分,出於1/4,1/2,3/4的數就是四分位數,有關四分位數的一些內容可以參考箱線圖那篇文章內容的描述。

平均差:總體所有單位與其算術平均數的離差絕對值的算術平均數。平均差是一種平均離差。離差是總體各單位的標志值與算術平均數之差。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須講離差取絕對數來消除正負號。

平均差是反應各標志值與算術平均數之間的平均差異。平均差異大,表明各標志值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。

http://baike.baidu.com/view/1244191.htm

標准誤:樣本均數的標准差,是描述均數抽樣分布的離散程度及衡量均數抽樣誤差大小的尺度,反映的是樣本均數之間的變異。標准誤不是標准差,是多個樣本平均數的標准差。

標准誤用來衡量抽樣誤差。標准誤越小,表明樣本統計量與總體參數的值越接近,樣本對總體越有代表性,用樣本統計量推斷總體參數的可靠度越大。因此,標准誤是統計推斷可靠性的指標。

(http://baike.baidu.com/view/538412.htm)

離散系數:又稱變異系數,是統計學當中的常用統計指標,主要用於比較不同水平的變量數列的離散程度及平均數的代表性。

變異系數是衡量資料中各觀測值變異程度的一個統計量。當進行兩個或多個資料變異程度的比較時,如果度量單位與平均數相同,可以直接利用標准差來比較。如果單位和(或)平均數不同時,比較其變異程度就不能采用標准差,而需采用標准差與平均數的比值(相對值)來比較。

(http://baike.baidu.com/view/108059.htm)

偏態系數:以平均值與中位數之差對標准差之比率來衡量偏斜的程度,偏態系數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態系數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。偏態系數是根據眾數、中位數與均值各自的性質,通過比較眾數或中位數與均值來衡量偏斜度的。

(http://baike.baidu.com/view/1393095.htm)

峰度系數:用四階中心矩來測定峰度的,反映頻數分布曲線頂端尖峭或扁平程度的指標,在正態分布情況下,峰度系數值是0。正的峰度系數說明觀察量更集中,有比正態分布更長的尾部;負的峰度系數說明觀測量不那么集中,有比正態分布更短的尾部

(http://baike.baidu.com/view/1265654.htm)

標准差:方差的算術平方根,反映組內個體間的離散程度。一組數據的平均值及標准差常常同時作為參考的依據。從某種意義上說,如果用平均值來考量數值的中心的話,則標准差也就是對統計的分散度的一個"自然"的測度。

http://zh.wikipedia.org/wiki/%E6%A8%99%E6%BA%96%E5%B7%AE

方差:描述離散程度,也就是該變量離其期望值的距離。

http://zh.wikipedia.org/wiki/%E6%96%B9%E5%B7%AE

P.S.這些都是一些統計上的術語,今天說的主要是描述統計方面的基本術語,這些不需要我去解釋,只是這里通過我自己的搜索和學習,幫助各位新人了解和學習一下,知識很多,但不一定都要去學習,先把和工作有關,能幫助我們分析的術語了解,掌握,慢慢融匯的學習,每一個術語都有使用的范圍和限定,大家要靈活和謹慎。當我們使用SPSS,SAS這些軟件時會涉及這些術語,我們可能不需要了解具體是怎么計算的,但是我們起碼要知道這些術語能代表什么含義,同時把這些計算出來的指標橫向的和縱向的分析一下,不要只抓着一個中位數或者眾數,你還要看到算術平均數等其它的指標,綜合分析。這點很重要。關於這些指標的更加有力的解釋,大家可以關注小蚊子的微博,最近他做了一個統計術語分享解釋的內容,很不錯,這里給大家地址(http://blog.sina.com.cn/s/blog_49f78a4b0102dwz9.html

近期會給大家說說怎么通過SPSS進行描述性分析,大家可以自己看看研究一下,其實很簡單,我只是做個帖子幫助新人熱熱身。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM