《數據分析的統計基礎》學習筆記（二）描述性統計分析

本文轉載自查看原文 2015-10-23 13:40 3846 數據分析

前言：進行之前需要安裝SPSS，office 2013。

2.1 名詞解釋

2.1.1 直方圖（Histogram）

又稱質量分布圖。是一種統計報告圖，由一系列高度不等的縱向條紋或線段表示數據分布的情況。一般用橫軸表示數據類型，縱軸表示分布情況。

2.1.2 數據計量尺度

指對計量對象量化時采用的具體標准，它分為四類：定類尺度、定序尺度、定距尺度和定比尺度。

2.1.3 集中趨勢

指一組數據向某一中心值靠攏的程度，它反映了一組數據中心點的位置所在。（平均數、中位數、眾數）

2.1.4 離中趨勢

指一組數據向某一中心值分散的程度，它反映了各個數據遠離其中心點的程度，它從另一個側面說明了集中趨勢測度值的代表程度。（極差，四分位距，

　　平均差，方差，標准差，離散系數）

2.1.5 偏態

數據分布的不對稱性稱作偏態。

2.1.6 峰度

峰度是指數據分布的尖鞘程度或峰凸程度。

2.2 數據的計量尺度

數據的計量尺度一覽表

名稱	邏輯與數學運算	常見例子	數據類型
定類尺度	等於、不等於	性別、民族、職業	定性數據
定序尺度	等於、不等於、大於、小於	職稱、健康狀況、質量等級	定性數據
定距尺度	等於、不等於、大於、小於加法、減法	年份、攝氏溫度、緯度	定量數據
定比尺度	等於、不等於、大於、小於四則運算	質量、長度、能量	定量數據

2.3 數據的集中趨勢

2.3.1 定量數據：平均數

平均數是概括數據的一個強有力的方法，它通過消除極端數據的差異將大量的數據濃縮成一個數據來概括，可以較好地實現數據集中趨勢的度量，但這種過度的　　濃縮使其存在容易受極端值影響的缺點。

比如數列1，2，2，3直方圖面積的50%在平均數2的左邊，50%在平均數的右邊，每一個數占25%的頻率。但當改變數列中最后一值，3變為5或者7 。由於　　每個數的頻率為0.25，因此最后一個的變化不會影響數的頻率，但由於數據值的變化，使得平均數發生了變化。

平均數隨極端值的變化而變化，而且有向極端值靠近的趨勢，因此平均數容易收到極端值的影響。

2.3.2 順序數據：中位數和分位數

一組數據按大小順序排列后，處在數列中點位置的數值，稱為中位數。中位數從中間一個點將全部數據分為兩部分。

中位數主要用於測試順序數據的集中趨勢，當然也適用於作為定量數據的集中趨勢，但不適合分類數據。

中位數的計算：

1.當n為奇數，中位數等於(n+1)/2個數對應的值。

2.當n為偶數，中位數等於n/2和n/2+1的兩個數的平均值。

中位數是一個位置代表值，其特點是不受極端值的影響，在分析收入分配等數據時很有用。

2.3.3 分類數據：眾數

它主要適用於分類數據，當然也適用於順序數據和定量數據。一般只有在數據量較大的情況下，眾數才有意義。

眾數是指一組數據中出現次數最多的變量值。其主要特點是不受極端值的影響，但在一組數據中眾數不唯一，有可能有多個眾數或者沒有眾數。

2.4 數據的離中趨勢

2.4.1 極差

極差也叫全距，是一組數據中的最大值和最小值的差距。公式表示為：極差= 最大值-最小值如果統計數據已經整理過，並形成組距數列，則極差的近視值為：　　極差= 最大組的上限-最小組的下限

極差是測定離中趨勢的一種簡便方法，它能說明數據組中各數據值的最大變動范圍，但由於它根據數據組的兩個極端值進行計算的，沒有考慮到中間值的變動情　　況，所以不能充分反映數據組各項數據的離中趨勢，只是一個較粗糙的測定數據離中趨勢的指標。

在實際應用中，極差可用於粗略檢查產品質量穩定性和進行質量控制。因為在正常生產的條件下，產品質量比較穩定，誤差總在一定范圍內波動。如有不正常情　　況，誤差將會超出一定范圍。利用極差有助於及時發現問題。

2.4.2 分位距

分位距是全距的一種改進，它是從一組數據中剔除了一部分極端值后重新計算的類似於全距的指標。（四分位距、八分位距、十分位距）

四分位距是第三個四分位數減去第一個四分位數的差的一半。它排除了數列兩端各25%單位標志值的影響，反映了數據組中間部分各變量值的最大數與最小數　　距離中位數的平均離差。

例：計算數列7，6，8，9，8，4，8，6的四分位距。

a、將數列按從小到大排序：4，6，6，7，8，8，8，9

b、分成4等份：4，6 | 6，7 | 8，8 | 8，9

c、第一個四分位數 = (6+6)/2=6 ；第二個四分位數 = (7+8) /2=7.5，第三個四分位數 = (8+8)/2 = 8

d、這組數據的四分位距為：(8-6)/2=1

這種為了消除極端變量值對測定結果影響的方法，在實際生活中也是常用到的。比如在奧運比賽中，去掉評委一個最高分，一個最低分，然后再計算平均值，就　　是為了消除極端變量值對選手得分的影響。

2.4.3 平均差

平均差是數據組中各數據值與其算術平均數離差絕對值的算數平均數，常用符號“M.D”表示。

普通平均差計算：

加權平均差計算：

平均差是反映各標志值與算術平均數之間的平均差異。平均差越大，表明各標志值與算術平均數的差異程度越大，該算術均數的代表性就越小；平均差越小，表　　明各標志值與算術平均數的差異程度越小，該算術平均數的代表性就越大。當變量數列是由沒有分組的數據組或分組后每組的次數相等的數據組成時采用。

例：設某車間有兩個班組，各有10名工人，其日產量如下表（表2.5.3）：

甲組	4	7	11	14	14	16	17	24	25	28
乙組	7	12	14	14	15	17	17	19	20	25

甲組的平均值為：（4+7+11+14+14+16+17+24+25+28）/10=16

乙組的平均值為：（7+12+14+14+15+17+17+19+20+25）/10=16

則兩組工人日產量的平均差計算過程如下：

甲組

乙組

日產量	離差	離差絕對值	日產量	離差	離差絕對值
x			x
4 7 11 14 14 16 17 24 25 28	-12 -9 -5 -2 -2 0 1 8 9 12	12 9 5 2 2 0 1 8 9 12	7 12 14 14 15 17 17 19 20 25	-9 -4 -2 -2 -1 1 1 3 4 9	9 4 2 2 1 1 1 3 4 9
合計		60			36

兩組工人的平均差為：

甲組平均差= 60/10 = 6

乙組平均差= 36/10 = 3.6

也就是說，在甲，乙兩組工人平均日產量相同的情況下，甲組數據的離散程度比乙組更大。

由於平均差是根據數列中所有數值計算出來的，受極端值影響較小，所以對整個統計數列的離中趨勢有比較充分的代表性。

2.4.4 方差與標准差

方差是數據組中各數據值與其算術平均數離差平方的算術平均數。方差的平方根就是標准差。

以表2.5.3為例，計算標准差如下：

甲組

乙組

日產量	離差	離差平方	日產量	離差	離差平方
x		()²	x		()²
4 7 11 14 14 16 17 24 25 28	-12 -9 -5 -2 -2 0 1 8 9 12	144 81 25 4 4 0 1 64 81 144	7 12 14 14 15 17 17 19 20 25	-9 -4 -2 -2 -1 1 1 3 4 9	81 16 4 4 1 1 1 9 16 81
合計		548			214

兩組的平均差為：

甲組：7.40

已組：4.63

結論可看出，甲，乙兩組工人平均日產量相等的情況下，甲的標准差比乙大，所以其平均數的代表性比乙小。

標准差的實質與平均差基本相同，只是在數學處理方法上與平均差不同，平均差是用取絕對值的方法消除離差的正負號然后用算術平均的方法求出平均離差；而　　標准差是用平方的方法消除離差的正負號，然后對離差的平方計算算術平均數，並開放求出標准差。即克服了平均差消除正負號帶來的弊病，又增加了指標本身　　的“靈敏度”，這些有點，使他成為各種離中趨勢指標中的重要一種。

標准差的性質：

a，標准差度量了偏離平均數的大小。

b，標准差是一類平均偏差。

c，標准差指出了數列中的數離它們的平均數有多遠。數列大多數項離開平均數大約1個σ。極少數項將離開2個或3個σ以上。一般來講，一個數列中約68%的項　　在離平均數的1個σ范圍內，其余的32%離的較遠。約95%的數據在距平均數的2個σ范圍內，其余的5%則較遠。

2.4.5 離散系數

極差、平均差、標准差都是對數據的離中趨勢進行絕對或平均差異的測定。在通常情況下，它們都帶有計量單位，而且其離中趨勢大小與變量平均水平的高低有　　關。因此，要比較數據平均水平不同的兩組數據的離中程度的大小，就有必要計算它們的相對離中程度指標，即離散系數。

　　　　常用的是標准差系數，用CV(Coefficient of Variance)表示

　　　　CV(Coefficient of Variance): 標准差與均值的比率。

　　　　用公式表示為：CV=σ/μ

　　　　例：有甲、乙兩班同時參加統計學原理的課程測試，甲班平均成績為70分，標准差為9.0分，乙班的成績如下