《數據分析的統計基礎》學習筆記(二) 描述性統計分析


前言:進行之前需要安裝SPSS,office 2013。

2.1 名詞解釋
      2.1.1 直方圖(Histogram)
          又稱 質量分布圖。是一種統計報告圖,由一系列高度不等的縱向條紋或 線段表示數據分布的情況。 一般用 橫軸表示數據類型,縱軸表示分布情況。
      2.1.2 數據計量尺度
          指對計量對象量化時采用的具體標准,它分為四類:定類尺度、定序尺度、定距尺度和定比尺度。
      2.1.3 集中趨勢
          指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在。( 平均數中位數眾數
      2.1.4 離中趨勢
          指一組數據向某一中心值分散的程度,它反映了各個數據遠離其中心點的程度,它從另一個側面說明了集中趨勢測度值的代表程度。( 極差四分位距
   平均差方差標准差離散系數
      2.1.5 偏態
          數據分布的不對稱性稱作偏態。
      2.1.6 峰度
          峰度是指數據分布的尖鞘程度或峰凸程度。
 
2.2 數據的計量尺度
          數據的計量尺度一覽表
          
名稱
邏輯與數學運算
常見例子
數據類型
定類尺度 等於、不等於 性別、民族、職業
定性數據
定序尺度 等於、不等於、大於、小於 職稱、健康狀況、質量等級
定性數據
定距尺度
等於、不等於、大於、小於
加法、減法
年份、攝氏溫度、緯度
定量數據
定比尺度
等於、不等於、大於、小於
四則運算
質量、長度、能量
定量數據
 
2.3 數據的集中趨勢
      2.3.1 定量數據:平均數
          平均數是概括數據的一個強有力的方法,它通過消除極端數據的差異將大量的數據濃縮成一個數據來概括,可以較好地實現數據集中趨勢的度量,但這種過度的   濃縮使其存在容易受極端值影響的缺點。
          比如數列1,2,2,3直方圖面積的50%在平均數2的左邊,50%在平均數的右邊,每一個數占25%的頻率。但當改變數列中最后一值,3變為5或者7 。由於   每個數的頻率為0.25,因此最后一個的變化不會影響數的頻率,但由於數據值的變化,使得平均數發生了變化。
          平均數隨極端值的變化而變化,而且有向極端值靠近的趨勢,因此平均數容易收到極端值的影響。
      2.3.2 順序數據:中位數分位數
           一組數據按大小順序排列后,處在數列中點位置的數值,稱為中位數。中位數從中間一個點將全部數據分為兩部分。
          中位數主要用於測試順序數據的集中趨勢,當然也適用於作為定量數據的集中趨勢,但不適合分類數據。
          中位數的計算:
          1.當n為奇數,中位數等於(n+1)/2個數對應的值。
          2.當n為偶數,中位數等於n/2和n/2+1的兩個數的平均值。
          中位數是一個位置代表值,其特點是不受極端值的影響,在分析收入分配等數據時很有用。
      2.3.3 分類數據:眾數
          它主要適用於分類數據,當然也適用於順序數據和定量數據。一般只有在數據量較大的情況下,眾數才有意義。
          眾數是指一組數據中出現次數最多的變量值。其主要特點是不受極端值的影響,但在一組數據中眾數不唯一,有可能有多個眾數或者沒有眾數。
 
2.4 數據的離中趨勢
      2.4.1 極差
          極差也叫全距,是一組數據中的最大值和最小值的差距。公式表示為:極差= 最大值-最小值如果統計數據已經整理過,並形成 組距數列,則極差的近視值為:   極差= 最大組的上限-最小組的下限
          極差是測定離中趨勢的一種簡便方法,它能說明數據組中各數據值的最大變動范圍,但由於它根據數據組的兩個極端值進行計算的,沒有考慮到中間值的變動情   況,所以不能充分反映數據組各項數據的離中趨勢,只是一個較粗糙的測定數據離中趨勢的指標。
          在實際應用中,極差可用於粗略檢查產品質量穩定性和進行質量控制。因為在正常生產的條件下,產品質量比較穩定,誤差總在一定范圍內波動。如有不正常情   況,誤差將會超出一定范圍。利用極差有助於及時發現問題。
      2.4.2 分位距
          分位距是全距的一種改進,它是從一組數據中剔除了一部分極端值后重新計算的類似於全距的指標。( 四分位距、八分位距、十分位距)
          四分位距是第三個四分位數減去第一個四分位數的差的一半。它排除了數列兩端各25%單位標志值的影響,反映了數據組中間部分各變量值的最大數與最小數   距離中位數的平均離差。
          例:計算數列7,6,8,9,8,4,8,6的四分位距。
          a、將數列按從小到大排序:4,6,6,7,8,8,8,9
          b、分成4等份:4,6 | 6,7 | 8,8 | 8,9
          c、第一個四分位數 = (6+6)/2=6 ;第二個四分位數 = (7+8) /2=7.5,第三個四分位數 = (8+8)/2 = 8
          d、這組數據的四分位距為:(8-6)/2=1
          這種為了消除極端變量值對測定結果影響的方法,在實際生活中也是常用到的。比如在奧運比賽中,去掉評委一個最高分,一個最低分,然后再計算平均值,就   是為了消除極端變量值對選手得分的影響。
     2.4.3 平均差
          平均差是數據組中各數據值與其算術平均數離差絕對值的算數平均數,常用符號“M.D”表示。
          普通平均差計算:
          加權平均差計算:
          平均差是反映各標志值與算術平均數之間的平均差異。平均差越大,表明各標志值與算術平均數的差異程度越大,該算術均數的代表性就越小;平均差越小,表   明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。當變量數列是由沒有分組的數據組或分組后每組的次數相等的數據組成時采用。
          例:設某車間有兩個班組,各有10名工人,其日產量如下表(表2.5.3):
     
甲組
4
7
11
14
14
16
17
24
25
28
乙組
7
12
14
14
15
17
17
19
20
25
          甲組的平均值為:(4+7+11+14+14+16+17+24+25+28)/10=16
          乙組的平均值為:(7+12+14+14+15+17+17+19+20+25)/10=16
          則兩組工人日產量的平均差計算過程如下:
     
甲組
乙組
 
日產量
離差
離差絕對值
日產量
離差
離差絕對值
x
x
   
4
7
11
14
14
16
17
24
25
28
-12
-9
-5
-2
-2
0
1
8
9
12
12
9
5
2
2
0
1
8
9
12
7
12
14
14
15
17
17
19
20
25
-9
-4
-2
-2
-1
1
1
3
4
9
9
4
2
2
1
1
1
3
4
9
合計
 
60
 
 
36
          兩組工人的平均差為:
          甲組平均差= 60/10 = 6
          乙組平均差= 36/10 = 3.6
          也就是說,在甲,乙兩組工人平均日產量相同的情況下,甲組數據的離散程度比乙組更大。
          由於平均差是根據數列中所有數值計算出來的,受極端值影響較小,所以對整個統計數列的離中趨勢有比較充分的代表性。
      2.4.4 方差標准差
          方差是數據組中各數據值與其算術平均數離差平方的算術平均數。方差的平方根就是標准差。
          
          以表2.5.3為例,計算標准差如下:
          
甲組
乙組
 
日產量
離差
離差平方
日產量
離差
離差平方
x
 
()²
 
()²
 4
7
11
14
14
16
17
24
25
28
-12
-9
-5
-2
-2
0
1
8
9
12
144
81
25
4
4
0
1
64
81
144
7
12
14
14
15
17
17
19
20
25
-9
-4
-2
-2
-1
1
1
3
4
9
81
16
4
4
1
1
1
9
16
81
合計
 
548
 
 
214
          兩組的平均差為: 
          甲組:7.40
          已組:4.63
          結論可看出,甲,乙兩組工人平均日產量相等的情況下,甲的標准差比乙大,所以其平均數的代表性比乙小。
          標准差的實質與平均差基本相同,只是在數學處理方法上與平均差不同,平均差是用取絕對值的方法消除離差的正負號然后用算術平均的方法求出平均離差;而   標准差是用平方的方法消除離差的正負號,然后對離差的平方計算算術平均數,並開放求出標准差。即克服了平均差消除正負號帶來的弊病,又增加了指標本身   的“靈敏度”,這些有點,使他成為各種離中趨勢指標中的重要一種。
          標准差的性質:
          a,標准差度量了偏離平均數的大小。
          b,標准差是一類平均偏差。
          c,標准差指出了數列中的數離它們的平均數有多遠。數列大多數項離開平均數大約1個σ。極少數項將離開2個或3個σ以上。一般來講,一個數列中約68%的項   在離平均數的1個σ范圍內,其余的32%離的較遠。約95%的數據在距平均數的2個σ范圍內,其余的5%則較遠。
     2.4.5 離散系數
          極差、平均差、標准差都是對數據的離中趨勢進行絕對或平均差異的測定。在通常情況下,它們都帶有計量單位,而且其離中趨勢大小與變量平均水平的高低有   關。因此,要比較數據平均水平不同的兩組數據的離中程度的大小,就有必要計算它們的相對離中程度指標,即離散系數。 
    常用的是標准差系數,用CV(Coefficient of Variance)表示
    CV(Coefficient of Variance): 標准差均值的比率。
    用公式表示為:CV=σ/μ
    例:有甲、乙兩班同時參加統計學原理的課程測試,甲班平均成績為70分,標准差為9.0分,乙班的成績如下
 
按成績分組(分)
學生人數(人)
60以下
60~70
70~80
80~90
90~100
2
6
25
12
5
    比較甲乙兩班哪個班的成績更有代表性?
    解:計算如下(公式難打,截圖如下)
  
2.5 數據分布的測試
     在描述性統計中,一組數據的特征除了使用集中趨勢和離中趨勢來描述外, 還使用其分布的形狀來分析。數據分布形態的測度主要是以 正態分布為標准進行衡量,曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交,曲線的高峰位與正中央,即均數所在的位置。
     
     一組數據的分布形狀是通過直方圖將該數據分布在數軸上擬合出一條曲線,將曲線的尖鞘程度和對稱性與正態分布曲線相比較,其測試指標包括 偏態峰度
2.5.1 數據偏態及其測定
     通常分為右偏(正偏),左偏(負偏)兩種。它們是以對稱分布為標准相比較而言的。在對稱分布的情況下,平均數、中位數與眾數是合二為一的,即 。在偏態分布的情況下,平均數。中位數與眾數是分離的。如果眾數在左邊,平均數在右邊,即數據的極端值在右邊,數據分布曲線向右延伸,則稱為右向偏態。右向偏態,眾數的數值越小,平均數的數值越大,平均數與眾數之差為正值,所以右向偏態又稱正向偏態。相反即為左向偏態(負向偏態)。
     測定偏態的指標是 偏態系數。偏態系數(SK)是對數據分布的不對稱性(偏斜程度)的測度。偏態系數有多種計算方法,常用以下公式(s表示樣本標准差):
     
     根據數據計算出SK后,SK含義如下
     SK=0,分布是對稱的。
     SK<0,分布呈負偏態,SK值越小,負偏程度越高。
     SK>0,分布呈正偏態,SK值越大,正偏程度越高。
2.5.2 數據峰度及其測定
     根據變量值的集中與分散程度,峰度一般表現為三種形態:尖頂峰度、平頂峰度和標准峰度。當變量值的次數在眾數周圍分布比較集中,使次數分布曲線比正態分布曲線頂峰更為隆起尖峭,稱為尖頂峰度;當變量值的次數在眾數周圍分布為分散,使次數分布曲線較正態分布曲線更為平緩,稱為平頂峰度。
     測定峰度的指標是 峰度系數。峰度系數(K)是對數據分布的尖峭程度的測度。峰度系數有多種計算方法,常用公式如下:
     
     根據計算出K后,K的含義如下。
     K<0,呈平頂峰度。
     K>0,呈尖頂峰度。
2.5.3 數據偏度和峰度的作用
     在實際的數據分析過程中,偏度和峰度的作用主要表現在以下兩個方面。
     一是將偏度和峰度結合起來檢查樣本的分布是否屬於正態分布,以便判斷總體的分布。如果樣本偏度接近於0而峰度接近於3,就可以判斷總體分布是接近於正態分布的,用樣本來對總體進行測定時就可以看成是正態分布,否則就可以進行否認。
     二是利用資料之間存在的偏度關系,對算術平均數、眾數、中位數進行推算。一般情況下,只要分布不是正態的,算術平均數。眾數、中位數之間都存在以下關系。
     右偏時: ;左偏時:
     在偏度適度時,不論右偏還是左偏,三者間的距離有近似的固定關系,即中位數與算術平均數的距離,約等於眾數與算術平均數距離的1/3。可得以下關系式:
     
  
  
2.6 數據的展示-統計圖
 統計圖是利用點、線、面、體等繪制成幾何圖形,以表示統計大小關系和變動情況的各種圖的總稱。(條形圖、扇形圖、折線圖、 莖葉圖箱線圖
2.6.1 SPSS畫統計圖
  錄入數據
     
  
  
  
  
  
 
2.6.2 Excel畫統計圖
     
   
  
  
  
 
感謝您的支持與關注!
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM