今天給大家分享的是在數據分析中很重要的一環,也就是描述統計。在百科的解釋中,描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特征和隨機變量之間關系進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。在這三個部分當中,集中趨勢主要是靠數據當中的平均數、中數、眾數等統計指標來表示。離中趨勢主要是靠數據當中的四分差、平均差、方差和標准差等統計指標來進行研究。最后一個相關分析之前有跟大家介紹過,主要是看數據之間是否存在統計學上的關聯性並進行分析和研究。
我們今天主要是介紹一下針對我們的數據如何用EXCEL進行描述統計分析。我們先來看一下我們今天需要用到的數據:
如上圖所示,為某班級期中考試部分同學考試成績,現在我們需要針對這部分同學成績進行描述統計分析。
一般來說,樣本數據分布區間、標准差等都是描述樣本數據范圍及波動大小的統計量,但是如果我們直接進行計算會較為繁瑣。因為這些都是描述樣本數據的常用變量,所以我們直接使用
Excel 數據分析中的“描述統計”就可以直接得出我們需要的結果。
在開始的時候,我們需要在數據欄中的分析模塊里選擇數據分析(如果大家的EXCEL中沒有此模塊需要單獨添加,在之前最早的文章中有給大家分享過如何進行添加)。在彈出的數據分析框中選擇描述統計即可彈出描述統計分析界面:


按上圖來選擇我們所需要的描述統計相關輸出數值,點擊確定以后就會出現如下輸出界面:
在輸出的區域當中,我們能夠看到,這里面有平均值、標准誤差(相對於平均值)、中值、眾數、標准偏差、方差、峰值、偏斜度、極差、最小值、最大值、總和、樣本總個數、最大值、最小值和置信度這些輸出結果。我們應該怎么來解讀這些數呢?
在輸出的這些數里面,我們針對其中部分數值來給大家解釋一下:
中值:排序后位於中間的數據的值;
眾數:在整個樣本數據當中出現次數最多的值;
峰度:用來衡量數據分布起伏變化的指標,以正態分布為基准,比其平緩時值為正,反
之則為負;
偏度:用來衡量數據峰值偏移的指數,根據峰值所處位置在均值左側或者右側分別表示為正值或負值;
極差:最大值與最小值的差;
第 K 大(小)值:輸出表的某一行中包含每個數據區域中的第 k 個最大(小)值;
置信度:數值 95% 可用來計算在顯著性水平為 5% 時的平均值置信度。
以上就是我們針對樣本數據作出的描述統計分析,在一般的分析當中,我們主要是通過描述統計來對我們的樣本數據進行一個總的觀察,在描述統計中我們基本上就能夠對我們的數據有一個基本的認識,從而能夠有效的進行其他分析。例如在問卷分析當中我們可以通過描述統計對我們被調查的對象有一個大概的了解,從而決定我們其他分析應該如何繼續進行。
描述統計分析是一個比較簡單的分析,在統計學軟件中都會有相應的模塊,今天先跟大家分享了在EXCEL中如何進行分析,大家可以自己拿一些數據進行嘗試,看看是不是在描述統計分析以后會對我們的數據樣本有更清晰和直觀的認識。
文章來自公眾號【小白數據營】
大家可以私信我進入到交流群中參與討論和交流。