內容目錄
- 什么是統計學,什么是描述統計,什么是推斷統計
- 統計研究的步驟
- 描述統計
當我們信心滿滿,決定在數據分析的道路上再豐富一下自己的統計學知識時,映入眼簾的是一臉懵逼的復雜公式,看着就難受,也就是還沒開始就放棄了的統計學,成了我們的一塊不可觸碰的隔離區,其實統計學並沒有那么難,我們生活中隨處可見,而且學習統計學,也不一定要會很多公式的推導,我們首先是先理解,從應用角度,然后再慢慢深入研究,畢竟我們不是搞科研的,懂並且會用是我們的第一步,那接下來我們就盡量不跟公式見面的情況來重新認識一下統計學。
聊一聊我們生活和工作中比較搞笑的統計學
1.你的工資被平均了嗎?
2016年國家統計局發布的工資數據中提到:
信息傳輸、軟件和信息技術服務業平均工資得以快速增長,2016年平均工資為122478元,比上年增長9.3%
1.什么是統計學,什么是描述統計,什么是推斷統計
- 統計學(statistics):收集、處理、分析、解釋數據並從數據中得出結論的科學。
- 描述統計(discriptive statistics):研究的是數據收集、處理、匯總、圖表描述、概括與分析等統計方法。
描述統計其實就是對數據進行總體特征的概述,例子:說一下班級這次考試的情況如何 - 推斷統計(inferential statistics):是研究如何利用樣本數據來推斷總體特征的統計方法
推斷統計其實是建立在描述統計的基礎之上,在對總體數據有了大致的了解之后,運用一些分析方法,對數據進行預測,並達到統計決策的目的,其實不管是在統計學上,還是在實際的業務分析中,我們做分析的終極目的就是用來得出我們結論,應用於決策。例如:房價預測,通過預測數據來進行銷售,用戶看到房價走勢,如果一路走高,是不是要提早下手。
2.統計研究的步驟
- 設計
全過程最關鍵的一步,良好的開端是成功的一半 選題--明確研究目的--提出假設--明確總體范圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案
- 收集
收集數據,來源數據庫,問卷等
- 整理
數據整理非常重要,現在的數據處理工具也比較好用,一定要把數據清洗干凈,數據清洗好了才能得出正確的結論
- 分析
統計描述:了解樣本數據的情況,是全部工作的基礎,是盡量精確、直觀而全面的對所獲得的樣本進行呈現
統計推斷:從樣本信息外推到總體,以獲得對所感興趣問題的解答
參數估計:樣本-->所在總體特征
例: 該配件的日平均用量是多少?
3.描述統計
案例: 某倉庫負責某地區售后維修服務所需配件的中轉存儲,每日該地區的業務員都會根據當天接單情況,從倉庫中領取一定數量的各類配件。 現有某配件A在過去一段時間中每日實際領用量,希望據此了解該配件的日常消耗狀況,以便為優化倉儲提供支持。
使用頻數表來觀察數據的整體分布情況,比較直觀,但有點粗糙
使用spss實現如下圖形
從圖中我們可以獲取什么?
- 集中趨勢
高峰組段在什么位置
- 離散趨勢
數據分布范圍是什么,分散程度如何
- 分布形狀
是否對稱,分布曲線的形狀
正負偏
- 分布特征
偏態 峰態
集中趨勢
均數(mean)
描述一組數據在數量上的平均水平
總體均數和樣本均數的符號
均數的優點:
- 高度濃縮了數據的精華,使大量的觀測數據轉變成一個代表性的數值。比較敏感,數據任何一個值發生變化,均數都會隨之改變。
- 大家熟知、都比較喜歡用、便於比較和傳播
均數的缺點:
- 大鍋飯:把各個觀測數據之間的差異性掩蓋了
- 均數受極值的影響很大
舉個例子,還是工資
每月工資
張三 3000 李四 4000 王五 5000 馬雲 40000
四人的平均工資:13000
我去,這么一算,大家工資都還不錯啊,實際上呢?
這個均數毫無意義,既不能反映前三個人的工資,也不能體現馬雲的工資
因為他們的薪資差異過大,屬於不同層級的,應該區分成兩個總體去分析。
均數的適用范圍
對稱分布,特別是正態分布的數據,對於極端性數據均數絕對不適用
中位數(Median)
在均數不好用的時候,我們可以考慮使用中位數
將全體數據從小到大排列,在整個數列中處於中間位置的那個值就是中位數
個數為奇數的中位數
個數為偶數的中位數
中位數的優點:
不受極端值的影響,在具有個別極大或極小值的分布數列中,中位數比均數更具有代表性,如上面例子,用中位數則是4500,至少代表了前三個人的工資水平
中位數的缺點:
不是所有人都能理解
損失信息:只考慮居中位置,其他變量值比中位數大多少或小多少,它無法反映出來,所以我們也是只能看到部分信息。
中位數的應用場景:對於對稱性的數據,優先均數,僅僅對於均數不能使用的情況才使用中位數加以描述。
眾數
一組數據當中,出現次數最多的那個數,工作中用的很少
回到剛才的案例中
提問:消耗量的平均水平應當用什么指標描述?
它不符合正態分布,使用中位數更合適
Excel怎么操作
使用函數,還有更方便的操作,講完離散趨勢再說
均數:average()
中位數:median()
眾數:mode()
離散趨勢
提問:如果用平均數來代表樣本平均水平的話,對個體而言,什么指標可以代表其離散程度大小
離均差:x-μ
個體偏離均值的程度
提問:可否用離均差的總和來表示整個樣本的離散程度
不可以,離均差有正負之分,加和會抵消為0
那怎么辦,怎么解決正負號的問題?
可以考慮絕對值
but這種方式不便於計算
該怎么辦,怎么找到一種既好算,又能處理正負號的問題?
求離均差的平方和
but 如果比較兩個樣本的離均差,一個樣本量是10個,一個是1000個,實際上二者的離散程度是一樣的,但是因為數量不同,造成平方和相加和數值差異很大,這該怎么辦?
顯然,我們發現離均差平方和的大小跟樣本量有關
如果我們能夠把離均差平方和/樣本量,是不是就解決了這個問題
那其實這個就是方差的概念
總體方差公式
總體標准差
方差開根號,是我們日常生活中常用的代表離散程度的指標
但是在實際的工作中,我們對於總體的數據往往是無法獲取的,所以通常是通過隨機抽取部分樣本數據進行計算,因此公式稍微有點差別
樣本標准差
舉個栗子
某倉庫比較配件A領用量與維修服務費的波動程度(離散程度)大小
數據匯總如下:
配件A: 均數 13.5件 標准差 7.6件
維修費:均數 247.9元 標准差 120.7元
如果配件A與維修費的波動程度是接近的,說明你領取了多少配件,收取了多少維修費,比較統一合理,
但是如果不一樣,則說明維修費收取存在不合理,例如:打折過猛或者收費過高,那我們該怎么比較呢?
直接比較標准差,這個貌似沒有可比性吧,怎么辦呢?
存在的問題:
1.測量尺度的相差太大:例如螞蟻和大象的體重變異
2.計算單位不同:比較身高和體重的變異程度
那怎么辦?
變異系數可以解決這個問題
變異系數 = 標准差/均值
變異系數解決了不同樣本變異程度對比的問題
配件A的變異系數 = 7.6/13.5 = 0.562963
維修費的變異系數 = 120.7/247.9 = 0.48689
二者有一定差異,但是差的不多,還算保持一致
方差-標准差-變異系數 應用場景
以均值作為集中趨勢代表值,因此適用范圍也受到相應的限制
本質上只適用於正態分布的數據資料
那問題來了,對於非正態分布的該咋辦?我們上面講了,集中趨勢對於非正態分布可以使用中位數,那離散趨勢呢?
我們可以使用百分位數
是一個位置指標,用Px表示,一個百分位數Px將一組觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大,適用於各種分布
常見的四分位數
P25、P50和P75分位數分別稱作下四分位數,中位數 上四分位數
正好將樣本值四等分,四分位數間距既排除了兩端極端值的影響,又能夠反映較多數據的離散程度。
回到剛才的案例中
提問:消耗量的離散程度應當用什么指標描述?
四分位數,因為不是正態分布
Excel怎么實現
使用函數
方差:var.s(num1,num2,....)
標准差:stdev.s(num1,num2,....)
變異系數:標准差/均值
百分位數:percentile.inc(array,k)
四分位數:quartile.inc(array,k)
分布形狀
針對某種分布進行進一步的特征描述,常見的是用於正態分布的兩個指標
- 偏度系數 正態 正偏態 負偏態
- 峰度系數 正態 平闊峰 尖峭峰
Excel怎么實現
使用函數
偏度:skew()
峰度:kurt()
實現方式
使用分析工具
but 有些同學卻找不到【數據選項卡】--【數據分析】的那個按鈕,操作靜止在了第二步,這可咋整,沒關系的,這個數據分析工具默認是不顯示的,需要后台設置一下,很簡單,老師帶你做
step1:點擊【文件】--【選項】
step2: 【加載項】-- 【轉到】
step3:勾選分析工具庫--確定
總結:
用一張圖來總結描述統計的重點知識