1.什么是統計學,什么是描述統計,什么是推斷統計
-
-
統計學(statistics):收集、處理、分析、解釋數據並從數據中得出結論的科學。
-
描述統計(discriptive statistics):研究的是數據收集、處理、匯總、圖表描述、概括與分析等統計方法。
描述統計其實就是對數據進行總體特征的概述,例子:說一下班級這次考試的情況如何
-
推斷統計(inferential statistics):是研究如何利用樣本數據來推斷總體特征的統計方法
推斷統計其實是建立在描述統計的基礎之上,在對總體數據有了大致的了解之后,運用一些分析方法,對數據進行預測,並達到統計決策的目的,其實不管是在統計學上,還是在實際的業務分析中,我們做分析的終極目的就是用來得出我們結論,應用於決策。例如:房價預測,通過預測數據來進行銷售,用戶看到房價走勢,如果一路走高,是不是要提早下手
-
2.統計研究的步驟
- 設計
全過程最關鍵的一步,良好的開端是成功的一半 選題--明確研究目的--提出假設--明確總體范圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案
- 收集
收集數據,來源數據庫,問卷等
- 整理
數據整理非常重要,現在的數據處理工具也比較好用,一定要把數據清洗干凈,數據清洗好了才能得出正確的結論
- 分析
統計描述:了解樣本數據的情況,是全部工作的基礎,是盡量精確、直觀而全面的對所獲得的樣本進行呈現
統計推斷:從樣本信息外推到總體,以獲得對所感興趣問題的解答
參數估計:樣本-->所在總體特征
3.描述統計
- 集中趨勢
高峰組段在什么位置
均數(mean):總體均數和樣本均數,受極值的影響很大
中位數(Median):將全體數據從小到大排列,在整個數列中處於中間位置的那個值就是中位數。不受極端值的影響,在具有個別極大或極小值的分布數列中,中位數比均數更具有代表性
中位數的應用場景:對於對稱性的數據,優先均數,僅僅對於均數不能使用的情況才使用中位數加以描述。
眾數:一組數據當中,出現次數最多的那個數,工作中用的很少
Excel怎么操作
使用函數,還有更方便的操作,講完離散趨勢再說
均數:average()
中位數:median()
眾數:mode()
- 離散趨勢
數據分布范圍是什么,分散程度如何
離均差:x-μ 個體偏離均值的程度
總體方差:離均差平方和/樣本量
總體標准差:方差開根號
樣本標准差:
存在的問題:
1.測量尺度的相差太大:例如螞蟻和大象的體重變異
2.計算單位不同:比較身高和體重的變異程度
變異系數
變異系數解決了不同樣本變異程度對比的問題
配件A的變異系數 = 7.6/13.5 = 0.562963
維修費的變異系數 = 120.7/247.9 = 0.48689
二者有一定差異,但是差的不多,還算保持一致
百分位數: 是一個位置指標,用Px表示,一個百分位數Px將一組觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大,適用於各種分布
四分位數:P25、P50和P75分位數分別稱作下四分位數,中位數 上四分位數
Excel怎么實現
使用函數
方差:var.s(num1,num2,....)
標准差:stdev.s(num1,num2,....)
變異系數:標准差/均值
百分位數:percentile.inc(array,k)
四分位數:quartile.inc(array,k)
- 分布形狀
是否對稱,分布曲線的形狀
- 偏度系數 正態 正偏態 負偏態
- 峰度系數 正態 平闊峰 尖峭峰
- 分布特征
偏態 峰態
Excel怎么實現
使用函數
偏度:skew()
峰度:kurt()
4.推斷統計
利用樣本數據來推斷總體特征的統計方法
從樣本信息外推到總體,以最終獲得對所感興趣問題的解答
1 分類變量
- 無序分類變量:說明事物類別的一個名稱,如性別有男女兩種,二者無大小之分,無順序之分,還有如血型、民族等
- 有序分類變量:也是說明事物類型的一個名稱,但是有次序之分,例如:滿意度分為滿意 一般 不滿意,三者是有順序的,但是無大小之分
2 數值型變量
- 連續型變量:取值范圍是一個區間,它可以在該區間中連續取值,即連續型變量可以取到區間中的任意值,並且有度量單位。例如:身高、年齡、體重、金額
- 離散型變量:取值范圍是有限個值或者一個數列構成的,表示分類情況,如:企業數量 產品數量等
- 小概率事件:在統計學中,如果隨機事件發生的概率小於或等於0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,並且一般認為小概率事件在一次隨機抽樣中不會發生,這就是小概率原理。小概率原理是推斷統計的基礎。
3 隨機變量
隨機事件的數量化
比如:還是拋硬幣,出現正面,我們定義為“成功”,記為1,出現反面定義為“失敗”,記為0,,那{0,1}就是本次實驗的結果的量化值,為隨機變量
離散型隨機變量:隨機變量X可以一一列舉出來,在一定區間范圍內X是有限個,可數的
連續型隨機變量:隨機變量X無法一一列舉,在一定區間范圍內是無限個,
4 總體和樣本
總體:根據研究目的確定的所有個體某指標觀察值(測量值)的集合
樣本:在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或預測,這些個體的測量值構成的集合稱為樣本。
5 隨機抽樣
隨機抽樣的本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選的可能性是確切可知的(每個個體被抽到的概率是相等的)
6 總體參數和統計量
總體參數:刻畫總體特征的指標稱為總體參數,例如:總體均值(μ),總體標准差(σ),總體比例 (π)
統計量:刻畫樣本特征的指標稱為統計量,例如:樣本均值(x-bar),樣本標准差(s),樣本比例(p)
但是往往總體參數都是不可知的,我們經常會通過樣本統計量去估算總體參數。
7 抽樣誤差
由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差(sampling error)。雖然在一次抽樣研究中的抽樣誤差大小是隨機的,但是抽樣誤差在概率意義下有規律可循
概率分布
隨機變量的概率存在一定的規律,這個規律叫做概率分布,但是離散型隨機變量和連續型隨機變量的規律並不相同,離散型隨機變量的概率分布有:二項分布、泊松分布;連續型隨機變量的概率分布:正態分布。
1 離散型隨機變量的概率分布
二項分布
Excel計算方式:
=BINOM.DIST(2,5,0.5,FALSE)
函數介紹
BINOM.DIST(number_s,trials,probability_s,cumulative)
BINOM.DIST 函數語法具有以下參數:
- Number_s 必需。 試驗的成功次數。
- Trials 必需。 獨立試驗次數。
- Probability_s 必需。 每次試驗成功的概率。
- cumulative 必需。 決定函數形式的邏輯值。 如果 cumulative 為 TRUE,則 BINOM.DIST 返回累積分布函數,即最多存在 number_s 次成功的概率;如果為 FALSE,則返回概率密度函數,即存在 number_s 次成功的概率。
二項分布的特征:
1.進行n次相同條件下的相互獨立的重復試驗
2.每次試驗,只有2個結果,成功或者失敗
3.出現成功的概率P每次試驗是相同的,失敗的概率q也是,並且p+q=1
如果符合上面的條件,那就是二項分布,如果上述試驗只進行一次,就叫做伯努利試驗,也是就二項分布是n次伯努利試驗的結果。
二項分布的均值和方差分別為np和npq
泊松分布
泊松分布是二項分布的極限
在n重伯努利實驗中,當成功的概率很小,實驗次數很大時,二項分布可近似等於泊松分布。泊松分布適合於描述單位時間內隨機事件發生的次數。
在實際應用中,當p<=0.25,n>20,np<=25時,用泊松分布近似二項分布的效果良好

函數介紹
=POISSON.DIST(65,B8,TRUE)
POISSON.DIST(x,mean,cumulative)
POISSON.DIST 函數語法具有下列參數:
- X 必需。 事件數。
- Mean 必需。 期望值。
- cumulative 必需。 一邏輯值,確定所返回的概率分布的形式。 如果 cumulative 為 TRUE,則 POISSON.DIST 返回發生的隨機事件數在零(含零)和 x(含 x)之間的累積泊松概率;如果為 FALSE,則 POISSON 返回發生的事件數正好是 x 的泊松概率密度函數。
2 連續型隨機變量的概率分布
正態分布
μ是分布曲線的最高峰的位置(集中趨勢)
σ標准差是離散程度的度量(離散趨勢)
正態分布是具有對稱性的
標准正態分布:均數為0,標准差為1的正態分布N(0,1)曲線下面積分布規律。
其曲線下概率面積分布規律非常常用
95% 99%
雙側 1.96 2.58
單側 1.64 2.33
95%的情況下最常用
舉個栗子,詳細看看如何根據正態分布計算區間范圍
某零件的長度服從正態分布,平均長度為10mm,標准差為0.2mm,問: 從該批零件中隨機抽取一件,其長度不到9.4,mm的概率是多少?
計算過程
使用Excel如何計算
=NORMDIST(9.4,10,0.2,TRUE)
函數介紹
NORMDIST(x,mean,standard_dev,cumulative)
NORMDIST 函數語法具有下列參數:
- X 必需。 需要計算其分布的數值。
- Mean 必需。 分布的算術平均值。
- standard_dev 必需。 分布的標准偏差。
- cumulative 必需。 決定函數形式的邏輯值。 如果 cumulative 為 TRUE,則 NORMDIST 返回累積分布函數;如果為 FALSE,則返回概率密度函數。
正態分布的經驗法則
卡方分布
多個標准正態分布的平方和,卡方分布在實際應用中主要是解決方差相關的問題
t分布
t分布就是標准正態分布除以均方的根,主要用於處理小樣本問題
t分布圖像
F分布
均方之比,用來對比兩個方差
樣本均值的抽樣分布
兩個樣本均值之差的抽樣分布
比如想要知道湖北和湖南的人均收入水平高低,就可以通過比較兩省的均值之差來判斷
樣本比例的抽樣分布
比如想要知道中國人中男性的占比。就可以多次抽樣,通過樣本比例來推斷總體比例
數學期望和方差
樣本方差的分布
兩個樣本方差比的分布
設,且X與Y獨立,
是來自X的樣本,
是來自Y的樣本,
和
分別是這兩個樣本的樣本均值,
和
分別是這兩個樣本的樣本方差,則有
- 若
樣本均值方差比的分布
設是來自正太總體
的樣本,
和
分別是樣本均值和樣本方差,則有
統計推斷
從數據得到關於現實世界的結論的過程就叫做統計推斷(statistical inference)
目前比較成熟,用的最多的就是對於均值的推斷
應用場景:
基於配件A的領用歷史數據,我們能否估計出其總體日均領用量的大致范圍?
參數估計
點估計:樣本均數直接作為總體均數。一個點估計量的可靠性是由它的抽樣標准誤差來 衡量的,這表明一個具體的點估計值無法給出估 計的可靠性的度量
區間估計:根據響應標准誤的大小,按照一定的可信度給出一個總體參數可能的取值范圍。該區間被稱為可信區間。比如,某班級平均分數在75~85之間,置信水平是95%
區間估計圖示
估計量的求法
1.總體均值的區間估計,總體方差已知
2.總體比例的區間估計
3.總體方差的區間估計,用卡方分布
兩個總體的區間估計
4.兩個總體均值之差的區間估計
假設檢驗
對提出的一些總體假設進行分析判斷,做出統計決策。基於小概率反證法,小概率原理,即認為小概率事件在一次隨機抽樣中不會發生
雙側檢驗
單側檢驗
提出假設