統計學基礎-數值型數據


 

1.什么是統計學,什么是描述統計,什么是推斷統計

 

    • 統計學(statistics):收集、處理、分析、解釋數據並從數據中得出結論的科學。

    • 描述統計(discriptive statistics):研究的是數據收集、處理、匯總、圖表描述、概括與分析等統計方法。

      描述統計其實就是對數據進行總體特征的概述,例子:說一下班級這次考試的情況如何

    • 推斷統計(inferential statistics):是研究如何利用樣本數據來推斷總體特征的統計方法

      推斷統計其實是建立在描述統計的基礎之上,在對總體數據有了大致的了解之后,運用一些分析方法,對數據進行預測,並達到統計決策的目的,其實不管是在統計學上,還是在實際的業務分析中,我們做分析的終極目的就是用來得出我們結論,應用於決策。例如:房價預測,通過預測數據來進行銷售,用戶看到房價走勢,如果一路走高,是不是要提早下手

2.統計研究的步驟

  • 設計

全過程最關鍵的一步,良好的開端是成功的一半 選題--明確研究目的--提出假設--明確總體范圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案

  • 收集

收集數據,來源數據庫,問卷等

  • 整理

數據整理非常重要,現在的數據處理工具也比較好用,一定要把數據清洗干凈,數據清洗好了才能得出正確的結論

  • 分析

統計描述:了解樣本數據的情況,是全部工作的基礎,是盡量精確、直觀而全面的對所獲得的樣本進行呈現

統計推斷:從樣本信息外推到總體,以獲得對所感興趣問題的解答

參數估計:樣本-->所在總體特征

 

3.描述統計

 

 

 

  • 集中趨勢

高峰組段在什么位置

均數(mean):總體均數和樣本均數,受極值的影響很大

中位數(Median):將全體數據從小到大排列,在整個數列中處於中間位置的那個值就是中位數。不受極端值的影響,在具有個別極大或極小值的分布數列中,中位數比均數更具有代表性

                                 中位數的應用場景:對於對稱性的數據,優先均數,僅僅對於均數不能使用的情況才使用中位數加以描述。

眾數:一組數據當中,出現次數最多的那個數,工作中用的很少

 

Excel怎么操作

使用函數,還有更方便的操作,講完離散趨勢再說

均數:average()

中位數:median()

眾數:mode()

 

 

  • 離散趨勢

數據分布范圍是什么,分散程度如何

離均差:x-μ  個體偏離均值的程度

總體方差:離均差平方和/樣本量

總體標准差:方差開根號

樣本標准差: 

  存在的問題:

    1.測量尺度的相差太大:例如螞蟻和大象的體重變異

    2.計算單位不同:比較身高和體重的變異程度

  變異系數  

 

 

   變異系數解決了不同樣本變異程度對比的問題

配件A的變異系數 = 7.6/13.5 = 0.562963
維修費的變異系數 = 120.7/247.9 = 0.48689

二者有一定差異,但是差的不多,還算保持一致

百分位數: 是一個位置指標,用Px表示,一個百分位數Px將一組觀察值分為兩部分,理論上有x%的觀察值比它小,有(100-x)%的觀察值比它大,適用於各種分布

四分位數:P25、P50和P75分位數分別稱作下四分位數,中位數 上四分位數

 

Excel怎么實現

使用函數

方差:var.s(num1,num2,....)

標准差:stdev.s(num1,num2,....)

變異系數:標准差/均值

百分位數:percentile.inc(array,k)

四分位數:quartile.inc(array,k)

 

  • 分布形狀

是否對稱,分布曲線的形狀

    • 偏度系數 正態 正偏態 負偏態
    • 峰度系數 正態 平闊峰 尖峭峰

 

 

 

  • 分布特征

偏態 峰態

 

 

Excel怎么實現

使用函數

偏度:skew()

峰度:kurt()

 

 

 

 

4.推斷統計

 

利用樣本數據來推斷總體特征的統計方法

從樣本信息外推到總體,以最終獲得對所感興趣問題的解答

 

 

 

 

 

 

1 分類變量

    • 無序分類變量:說明事物類別的一個名稱,如性別有男女兩種,二者無大小之分,無順序之分,還有如血型、民族等
    • 有序分類變量:也是說明事物類型的一個名稱,但是有次序之分,例如:滿意度分為滿意 一般 不滿意,三者是有順序的,但是無大小之分

 

2 數值型變量

    • 連續型變量:取值范圍是一個區間,它可以在該區間中連續取值,即連續型變量可以取到區間中的任意值,並且有度量單位。例如:身高、年齡、體重、金額
    • 離散型變量:取值范圍是有限個值或者一個數列構成的,表示分類情況,如:企業數量 產品數量等

 

    • 小概率事件:在統計學中,如果隨機事件發生的概率小於或等於0.05,則認為是一個小概率事件,表示該事件在大多數情況下不會發生,並且一般認為小概率事件在一次隨機抽樣中不會發生,這就是小概率原理。小概率原理是推斷統計的基礎。

 

3 隨機變量

隨機事件的數量化

比如:還是拋硬幣,出現正面,我們定義為“成功”,記為1,出現反面定義為“失敗”,記為0,,那{0,1}就是本次實驗的結果的量化值,為隨機變量

離散型隨機變量:隨機變量X可以一一列舉出來,在一定區間范圍內X是有限個,可數的

連續型隨機變量:隨機變量X無法一一列舉,在一定區間范圍內是無限個,

4 總體和樣本

總體:根據研究目的確定的所有個體某指標觀察值(測量值)的集合

樣本:在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或預測,這些個體的測量值構成的集合稱為樣本。

5 隨機抽樣

隨機抽樣的本質:每個個體最終是否入選在抽樣進行前是不可知的,但是其入選的可能性是確切可知的(每個個體被抽到的概率是相等的)

6 總體參數和統計量

總體參數:刻畫總體特征的指標稱為總體參數,例如:總體均值(μ),總體標准差(σ),總體比例 (π)

統計量:刻畫樣本特征的指標稱為統計量,例如:樣本均值(x-bar),樣本標准差(s),樣本比例(p)

但是往往總體參數都是不可知的,我們經常會通過樣本統計量去估算總體參數。

7 抽樣誤差

由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差(sampling error)。雖然在一次抽樣研究中的抽樣誤差大小是隨機的,但是抽樣誤差在概率意義下有規律可循

 

 

 

 

概率分布

隨機變量的概率存在一定的規律,這個規律叫做概率分布,但是離散型隨機變量和連續型隨機變量的規律並不相同,離散型隨機變量的概率分布有:二項分布、泊松分布;連續型隨機變量的概率分布:正態分布。

 

1 離散型隨機變量的概率分布

二項分布

 

 

Excel計算方式:

=BINOM.DIST(2,5,0.5,FALSE)

 

函數介紹

BINOM.DIST(number_s,trials,probability_s,cumulative)

BINOM.DIST 函數語法具有以下參數:

  • Number_s 必需。 試驗的成功次數。
  • Trials 必需。 獨立試驗次數。
  • Probability_s 必需。 每次試驗成功的概率。
  • cumulative 必需。 決定函數形式的邏輯值。 如果 cumulative 為 TRUE,則 BINOM.DIST 返回累積分布函數,即最多存在 number_s 次成功的概率;如果為 FALSE,則返回概率密度函數,即存在 number_s 次成功的概率。

 

二項分布的特征:

1.進行n次相同條件下的相互獨立的重復試驗

2.每次試驗,只有2個結果,成功或者失敗

3.出現成功的概率P每次試驗是相同的,失敗的概率q也是,並且p+q=1

如果符合上面的條件,那就是二項分布,如果上述試驗只進行一次,就叫做伯努利試驗,也是就二項分布是n次伯努利試驗的結果。

二項分布的均值和方差分別為np和npq

 

泊松分布

泊松分布是二項分布的極限

在n重伯努利實驗中,當成功的概率很小,實驗次數很大時,二項分布可近似等於泊松分布。泊松分布適合於描述單位時間內隨機事件發生的次數。

在實際應用中,當p<=0.25,n>20,np<=25時,用泊松分布近似二項分布的效果良好

 泊松分布的期望方差均為

 

 

 

 

函數介紹

=POISSON.DIST(65,B8,TRUE)

POISSON.DIST(x,mean,cumulative)

POISSON.DIST 函數語法具有下列參數:

  • X 必需。 事件數。
  • Mean 必需。 期望值。
  • cumulative 必需。 一邏輯值,確定所返回的概率分布的形式。 如果 cumulative 為 TRUE,則 POISSON.DIST 返回發生的隨機事件數在零(含零)和 x(含 x)之間的累積泊松概率;如果為 FALSE,則 POISSON 返回發生的事件數正好是 x 的泊松概率密度函數。

2 連續型隨機變量的概率分布

 

正態分布

 

 

μ是分布曲線的最高峰的位置(集中趨勢)

σ標准差是離散程度的度量(離散趨勢)

正態分布是具有對稱性的

標准正態分布:均數為0,標准差為1的正態分布N(0,1)曲線下面積分布規律。

其曲線下概率面積分布規律非常常用

​    95% 99%
雙側 1.96 2.58
單側 1.64 2.33

95%的情況下最常用

 

舉個栗子,詳細看看如何根據正態分布計算區間范圍

某零件的長度服從正態分布,平均長度為10mm,標准差為0.2mm,問: 從該批零件中隨機抽取一件,其長度不到9.4,mm的概率是多少?

計算過程

使用Excel如何計算

=NORMDIST(9.4,10,0.2,TRUE)

函數介紹

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函數語法具有下列參數:

  • X 必需。 需要計算其分布的數值。
  • Mean 必需。 分布的算術平均值。
  • standard_dev 必需。 分布的標准偏差。
  • cumulative 必需。 決定函數形式的邏輯值。 如果 cumulative 為 TRUE,則 NORMDIST 返回累積分布函數;如果為 FALSE,則返回概率密度函數。

正態分布的經驗法則

 

 

 

 

卡方分布

多個標准正態分布的平方和,卡方分布在實際應用中主要是解決方差相關的問題

 

 

 

 

 

 

 

 

 

t分布

t分布就是標准正態分布除以均方的根,主要用於處理小樣本問題

 

 t分布圖像

 

 

F分布

均方之比,用來對比兩個方差

 

 

 

 

 

 

樣本均值的抽樣分布

 

 

 

 

兩個樣本均值之差的抽樣分布

比如想要知道湖北和湖南的人均收入水平高低,就可以通過比較兩省的均值之差來判斷

 

 

 

 

樣本比例的抽樣分布

比如想要知道中國人中男性的占比。就可以多次抽樣,通過樣本比例來推斷總體比例

 

數學期望和方差

 

 

 

 

樣本方差的分布

 

 

兩個樣本方差比的分布

X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2),且X與Y獨立,X_1,X_2,\cdots,X_n是來自X的樣本,Y_1,Y_2,\cdots,Y_n是來自Y的樣本,\bar{X}\bar{Y}分別是這兩個樣本的樣本均值,S_1^2S_2^2分別是這兩個樣本的樣本方差,則有

  1. \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)
  2. \sigma_1^2 = \sigma_2^2 = \sigma^2\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)

 

樣本均值方差比的分布

X_1,X_2,\cdots,X_n是來自正太總體N(\mu,\sigma^2)的樣本,\bar{X}S^2分別是樣本均值和樣本方差,則有\frac{\bar{X}-\mu}{S / \sqrt{n}} \sim t(n - 1)

 

統計推斷

從數據得到關於現實世界的結論的過程就叫做統計推斷(statistical inference)

目前比較成熟,用的最多的就是對於均值的推斷

應用場景:

基於配件A的領用歷史數據,我們能否估計出其總體日均領用量的大致范圍?

參數估計

點估計:樣本均數直接作為總體均數。一個點估計量的可靠性是由它的抽樣標准誤差來 衡量的,這表明一個具體的點估計值無法給出估 計的可靠性的度量

區間估計:根據響應標准誤的大小,按照一定的可信度給出一個總體參數可能的取值范圍。該區間被稱為可信區間。比如,某班級平均分數在75~85之間,置信水平是95%

 

 

區間估計圖示

 

 

 

 估計量的求法

 

 

 

 

 

 

 

 

 

 

 1.總體均值的區間估計,總體方差已知

 

 

 

 

 

 

 

 

 

 

 

 

 

2.總體比例的區間估計

 

3.總體方差的區間估計,用卡方分布

 

 

 

 

 

兩個總體的區間估計

 

 

 

 

4.兩個總體均值之差的區間估計

 

 

假設檢驗

對提出的一些總體假設進行分析判斷,做出統計決策。基於小概率反證法,小概率原理,即認為小概率事件在一次隨機抽樣中不會發生

 

 

 

 

雙側檢驗

 

 

單側檢驗

 

 

 提出假設

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM