統計學基礎-數值型數據

本文轉載自查看原文 2020-11-20 22:37 872 統計學基礎

1.什么是統計學，什么是描述統計，什么是推斷統計

- 統計學（statistics）：收集、處理、分析、解釋數據並從數據中得出結論的科學。
- 描述統計（discriptive statistics）:研究的是數據收集、處理、匯總、圖表描述、概括與分析等統計方法。
  
  描述統計其實就是對數據進行總體特征的概述，例子：說一下班級這次考試的情況如何
- 推斷統計（inferential statistics）:是研究如何利用樣本數據來推斷總體特征的統計方法
  
  推斷統計其實是建立在描述統計的基礎之上，在對總體數據有了大致的了解之后，運用一些分析方法，對數據進行預測，並達到統計決策的目的，其實不管是在統計學上，還是在實際的業務分析中，我們做分析的終極目的就是用來得出我們結論，應用於決策。例如：房價預測，通過預測數據來進行銷售，用戶看到房價走勢，如果一路走高，是不是要提早下手

2.統計研究的步驟

設計

全過程最關鍵的一步，良好的開端是成功的一半選題--明確研究目的--提出假設--明確總體范圍--確立觀察指標--控制研究中的偏移--給出具體的研究方案

收集

收集數據，來源數據庫，問卷等

整理

數據整理非常重要，現在的數據處理工具也比較好用，一定要把數據清洗干凈，數據清洗好了才能得出正確的結論

分析

統計描述：了解樣本數據的情況，是全部工作的基礎，是盡量精確、直觀而全面的對所獲得的樣本進行呈現

統計推斷：從樣本信息外推到總體，以獲得對所感興趣問題的解答

參數估計：樣本-->所在總體特征

3.描述統計

集中趨勢

高峰組段在什么位置

均數（mean）：總體均數和樣本均數，受極值的影響很大

中位數（Median）：將全體數據從小到大排列，在整個數列中處於中間位置的那個值就是中位數。不受極端值的影響，在具有個別極大或極小值的分布數列中，中位數比均數更具有代表性

中位數的應用場景：對於對稱性的數據，優先均數，僅僅對於均數不能使用的情況才使用中位數加以描述。

眾數：一組數據當中，出現次數最多的那個數，工作中用的很少

Excel怎么操作

使用函數，還有更方便的操作，講完離散趨勢再說

均數：average()

中位數：median()

眾數：mode()

離散趨勢

數據分布范圍是什么，分散程度如何

離均差：x-μ 個體偏離均值的程度

總體方差：離均差平方和/樣本量

總體標准差：方差開根號

樣本標准差：　

　　存在的問題：

　　　　1.測量尺度的相差太大：例如螞蟻和大象的體重變異

　　　　2.計算單位不同：比較身高和體重的變異程度

　　變異系數

　　變異系數解決了不同樣本變異程度對比的問題

配件A的變異系數 = 7.6/13.5 = 0.562963
維修費的變異系數 = 120.7/247.9 = 0.48689

二者有一定差異，但是差的不多，還算保持一致

百分位數: 是一個位置指標，用Px表示，一個百分位數Px將一組觀察值分為兩部分，理論上有x%的觀察值比它小，有（100-x）%的觀察值比它大，適用於各種分布

四分位數：P25、P50和P75分位數分別稱作下四分位數，中位數上四分位數

Excel怎么實現

使用函數

方差：var.s(num1,num2,....)

標准差：stdev.s(num1,num2,....)

變異系數：標准差/均值

百分位數：percentile.inc(array,k)

四分位數：quartile.inc(array,k)

分布形狀

是否對稱，分布曲線的形狀

偏度系數正態正偏態負偏態
峰度系數正態平闊峰尖峭峰

分布特征

偏態峰態

Excel怎么實現

使用函數

偏度：skew()

峰度：kurt()

4.推斷統計

利用樣本數據來推斷總體特征的統計方法

從樣本信息外推到總體，以最終獲得對所感興趣問題的解答

1 分類變量

無序分類變量：說明事物類別的一個名稱，如性別有男女兩種，二者無大小之分，無順序之分，還有如血型、民族等

有序分類變量：也是說明事物類型的一個名稱，但是有次序之分，例如：滿意度分為滿意一般不滿意，三者是有順序的，但是無大小之分

2 數值型變量

連續型變量：取值范圍是一個區間，它可以在該區間中連續取值，即連續型變量可以取到區間中的任意值，並且有度量單位。例如：身高、年齡、體重、金額

離散型變量：取值范圍是有限個值或者一個數列構成的，表示分類情況，如：企業數量產品數量等

小概率事件：在統計學中，如果隨機事件發生的概率小於或等於0.05，則認為是一個小概率事件，表示該事件在大多數情況下不會發生，並且一般認為小概率事件在一次隨機抽樣中不會發生，這就是小概率原理。小概率原理是推斷統計的基礎。

3 隨機變量

隨機事件的數量化

比如：還是拋硬幣，出現正面，我們定義為“成功”，記為1，出現反面定義為“失敗”，記為0,，那{0，1}就是本次實驗的結果的量化值，為隨機變量

離散型隨機變量：隨機變量X可以一一列舉出來，在一定區間范圍內X是有限個，可數的

連續型隨機變量：隨機變量X無法一一列舉，在一定區間范圍內是無限個,

4 總體和樣本

總體：根據研究目的確定的所有個體某指標觀察值（測量值）的集合

樣本：在一個較大范圍的研究對象中隨機抽出一部分個體進行觀察或預測，這些個體的測量值構成的集合稱為樣本。

5 隨機抽樣

隨機抽樣的本質：每個個體最終是否入選在抽樣進行前是不可知的，但是其入選的可能性是確切可知的（每個個體被抽到的概率是相等的）

6 總體參數和統計量

總體參數：刻畫總體特征的指標稱為總體參數，例如：總體均值（μ），總體標准差（σ）,總體比例（π）

統計量：刻畫樣本特征的指標稱為統計量，例如：樣本均值（x-bar），樣本標准差（s），樣本比例（p）

但是往往總體參數都是不可知的，我們經常會通過樣本統計量去估算總體參數。

7 抽樣誤差

由隨機抽樣造成的樣本統計量與總體指標之間的差異稱為抽樣誤差（sampling error）。雖然在一次抽樣研究中的抽樣誤差大小是隨機的，但是抽樣誤差在概率意義下有規律可循

概率分布

隨機變量的概率存在一定的規律，這個規律叫做概率分布，但是離散型隨機變量和連續型隨機變量的規律並不相同，離散型隨機變量的概率分布有：二項分布、泊松分布；連續型隨機變量的概率分布：正態分布。

1 離散型隨機變量的概率分布

二項分布

Excel計算方式：

=BINOM.DIST(2,5,0.5,FALSE)

函數介紹

BINOM.DIST(number_s,trials,probability_s,cumulative)

BINOM.DIST 函數語法具有以下參數：

Number_s 必需。試驗的成功次數。
Trials 必需。獨立試驗次數。
Probability_s 必需。每次試驗成功的概率。
cumulative 必需。決定函數形式的邏輯值。如果 cumulative 為 TRUE，則 BINOM.DIST 返回累積分布函數，即最多存在 number_s 次成功的概率；如果為 FALSE，則返回概率密度函數，即存在 number_s 次成功的概率。

二項分布的特征：

1.進行n次相同條件下的相互獨立的重復試驗

2.每次試驗，只有2個結果，成功或者失敗

3.出現成功的概率P每次試驗是相同的，失敗的概率q也是，並且p+q=1

如果符合上面的條件，那就是二項分布，如果上述試驗只進行一次，就叫做伯努利試驗，也是就二項分布是n次伯努利試驗的結果。

二項分布的均值和方差分別為np和npq

泊松分布

泊松分布是二項分布的極限

在n重伯努利實驗中，當成功的概率很小，實驗次數很大時，二項分布可近似等於泊松分布。泊松分布適合於描述單位時間內隨機事件發生的次數。

在實際應用中，當p<=0.25,n>20,np<=25時，用泊松分布近似二項分布的效果良好

泊松分布的期望和方差均為

函數介紹

=POISSON.DIST(65,B8,TRUE)

POISSON.DIST(x,mean,cumulative)

POISSON.DIST 函數語法具有下列參數：

X 必需。事件數。
Mean 必需。期望值。
cumulative 必需。一邏輯值，確定所返回的概率分布的形式。如果 cumulative 為 TRUE，則 POISSON.DIST 返回發生的隨機事件數在零（含零）和 x（含 x）之間的累積泊松概率；如果為 FALSE，則 POISSON 返回發生的事件數正好是 x 的泊松概率密度函數。

2 連續型隨機變量的概率分布

正態分布

μ是分布曲線的最高峰的位置(集中趨勢)

σ標准差是離散程度的度量(離散趨勢)

正態分布是具有對稱性的

標准正態分布：均數為0，標准差為1的正態分布N(0,1)曲線下面積分布規律。

其曲線下概率面積分布規律非常常用

　　 95% 99%
雙側 1.96 2.58
單側 1.64 2.33

95%的情況下最常用

舉個栗子，詳細看看如何根據正態分布計算區間范圍

某零件的長度服從正態分布，平均長度為10mm，標准差為0.2mm,問：從該批零件中隨機抽取一件，其長度不到9.4,mm的概率是多少？

計算過程

使用Excel如何計算

=NORMDIST(9.4,10,0.2,TRUE)

函數介紹

NORMDIST(x,mean,standard_dev,cumulative)

NORMDIST 函數語法具有下列參數：

X 必需。需要計算其分布的數值。
Mean 必需。分布的算術平均值。
standard_dev 必需。分布的標准偏差。
cumulative 必需。決定函數形式的邏輯值。如果 cumulative 為 TRUE，則 NORMDIST 返回累積分布函數；如果為 FALSE，則返回概率密度函數。

正態分布的經驗法則

卡方分布

多個標准正態分布的平方和，卡方分布在實際應用中主要是解決方差相關的問題

t分布

t分布就是標准正態分布除以均方的根，主要用於處理小樣本問題

t分布圖像

F分布

均方之比，用來對比兩個方差

樣本均值的抽樣分布

兩個樣本均值之差的抽樣分布

比如想要知道湖北和湖南的人均收入水平高低，就可以通過比較兩省的均值之差來判斷

樣本比例的抽樣分布

比如想要知道中國人中男性的占比。就可以多次抽樣，通過樣本比例來推斷總體比例

數學期望和方差

樣本方差的分布

兩個樣本方差比的分布

設 $X \sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2)$ ，且X與Y獨立, $X_1,X_2,\cdots,X_n$ 是來自X的樣本， $Y_1,Y_2,\cdots,Y_n$ 是來自Y的樣本， $\bar{X}$ 和 $\bar{Y}$ 分別是這兩個樣本的樣本均值， S_1^2 和 S_2^2 分別是這兩個樣本的樣本方差,則有

$\frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 1)$
若 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ $\frac{\bar{X}-\bar{Y}-(\mu_1 - \mu_2)} { \sqrt{\frac{(n_1 - 1)S_1^2+ (n_2 - 1)S_2^2}{n_1+n_2-2}} {\sqrt{\frac{1}{n_1} + \frac{1}{n_2} } }} \sim t(n_1 + n_2 -2)$