統計學基本原理


1.隨機事件

  確定性現象:在一定條件下必然發生的現象稱為確定性現象;特征:條件完全決定結果

  隨機現象:在一定條件下可能出現也可能不出現的現象稱為隨機現象;特征:條件不能完全決定結果。

  隨機現象是通過隨機試驗來研究的。具有以下三個特征的試驗稱為隨機試驗:

    (1)可以在相同的條件下重復進行;

    (2)每次試驗的可能結果不止一個,並且能事先明確試驗的所有可能結果;

    (3)進行一次實驗之前不能確定哪一個結果會出現。

  樣本空間和樣本點:定義隨機試驗E的所有可能的結果組成的集合稱為E的樣本空間,記為$\Omega$。樣本空間的元素,即試驗E每一個結果,稱為樣本點$\omega$。

  隨機事件:隨機試驗E的樣本空間的子集稱為E的隨機事件。

  對於拋篩子試驗:它的樣本空間是{1,2,3,4,5,6},每一個元素就是樣本點,"大於3的概率"是隨機事件。因此有$\Omega \ge A \ge \omega_i$

2.隨機事件的關系

  事件的交:$事件A與事件B同時發生,則稱這樣一個事件為交或者積,記為A\cap B或者AB$;

  事件的並:$事件A與事件B至少有一個發生,也即A和B的所有樣本點構成的集合,稱為並,記為A\cup B$;

  事件的包含: $事件A包含事件B,記為A \supset B$;

  事件的相等:$事件A與事件B相等,記為A=B$

  事件的互斥:$如果事件A與事件B的交集為空(AB=\phi),則稱A和B互斥$;

  事件的差:$事件A發生而B不發生,記為A-B$;

  事件的對立$如果事件A和B有且僅有一個發生,且他們的並集是整個集合(A\cup B= \Omega,且A\cap B=\phi)$

  隨機事件的獨立性是各種數學模型的基本前提假設

2.隨機事件的規律性--概率

 

  頻率的定義:在相同的條件下進行了n次試驗,在這n次試驗中,事件A發生的次數$n_A$稱為事件A發生的頻數,比值$\frac{n_A}{n}$稱為事件A發生的頻率,並記為$f_n(A)$

 

  頻率不是概率

 

  隨機事件A的概率:一般地,在大量重復試驗中,如果事件A發生的頻率m/n會穩定在某個常數p附件,那么這個常數p就叫做事件A的概率,記做$P(A)=p$

 

  概率的性質:

 

    (1)對於任意事件A,有:$0 \le P(A) \le 1$

    (2)對於必然事件A和不可能事件B,有$P(必然事件)=1$,$P(不可能事件)=0$

    (3)對於兩兩互斥的可數個事件$A_1, A_2, ..., A_n,有P(A_1 \cup A_2 \cup ... \cup A_n) = P(A_1) + P(A_2) + ... + P(A_n) = P(A)$,稱$P(A_n)$為事件A的概率

    (4)$P(\overline A) = 1 - P(A)$

    (5)$A \subset B,則P(A) \ge P(B)$

  事件的獨立性與條件概率:

    設A,B為兩事件,且$P(A)>0$,稱$P(B|A)=\frac{P(AB)}{P(A)}$為事件A發生的條件下事件B發生的條件概率;

    設A,B為兩事件,且滿足公式$P(AB)=P(A)P(B)$,則稱A與B事件獨立。

    設$A_1, A_2, ..., A_n是n個事件$,如果其兩兩互斥,則有$P(A_1 A_2 ... A_n) = P(A_1)P(A_2)...P(A_n)$

  五大公式(極其重要):

    (1)加法公式:

      $P(AUB) = P(A) + P(B) - P(AB)$

      $P(AUBUC) = P(A) + P(B\cup C) - P((A \cap B)U(A \cap C)) = P(A) + P(B) + P(C) - P(BC) -P(AB) - P(BC) + P(ABC) $ 

    (2)減法公式:

      $P(A-B)=P(A) - P(AB)$

    (3)乘法公式:

      $當P(A) > 0時,有P(AB) = P(A) P(B|A)$

      $當P(A_1 A_2 ... A_n)>0時,有P(A_1 A_2 ... A_n) = P(A_1)P(A_2|A_1) ... P(A_n|A_1 A_2 ... A_{n-1})$

    (4)全概率公式[先驗概率公式]:

      設$B_1, B_2, ..., B_n滿足\cup_{i=1}^{n}B_i=\Omega,B_iB_j=\phi(i \neq j)且 P(B_i) > 0$,則對任意事件A有:

                            $P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)$

    (5)貝葉斯公式[后驗概率公式]:

      設$B_1, B_2, ..., B_n滿足\cup_{i=1}^{n}B_i=\Omega,B_iB_j=\phi(i \neq j)且 P(B_i) > 0$,對於$P(A)>0$,有:

                            $P(B_j|A) = \frac{P(b_j)P(A|B_j)}{\sum_{i=1}^{n}P(B_i)P(A|B_i)}$

二、隨機變量及其概率分布

1.隨機變量

  定義:在樣本空間$\Omega上的實值函數X=X(\omega),\omega \in \Omega,稱X(\omega)為隨機變量,記為X$

2.分布函數

  定義:對於任意實數x,記函數$F(x)=P\{X \le x\}, -\infty < x < + \infty,稱F(x)為隨機變量X的分布函數,F(x)的值等於隨機變量X在區間(- \infty, x]內取值的概率,即事件"X \le x"的概率$

  顯然地,F(x)具有下列性質:

    (1) $0\le F(x) \le 1$

    (2)$F(x)是單調非減函數,即當x_1<x_2,F(x_1) \le F(x_2)$

    (3)$F(x)是右連續的,即F(x+0)=F(x)$

    (4)$對任意的x_1 < x_2,有P\{x_1 < X < x_2\} = F(x_2) - F(x_1)$

    (5)$對任意的x, P\{X=x\}=F(x) - F(x-0)$

3.離散型隨機變量X的概率分布

  設離散型隨機變量X的可能取值是$x_1, x_2, ..., x_n$,X取各可能的值得概率為 $P\{X=x_k\}=P_k, k=1,2,..$稱上式為離散型隨機變量X的概率分布或分布律

  

 4.連續型隨機變量及其概率分布

  如果對隨機變量X的分布函數$F(x),存在一個非負可積函數f(x),使得對任意函數x,都有F(x)=\lmoustache_{- \infty}^{x}f(t)d(t), -\infty < x < + \infty$,稱X為連續型隨機變量,函數f(x)稱為X的概率密度.

  概率密度函數f(x)的性質:

    (1)$f(x) \ge 0$

    (2)$\lmoustache_{-\infty}^{+\infty}f(x)dx=1$

    (3)$對任意實數x_1 < x_2,有P\{x_1 < X \le x_2\}=\lmoustache_{x_1}^{x_2}f(t)dt$

    (4)$在f(x)的連續點處有F'(x)=f(x)$,如果X是連續型隨機變量,則顯然有$P\{x_1 < X \le x_2\}=P\{x_1 \le X < x_2\}=P\{x_1 < X <x_2\}=P\{x_1 \le X \le x_2\}$

 三.隨機變量的數字特征

1.數學期望:

    離散型隨機變量的數學期望:

      已知隨機變量X的概率分布為$P\{X=x_k\}=P_k, k=1,2,...$,則$E(X)=\sum_{k=1}^{+\infty}x_k P_k$

    連續型隨機變量的數學期望:

      已知隨機變量X的概率密度為$f(x)$,其概率分布為$\int_{-\infty}^{x}f(t)dt$,則$E(X)=\lmoustache_{-\infty}^{+\infty}xf(x)dx$

  數學期望的性質:

    設X是隨機變量,C是常數,則有:$E(CX) = CE(X)$

    設X和Y是任意兩個隨機變量,則有:$E(X \pm Y) = E(X) \pm E(Y)$
    設隨機變量X和Y相互獨立,則有:$E(XY) = E(X)E(Y)$

2.方差:

    設X是隨機變量,如果數學期望$E\{[X - E(x)]^2\}$存在,則稱為X的方差,記作$D(X)$,即$D(X) = E\{[X - E(X)]^2\}$。稱$\sqrt{D(x)}$為隨機變量X的標准差或均方差,記作$\sigma(X)$

    方差計算公式: $D(X) = E(X^2) - [E(X)]^2$

  

 

3.矩、協方差、相關系數

  矩:

    原點矩:設X是隨機變量,如果$E(X)^2$,k=1,2,...存在,則稱之為X的k階原點矩

    中心距:設X是隨機變量,如果$E\{[X - E(X)]^k/\}$存在,則稱之為X的k階中心距

  協方差:

    對於隨機變量X和Y,如果$E\{[X - E(X)][Y - E(Y)]\}$存在,則稱之為X和Y的協方差,記作$cov(X, Y)$即:

            $cov(X, Y)=E\{ [X - E(X)][Y - E(Y)] \}$

    顯然地,$X-E(X)和Y-E(Y)$是兩個標准差的向量表示形式(標准差是內積),它的物理意義是反映了兩個向量的夾角和其模之間的關系。

  相關系數:

    對於隨機變量X和Y,如果$D(X)D(Y) \neq 0,則稱\frac{cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}$為X和Y的相關系數,記為$\rho_{XY}$

    它們之間的關系及推導公式詳見:https://blog.csdn.net/dcrmg/article/details/52416832

四、數理統計的基本概念

1.基本概念

  總體:數理統計中所研究對象的某項數量指標X的全體稱為總體。

  樣本:如果$X_1, X_2, ..., X_n$相互獨立且都與總體X同分布,則稱$X_1, X_2, ..., X_n$為來自總體的簡單隨機樣本,n為樣本容量,樣本的具體觀測值$x_1, x_2, ..., x_n$稱為樣本值,或者總體X的n個獨立觀測值。

  統計量:樣本$X_1, X_2, ..., X_n$的不含未知參數的函數$T=T(X_1, X_2, ..., Xn)$稱為統計量。

  

  樣本數字特征:設$X_1, X_2, ..., X_n$是來自總體X的樣本,則稱:

    (1)樣本均值:

      $\overline{X} = \frac{1}{n} \sum_{i=1}^{n}X_i$

    (2)樣本方差:

      $S^2 = \frac{1}{n-1} \sum_{i-1}^{n}(X_i - \overline{X})^2$,樣本標准差開根號即可;

    (3)樣本k階原點矩:

      $A_k = \frac{1}{n} \sum_{i=1}^{n}X_{i}^{k}, k=1, 2, A_1 = \overline X$

    (4)樣本k階中心距:

      $B_k = \frac{1}{n} \sum_{i=1}^{n}(X_i - \overline X)^k, k=1,2, B_2=\frac{n-1}{n} S^2 \neq S^2$

   樣本數據特征的性質:

    (1)如果總體X具有數學期望$E(X)=\mu$,則:

      $E(\overline X) = E(X) = \mu$

    備注:意思是,如果總體X的數學期望存在,那么它的數學期望就等於樣本的均值,即樣本均值是總體均值的無偏估計量

    (2)如果總體X具有方差$D(X)=\sigma^2$,則:

      $D(\overline X)  = E(S^2)=D(X) / n = \sigma^2 / n$

    備注:意思是,如果總體X的方差存在,那么它的方差除以樣本量就等於樣本的方差,並且樣本方差是總體方差的無偏估計量

    (3)平均偏差:$\frac{\sqrt{|X-u|}}{N}$

    (4)離散系數:標准差與其相應的均值之比,表示為百分數。用於比較兩組數據離散程度[變異程度]的大小

五、參數[抽樣]估計

1.理論基礎:

  抽樣估計就是從總體中抽樣,計算樣本均值、方差、成數等參數,以此梯段總體參數的過程。 

  抽樣推斷的理論基礎:

    1.大數定律:頻率以及大量測量值的算術平均值具有穩定性,不受個別測量值的影響。

    2.大量隨機變量和的分布近似於正態分布。這里衍生了獨立同分布的各種極限定理。

2.參數估計方法

  點估計

    用樣本$X_1, X_2, ..., X_n$構造的統計量$\hat \theta(X_1, X_2, ... ,X_n)$來估計未知參數$\theta$稱為點估計,統計量$\hat \theta(X_1, X_2, ... ,X_n)$稱為估計量

  無偏估計量:

    設$\hat \theta 是 \theta$的估計量,如果$E(\hat \theta) = \theta$,則稱$\hat \theta = \hat \theta(X_1, X_2, ... ,X_n)$是未知參數$\theta$的無偏估計量。

  一致估計量:

    設$\hat \theta(X_1, X_2, ... ,X_n)$是$\theta$的估計值,如果$\hat \theta$依概率收斂於$\theta$,則稱$\hat \theta(X_1, X_2, ... ,X_n)$是$\theta$的一致估計量。

  **證明樣本均值是總體數學期望的無偏估計量:

    已知:$E(\overline X) = E(X) = \mu$

    推導:$E(X) = E(\frac{1}{n} \sum_{i=1}^{n}X_i) = \frac{1}{n} \sum_{i=1}^{n}E(X_i)=\frac{1}{n} \sum_{i=1}^{n} \mu = \mu$

  **證明樣本方差是總體方差的無偏估計量:

    已知:$D(\overline X)  = E(S^2) / n= D(X) /n=\sigma^2 /n$

    推導:$E(S^2) = \frac{1}{n-1} E\{ \sum_{i=1}^{n}[(X_i - \mu) - (\overline X - \mu)]^2 \} = \frac{1}{n-1} E\{ \sum_{i=1}^{n}[(X_i - \mu)^2 - 2(X_i - \mu)(\overline X - \mu) + (\overline X - \mu)^2] \} = \frac{1}{n-1} E[\sum_{i=1}^{n}(X_i - \mu)^2 - n(\overline X - \mu)^2] = \frac{1}{n-1}[\sum_{i=1}^{n}E(X_i - \mu)^2 - nE(\overline X - \mu)^2] = \frac{1}{n-1}[n\sigma^2 - nD(\overline X)] = \sigma^2$

  抽樣平均誤差:$\mu_{\overline x} = \frac{\sigma(X)}{\sqrt{ N}}$

  區間估計:在一定的概率保證程度下,選定一個區間$\delta$,再根據樣本指標數值和$\delta$去估計總體指標數值所在的可能范圍的一種統計推斷方法。

    (1)置信區間:設$theta是總體X的未知參數,X_1, X_2, ..., X_n是來自總體X的樣本,對於給定的\alpha(0<\alpha<1)$,如果兩個統計量滿足:

      $P{\theta_1 < \theta < \theta_2} = 1 - \alpha$

    則稱隨機區間$(\theta_1, \theta_2)$為參數$\theta$的置信水平(或置信度)為$1 -

\alpha$的置信區間(或區間估計),簡稱為$]\theta的1-\alpha的置信區間,\\theta_1 和 \theta_2分別稱為置信下限和置信上限$

    (2)整理:

      估計區間的上下限:$\Delta_{\overline x},相當於下面第二張表第一行的\frac{\sigma}{\sqrt{n}}Z_{\frac{\alpha}{2}}$

      置信區間:$[\overline x \pm \Delta_{\overline x}]$

      置信度$F(t) = P(|\overline x - \overline X| \le t\mu_{\overline x})$

      t稱為概率度,它與置信度存在分布上的轉換關系,如下圖所示。這里的$\mu_{\overline x}$就相當於下面第二張表第一行的$\frac{\sigma}{\sqrt{n}}$,也即總體標准差。

      

 

    (3)區間估計的求解過程:

      以下面表中第一行的前提條件為例。

      根據樣本資料計算$\overline x$和$\frac{\sigma}{\sqrt n}$;

      根據給定的置信度查正態分布表計算概率度

      根據上述公式計算估計區間。

 

  備注:就是根據大數定律,大量樣本和的分布接近正態分布,並在正態分布上繼續構造各種統計量來計算給定置信度下的均值和方差的置信區間。

  

3.常用統計抽樣分布和正態總體的抽樣分布

  卡方分布:

    設隨機變量$X_1, X_2, ..., X_n$相互獨立且服從標准正態分布N(0,1),則稱隨機變量$\chi^2 = X_1^2 + X_2^2 + ... + X_n^2$服從自由度為n的卡方分布,記作$\chi^2 \sim \chi^2(n)$。

    性質:

      $E(\chi^2) = n, D(\chi^2) = 2n$

      設$\chi_1^2 \sim \chi^2(n_1), \chi_2^2 \ sim \chi^2(n_2), 且\chi_1^2和\chi_2^2相互獨立,則\chi_1^2 + \chi_2^2 \sim \chi^2(n_1 + n_2)$。

  t分布:

    設隨機變量X和Y相互獨立,且$X \sim N(0, 1), Y \sim \chi^2(n)$,則稱隨機變量$T = \frac{X}{\sqrt{Y/n}}$服從自由度為n的t分布,記作$T \sim t(n)$。

    性質:

      t分布的概率密度是偶函數,和正態分布的概率密度函數非常相似,當n充分大時,t分布近似標准正態分布

  F分布:

    設隨機變量X和Y相互獨立,且$X \sim \chi^2(n_1), Y \sim \chi^2(n_2)$,則稱隨機變量$F=\frac{X/n_1}{Y/n_2}$服從自由度為$(n_1, n_2)$的F分布,記作$F \sim F(n_1, n_2)$,其中$n_1和n_2$分別稱為第一自由度和第二自由度。

    性質: 它的導數也是F分布

  統計三劍客的作用:

    顯然地,可以對均值和方差構造新的統計量,使其符合符合上述分布,從而進行區間估計及后面的顯著性檢驗。

    正態分布一般用於檢驗大樣本量下的連續型數據的分布情況。

    卡方分布用於分類變量的卡方檢驗。F分布多用於方差齊性檢驗。t分布用於小樣本時的總體均值的檢驗。

六、假設檢驗

  假設檢驗依據的統計原理是:小概率事件在一次實驗中是不會發生的,又稱小概率原理。

  假設檢驗的兩類錯誤:第一類錯誤,拒絕實際為真;第二類錯誤,接收實際為假。

  顯著性水平:在假設檢驗中允許犯第一類錯誤的概率,記為$\alpha(0<\alpha<1)$,則$\alpha$稱為顯著性水平,它表現了對假設$H_0$的控制程度,一般$\alpha取0.1, 0.05, 0.01, 0.001$等。

  顯著性檢驗:只控制第一類錯誤概率$\alpha$的統計檢驗,稱為顯著性檢驗。

  顯著性檢驗的一般步驟:

    1)根據問題要求提出原假設$H_0$

    2)給出顯著性水平$\alpha$

    3)確定檢驗統計量及拒絕形式

    4)按犯第一類錯誤的概率等於$\alpha$求出拒絕域W

    5)根據樣本值計算檢驗統計量T的觀測值,當$t \in W$時,拒絕原假設$H_0$,否則,接收原假設$H_0$。

  假設檢驗和區間估計的區別:

    假設檢驗和區間估計過程相反,幾乎可以看作是逆運算。

    區間估計在已知的總體參數和樣本參數的情況下,去估計總體的均值或方差的置信區間。在上表第一行中,假設知道了樣本均值$\overline x$,樣本量n和總體方差$\sigma^2(也即樣本方差\frac{\sigma^2}{n})$,以及給定的置信度$1 - \alpha$,並且構造的統計量Z服從標准正態分布,那么可以推測總體均值的置信區間就是上表第一行的置信區間。

    同樣地,假設檢驗在已知的總體參數和樣本參數的情況下,去估計樣本的均值或方差的置信區間。在上表第一行中,在給定的顯著性水平$\alpha$以及總體的均值和方差以及樣本量,可以反過來計算上式中的$\overline x$

    因為有$F(t)=P(|\overline x - \mu| < t * z_{\alpha/2})$

    兩者無非是$\overline 和 \mu$的計算而已。假設檢驗的表和上表一致。

  p值和z值:

    這里需要總結一下比較混亂的檢驗方式,以z檢驗為例。z檢驗的前提是總體方差已知。

    $\alpha = 0.05$ 則計算它對應的置信區間[-1.96, 1.96](),以下有三種計算方法來確定拒絕或接受原假設。

      1.直接計算樣本均值的估計區間,看抽取的樣本是否落在估計區間內:

              $ \mu - \sigma / \sqrt(n) * 1.96 <  \overline{x} < \mu + \sigma / \sqrt(n) * 1.96  $

      2.構造統計量,計算樣本均值的概率度,概率度t是否落在置信區間內:

              $z = \frac{\overline x - \mu}{\sqrt{\sigma / n}}$,看它是否落在[-1.96, 1.96]的置信區間內

      3.計算了z值的概率度,繼續計算p值,看它是否小於$\alpha$:

              $z = \frac{\overline x - \mu}{\sqrt{\sigma / n}}$,得到它的概率度,求它的雙側概率密度值,假設是z=2.15(p值是0.03),於是繼續計算它的p值:

              $p = 2[1 -  \phi (2.15)] = 2 * (1 - 0.98437) = 0.031$

              顯然地,當$p > \alpha=0.01$,拒絕原假設;當$p < \alpha=0.05$,接受原假設

七、樣本均值和方差檢驗的場景

  均值檢驗:適用於均值是否存在差別的問題,反應的是集中趨勢。

    單樣本均值檢驗:測試某批產品是否正常,或者某個部件是否正常,以及評價風險是否在可控范圍內等。視總體方差已知和未知分為z檢驗和t檢驗。api: stats.ttest_1samp

    雙樣本均值檢驗:測試兩個總體的均值是否有差別。api: stats.ttest_ind和ttest_ind_from_stats

    配對樣本t檢驗:同一樣本在某一條件影響的前后是否有差異。比如化肥與小麥產量,培訓前后差異等。思路:兩條數據相減得到一列數據,再用單樣本均值檢驗看其均值是否為0

  方差檢驗:適用方差是否存在差別的問題,反應的離中趨勢。

    這里要說明因素及其水平。假如收入是目標變量,它受學歷的影響。那么學歷是一個因素,學歷的等級是水平。試驗的目的是查看不同學歷水平下的收入是否存在顯著差別,或者說收入是否受學歷的影響。

    單因素方差分析:連續變量是否受某分類變量不同水平的影響。

    多因素方差分析:已經過渡為一般線性模型,連續變量是否受某些分類變量的影響,以及分量變量對連續變量的影響是否受到別的分類變量的影響[交互項]。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM