數理統計知識點歸納


目錄

大數定律 返回目錄

弱大數定律(辛欽大數定律):

設 $X_{1},X_{2},\cdots$ 是相互獨立,服從同一分布的隨機變量序列,且具有數學期望 $E(X_{k})=\mu(k=1,2,\cdots)$,作前 $n$ 個變量的算術平均 $\frac{1}{n}\sum_{k=1}^{n}X_{k}$ ,則對於任意 $\varepsilon>0$,有

$\lim_{n\rightarrow\infty}P\left\{ |\frac{1}{n}\sum_{k=1}^{n}X_{k}-\mu|<\varepsilon\right\} =1$.

  解釋:大量實驗證實,隨機事件$A$ 的頻率 $f_{n}(A)$ 當重復實驗次數 $n$ 增大時總呈現出穩定性,穩定在某一個常數附近,頻率的穩定性是概率定義的可觀基礎。通俗地說,辛欽大數定律是說,對於獨立同分布且具有均值的隨機變量 $X_{1},X_{2},\cdots,X_{n}$, 當 $n$ 很大時它們的算術平均 很可能接近於它們的期望值 $\mu$.

伯努利大數定律(辛欽大數定律的推論):

設 $f_A$ 是 $n$ 次獨立重復實驗事件中 $A$ 發生的次數,$p$ 是事件 $A$ 在每次試驗中發生的概率,則對於任意正數 $\varepsilon>0$,有

$\lim_{n\rightarrow\infty}P\left\{ |\frac{f_{A}}{n}-p|<\varepsilon\right\} =1$

$\lim_{n\rightarrow\infty}P\left\{ |\frac{f_{A}}{n}-p|\geq\varepsilon\right\} =0$.

  解釋:事件 $\left\{ |\frac{f_{A}}{n}-p|<\varepsilon\right\} $ 是一個小概率事件,這一事件在一次試驗中實際上幾乎是不發生的,但是當 $n$ 充分大時,該事件幾乎是必定發生,也就是說對於給定的任意小的正數 $\varepsilon$, 在 $n$ 充分大時,事件“頻率 $\frac{f_{A}}{n}$ 與概率 $p$ 的偏差小於 $\varepsilon$”實際上幾乎必定要發生。在實際應用中,當實驗次數很大時,便可以用事件的頻率來替代事件的概率.

中心極限定理 返回目錄

 

  在客觀實際中有許多隨機變量,它們是由大量的相互獨立的隨機因素的綜合影響所形成,而其中每一個別因素在總的影響中所起的作用都是微小的。這種隨機變量往往近似地服從正態分布。這種現象就是中心極限定律的可觀背景。

獨立同分布的中心極限定理

設隨機變量 $X_{1},X_{2},\cdots,X_{n},\cdots$ 相互獨立,服從同一分布,且具有數學期望和方差:$E(X_{k})=\mu,D(X_{k})=\sigma^{2}>0(k=1,2,\cdots)$,則隨機變量之和 $\sum_{k=1}^{n}X_{k}$ 的標准化變量 

$Y_{n}=\frac{\sum_{k=1}^{n}X_{K}-E(\sum_{k=1}^{n}X_{k})}{\sqrt{D(\sum_{k=1}^{n}X_{k})}}=\frac{\sum_{k=1}^{n}X_{k}-n\mu}{\sqrt{n}\sigma}$ 

近似地服從正態分布$N(0,1)$.

  換成另外一種容易理解的說法:均值為 $\mu$, 方差為 $\sigma^{2}>0$ 的獨立同分布的隨機變量 $X_{1},X_{2},\cdots,X_{n}$ 的算術平均 $\bar{X}=\frac{1}{n}\sum_{k=1}^{n}X_{k}$, 當 $n$ 充分大時近似地服從均值為 $\mu$,方差為 $\frac{\sigma^{2}}{n}$ 的正態分布.

  中心極限定理表明,在相當一般的條件下,當獨立隨機變量的個數不斷增加時,其和的分布趨於正態分布,這一事實闡明了正態分布的重要性,也揭示了為什么在實際應用中會經常遇到正態分布,也就是揭示了產生正態分布變量的源泉. 另一方面,他提供了獨立同分布隨機變量之和$\sum_{k=1}^{n}X_{k}$(其中$X_{k}$的方差均存在)的近似分布,只要和式中加項的個數充分大,可以不必考慮和式中的隨機變量服從什么分布,都可以用正態分布來近似,這在應用上是有效和重要的。

  中心極限定理的內容包含極限,因而稱它為極限定理是很自然的,又由於它在統計中的重要性,稱它為中心極限定理,這是波利亞(Polya)在1920年取的名字.

 置信區間 返回目錄

 

設總體 $X$ 的分布函數 $F(x;\theta)$ 含有一個未知參數 $\theta$, $\theta\in\varTheta$, ($\varTheta$ 是 $\theta$ 可能取值的范圍), 對於給定值 $\alpha$ ($0<\alpha <1$), 若由來自 $X$ 的樣本 $X_1, X_2, ..., X_n$, 確定的兩個統計量 $\bar{\theta}=\bar{\theta}(X_{1},X_{2},\cdots,X_{n})$ 和 $\underline{\theta}=\underline{\theta}(X_{1},X_{2},\cdots,X_{n})$ ($\underline{\theta}<\bar{\theta}$), 對於任意 $\theta\in\varTheta$ 滿足

$P\{\underline{\theta}(X_{1},X_{2},\cdots,X_{n})<\theta<\bar{\theta}(X_{1},X_{2},\cdots,X_{n})\}\geq1-\alpha$ 

則稱隨機區間 $(\underline{\theta},\bar{\theta})$ 是 $\theta$ 的置信水平為 $1-\alpha$ 的置信區間,$\bar{\theta}$ 和 $\underline{\theta}$ 分別稱為置信水平為 $1-\alpha$ 的雙側置信區間的置信下限和置信上限,$1-\alpha$ 稱為置信水平.

  解釋:若反復多次抽樣(各次得到的樣本容量相等,都是 $n$).每一個樣本值確定一個區間 $(\underline{\theta},\bar{\theta})$,每個這樣的區間要么包含 $\theta$ 的真值,要么不包含 $\theta$ 的真值. 按照伯努利大數定理,在這么多區間中,包含 $\theta$ 真值的約占 $100(1-\alpha)\%$,不包含 $\theta$ 真值的約占 $100\alpha\%$. 例如 $\alpha=0.01$,反復抽樣 1000 次,則得到的 1000 個區間中不包含 $\theta$ 真值的約僅為 10 個.

  對於一個未知量,人們在測量或計算時,常不以得到近似值為滿足,還需要估計誤差,即要求知道近似值的精確程度(亦即真值所在的范圍). 類似地,對於未知參數 $\theta$,除了求出它的點估計 $\hat{\theta}$ 外, 我們還需要估計出一個范圍,並希望知道這個范圍包含參數 $\theta$ 真值的可信程度. 這樣的范圍通常以區間估計的形式給出,同時還給出此區間包含參數 $\theta$ 真值的可信程度。

 

 峰度、偏度檢驗 返回目錄

 

  由中心極限定理可知,正態分布是較廣泛地存在的,因此,當研究一連續型總體時,人們往往先考察它是否服從正態分布, 在正態性檢驗方法中,總的來說,以“偏度、峰度檢驗法”及“夏皮羅-威爾克法”較為有效.

 

  隨機變量 $X$ 的偏度和峰度指的是 $X$ 的標准化變量 $[X-E(X)]/\sqrt{D(X)}$ 的三階矩和四階矩:

$\nu_{1}=E\left[\left(\frac{X-E(X)}{\sqrt{D(X)}}\right)^{3}\right]=\frac{E[(X-E(X))^{3}]}{(D(X))^{3/2}}$

$\nu_{2}=E\left[\left(\frac{X-E(X)}{\sqrt{D(X)}}\right)^{4}\right]=\frac{E[(X-E(X))^{4}]}{(D(X))^{2}}$

  當隨機變量 $X$ 服從正態分布時, $\nu_{1}=0, \nu_{2}=3$.

   設 $X_{1},X_{2},\cdots,X_{n}$ 是來自總體 $X$ 的樣本, 並分別稱 $G_{1},G_{2}$ 為樣本的偏度和樣本峰度.

  若總體 $X$ 為正態變量,則可證當 $n$ 充分大時,近似地有

$G_{1}\sim N\left(0,\frac{6(n-2)}{(n+1)(n+3)}\right)$

$G_{2}\sim N\left(3-\frac{6}{n+1},\frac{24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}\right).$

  設 $X_{1},X_{2},\cdots,X_{n}$ 是來自總體 $X$ 的樣本. 現在來檢驗假設

$H_{0}$: $X$ 為正態總體.

  記

$\sigma_{1}=\sqrt{\frac{6(n-2)}{(n+1)(n+3)}},\sigma_{2}=\sqrt{\frac{24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}},$

$\mu_{2}=3-\frac{6}{n+1},U_{1}=G_{1}/\sigma_{1},U_{2}=(G_{2}-\mu_{2})/\sigma_{2}.$ 當 $H_{0}$ 為真且 $n$ 充分大時,近似地有

$U_{1}\sim N(0,1),U_{2}\sim N(0,1).$

  由抽樣分布中關於“矩”的知識可以知道,樣本偏度 $G_1$, 樣本峰度 $G_2$ 分別以概率收斂於總體偏度 $\nu_{1}$ 和總體峰度 $\nu_{2}$. 因此當 $H_{0}$ 為真且 $n$ 充分大時,一般來說,$G_1$ 與 $\nu_{1}=0$ 的偏離不大,而 $G_2$ 與 $\nu_{2}=3$ 的偏離不應該太大. 故從直觀來看當 $|U_{1}|$ 的觀察值 $|u_{1}|$ 或 $|U_{2}|$ 的觀察值 $|u_{2}|$ 過大時就拒絕 $H_{0}$. 取顯著水平為 $\alpha$,$H_{0}$的拒絕域為:

$|u_{1}|\geq k_{1}$ 或 $|u_{2}|\geq k_{2}$

其中 $k_{1},k_{2}$ 由以下兩式確定:

$P_{H_{0}}\{|U_{1}|\geq k_{1}\}=\frac{\alpha}{2},P_{H_{0}}\{|U_{2}|\geq k_{2}\}=\frac{\alpha}{2}.$

這里記號 $P_{H_{0}}\{\bullet\}$ 表示當 $H_{0}$ 為真時事件 $\{\bullet\}$ 的概率,即有 $k_{1}=z_{\alpha/4},k_{2}=z_{\alpha/4}.$ 於是得拒絕域為

$|u_{1}|\geq z_{\alpha/4}$ 或 $|u_{2}|\geq z_{\alpha/4}$

  下面來驗證當 $n$ 充分大時上述檢驗法近似地滿足顯著水平為 $\alpha$ 的要求.

事實上當 $n$ 充分大的時候有

  $P${當 $H_{0}$ 為真拒絕 $H_{0}$ }

  $=P_{H_{0}}\{(|U_{1}|\geq z_{\alpha/4})\cup(|U_{2}|\geq z_{\alpha/4})\}$

  $\leq P_{H_{0}}\{|U_{1}|\geq z_{\alpha/4}\}+P_{H_{0}}\{|U_{2}|\geq z_{\alpha/4}\}=\frac{\alpha}{2}+\frac{\alpha}{2}=\alpha.$

  例 下面列出了 84 個男子的頭顱的最大寬度(mm), 現在來分析這些數據(下載:headWidth.rar)是否來自正態總體(取顯著水平$\alpha=0.1$).

  

  解  現在來檢驗假設

     $H_0$:數據來自正態總體.

  這里 $\alpha=0.1,n=84,\sigma_{1}=\sqrt{\frac{6(n-2)}{(n+1)(n+3)}}=0.2579,\sigma_{2}=\sqrt{\frac{24n(n-2)(n-3)}{(n+1)^{2}(n+3)(n+5)}}=0.4892,\mu_{2}=3-\frac{6}{n+1}=2.9294.$

  下面計算樣本中心矩$B_2,B_3,B_4$,計算時可以利用以下關系式:

  $B_{2}=A_{2}-A_{1}^{2},B_{3}=A_{3}-3A_{2}A_{1}+2A_{1}^{3},$

  $B_{4}=A_{4}-4A_{3}A_{1}+6A_{2}A_{1}^{2}-3A_{1}^{4},$

其中 $A_{k}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k},(k=1,2,3,4)$ 為 $k$ 階樣本矩. 經計算的 $A_k  (k=1,2,3,4),  B_k  (k=2,3,4)$ 的觀察值分別為

  $A_1=143.7738,  A_2=20706.13,  A_3=2987099,  A_{4}=4.136426\times10^{8}, B_2=35.2246, B_3=-28.5, B_4=3840.$

樣本的偏度和峰度的觀察值分別為

$g_1=-0.1363,  g_2=3.0948.$

而 $z_{\alpha/4}=z_{0.025}=1.96.$ 所以拒絕域為:

$|u_{1}|=|g_{1}/\sigma_{1}|\geq1.96$ 或 $|u_{2}|=|g_{2}-\mu_{2}|/\sigma_{2}\geq1.96.$

現在算得 $|u_{1}|=0.528<1.96,|u_{2}|=0.338<1.96$, 故接受 $H_0$,認為數據來自正態分布的總體.

   上述檢驗法稱為"偏度(skewness)、峰度(kurtosis)檢驗法",使用這一檢驗法時,以樣本數大於100為宜.

  偏度直觀上表征分布曲線相對於平均值的不對稱程度的特征數,負偏度也稱左偏態,此時數據位於均值左邊的個數要比位於右邊的個數少,使得曲線左側尾部拖的很長,正偏度也稱右偏態,直觀上右邊的尾部相對於左邊的尾部要長,因為少數變量值很大,使得曲線右側尾部拖得很長,正態分布是對稱的,偏度為 0.

  峰度直觀上描述了分布曲線的陡峭程度。峰度為 3 表示與正態分布相同,峰度大於 3 表示比正態分布陡峭,峰度小於 3 表示比正態分布平緩。

  

  在實際使用過程中,我們當然不會自己去手動計算,這里使用SPSS來對上面的數據進行“偏度、峰度檢驗“,但是在統計軟件進行計算峰度時,通常將峰度的作值減 3 處理,使得正態分布的峰度為 0.


 

  計算結果與上面手動計算結果基本一致,說明可以認定該數據來自正態總體. 畫出上面數據的頻率分布曲線,來直觀看一下:

    可以看出頻率分布曲線與圖中正態分布曲線(紅色)基本相符合!

箱線圖 返回目錄

 

  首先介紹樣本分位數.

定義  設有容量為 $n$ 的樣本觀察值 $x_1,x_2,x_3,\cdots,x_n$, 樣本的 $p$ 分位數($0<p<1$), 記為 $x_p$, 它具有以下性質:(1)至少有 $np$ 個觀察值小於或等於 $x_p$; (2)至少有 $n(1-p)$ 個觀察值大於或者等於 $x_p$.

  樣本 $p$ 的分位數可按照以下法則求得.將 $x_1,x_2,\cdots,x_n$ 按照自小到大的次序排成 $x_{(1)}\leq x_{(2)}\leq\cdots\leq x_{(n)}$.

1. 若 $np$ 不是整數,則只有一個數據滿足定義中的兩點要求,這一數據位於大於 $np$ 的最小整數處,即為位於 $[np]+1$ 處的數. 例如, $n=12,p=0.9, np=10.8,n(1-p)=1.2$,則 $x_p$ 的位置應滿足至少有 10.8 個數據 $\leq x_p$ ($x_p$ 應位於第 11 或者大於第 11 處);且至少有 1.2 個數據 $\geq x_p$ ($x_p$ 應位於第 11 或者小於 第 11 處), 故 $x_p$ 應位於第 11 處.

2. 若 $np$ 是整數. 例如在 $n=20, p=0.95$ 時,$x_p$ 的位置應滿足至少有 19 個數據 $\leq x_p$ ($x_p$ 應位於第 19 或者大於第 19 處)且至少有 1 個數據 $\geq x_p$($x_p$ 應位於第 20 或者小於第 20 處), 故第 19 或第 20 的數據均符合要求,就取這兩個數的平均值作為 $x_p$.

綜上,

  特別,當 $p=0.5$ 時, 0.5 分位數 $x_{0.5}$ 也記為 $Q_2$ 或 $M$, 稱為樣本中位數. 0.25 分位數 $x_{0.25}$ 稱為第一四分位數,又記為 $Q_1$;0.75 分位數 $x_{0.75}$ 稱為第三四分位數,又記為 $Q_3$,$x_{0.25},x_{0.5},x_{0.75}$在統計中是很有用的.

  下面介紹線箱圖.

  數據集的線箱圖是由箱子和直線組成的圖形,它是基於以下 5 個數的圖形概括:最小值 $Min$,第一四分位數 $Q_1$, 中位數 $M$,第三四分位數 $Q_3$ 和最大值 $Max$. 它的作法如下:

  (1)畫一水平(或垂直)數軸,在軸上標上 $Min,Q_1,M,Q_3,Max$. 在數軸上方畫一個上下側平行於數軸的矩形箱子,箱子的左右兩側分別位於 $Q_1,Q_3$ 的上方,在 $M$ 點的上方畫一條垂直線段. 線段位於箱子內部.

  (2)自箱子左側引一條水平線直至最小值 $Min$;在同一水平高度自箱子右側引一條水平線直至最大值. 這樣就將箱線圖作好了.

  還是上面頭顱寬度的數據,我們利用SPSS作出箱線圖.

  在數據集中某一個觀察值不尋常地大於或小於該數據集中的其他數據,稱為疑似異常值. 疑似異常值會對隨后的計算結果產生不適當的影響. 檢測意思異常值並加以適當處理是十分重要的. 線箱圖只要稍加修改,就能用來檢測數據集是否存在疑似異常值.

  第一四分位數 $Q_1$ 與第三四分位數 $Q_3$ 之間的距離:$Q_{3}-Q_{1}=IQR$ 稱為四分位數間距. 若數據小於 $Q_{1}-1.5IQR$ 或大於 $Q_{3}+1.5IQR$, 就認為它是疑似異常值,將上述箱線圖的作法(1),(2),(3)作如下改變:

  (1')同(1)

  (2')計算 $IQR=Q_{3}-Q_{1}$,若一個數據小於 $Q_{1}-1.5IQR$ 或大於 $Q_{3}+1.5IQR$,則認為它是一個疑似異常值. 畫出疑似異常值,並以 * 表示.

  (3')自箱子下側引一垂直線段直至數據集中除去疑似異常值后的最小值,又自箱子上側引出一豎直線直至數據集中除去疑似異常值后的最大值.

按照(1')(2')(3')做出的圖形稱為修正箱線圖. 實際上上面用SPSS畫出的就是一個修正箱線圖,只不過該軟件中使用圓圈表示疑似異常值,而不是 *,25表示第25個樣本值異常.

  線箱圖特別適合用於比較兩個或者兩個以上的數據集的性質,只需將多個箱線圖畫在同一個數軸上,就可以比較數據集的記作位置和分散情況,如下:

  下面分別給出了25個男子和25個女子的肺活量(以升計,已排序),畫出二者的箱線圖.

   男子組 

 

4.1 4.1 4.3 4.3 4.5 4.6 4.7 4.8 4.8 5.1 5.3 5.3

 

5.3 5.4 5.4 5.5 5.6 5.7 5.8 5.8 6 6.1 6.3 6.7 6.7

 

  女子組 

 

2.7 2.8 2.9 3.1 3.1 3.1 3.2 3.4 3.4 3.4 3.4 3.4

 

3.5 3.5 3.5 3.6 3.7 3.7 3.7 3.8 3.8 4 4.1 4.2 4.2

 

  從上圖可以較明顯低看出男子的肺活量要比女子大,男子的肺活量要比女子的肺活量分散.

單個分布的卡方($\chi^{2}$)擬合檢驗 返回目錄

 

  設總體 $X$ 的分布未知,$x_{1},x_{2},\cdots,x_{n}$ 是來自 $X$ 的樣本值. 我們來檢驗假設

$H_0: 總體 X 的分布函數為 F(x).$

$H_1: 總體 X 的分布函數不是 F(x).$

其中設 $F(x)$ 不含未知參數. (也常以分布律或概率密度代替).

下面來定義檢驗統計量. 將在 $H_0$ 下的 $X$ 可能取值的全體 $\varOmega$ 分成互不相交的子集 $A_{1},A_{2,}\cdots,A_{k}$, 以 $f_{i} (i=1,2,\cdots,k)$ 記錄樣本觀察值 $x_{1},x_{2},\cdots,x_{n}$ 中落在 $A_i$ 的個數,這表示事件 $A_{i}={X 的值落在子集 A_i 內}$ 在 $n$ 次獨立試驗中發生 $f_i$ 次, 於是在這 $n$ 次試驗中事件 $A_i$ 發生的頻率為 $f_{i}/n.$ 另一方面,當 $H_0$ 為真時,我們可以根據 $H_0$ 中所假設的 $X$ 的分布函數來計算事件 $A_{i}$ 的概率,得到 $p_i=P(A_{i}), i=1,2,\cdots,k.$ 頻率 $f_{i}/n$ 與概率 $p_i$ 會有差異,但一般來說,當 $H_0$ 為真, 且試驗次數又甚多時,這種差異不應太大,因此$\left(\frac{f_{i}}{n}-p_{i}\right)^{2}$ 不應太大,采用形式如:

$\sum_{i=1}^{k}C_{i}\left(\frac{f_{i}}{n}-p_{i}\right)^{2}$

的統計量來度量樣本與 $H_0$ 中所假設的分布吻合程度, 其中 $C_{i}  (i=1,2,\cdots,k)$ 為給定的常數. 皮爾遜證明,如果選取 $C_i=n/p_{i} (i=1,2,\cdots,k)$, 則有如下性質:

若 $n$ 充分大($n\geq50$), 則當 $H_0$ 為真時,統計量 $\sum_{i=1}^{k}C_{i}\left(\frac{f_{i}}{n}-p_{i}\right)^{2}$ 近似服從 $\chi^{2}(k-1)$ 分布.

於是采用:

 

$\chi^{2}=\sum_{i=1}^{k}\frac{n}{p_{i}}\left(\frac{f_{i}}{n}-p_{i}\right)^{2}=\sum_{i=1}^{n}\frac{f_{i}^{2}}{np_{i}}-n$

作為檢驗統計量.

  據以上討論,當 $H_0$ 為真時, 上述統計量 $\chi^{2}$ 不應太大,如 $\chi^{2}$ 過分大就拒絕 $H_0$, 拒絕域的形式為

$\chi^{2}\geq G (G為正常數).$

對於給定的顯著水平 $\alpha$, 確定 $G$ 使

$P{當 H_{0} 為真時拒絕 H_{0} }=P_{H_{0}}\{\chi^{2}\geq G\}=\alpha.$

所以 $G=\chi_{\alpha}^{2}(k-1)$. 即當樣本觀察值中的 $\chi^{2}$ 的值有

$\chi^{2}\geq\chi_{\alpha}^{2}(k-1),$

則在顯著水平 $\alpha$拒絕 $H_0$,否則就接受 $H_0$. 這個就是單個分布的 $\chi^{2}$ 擬合檢驗法.

  $\chi^{2}$ 擬合檢驗法擬合檢驗法時基於上面的定理得到的,所以使用時必須注意 $n$ 不能小於 50. 另外 $np_{i}$ 不能太小,應有 $np_{i}\geq5$, 否則應適當合並 $A_i$, 以滿足這個要求.

  例題 下表列出了某一地區在夏季的一個月中 100 個氣象站報告的雷暴雨次數.

$i$ 0 1 2 3 4 5 $\geq6$
$f_i$ 22 37 20 13 6 2 0
$A_i$ $A_0$ $A_1$ $A_2$ $A_3$ $A_4$ $A_5$ $A_6$

解  按題意需檢驗假設

$H_{0}:P\{X=i\}=\frac{\lambda^{i}e^{-\lambda}}{i!}=\frac{e^{-1}}{i!},i=0,1,\cdots.$

在 $H_{0}$ 下 $X$ 所有可能值為 $\varOmega=\{0,1,2,\cdots\},$, 將 $\varOmega$ 分成如表所示的兩兩不相交的子集 $A_{0},A_{1},\cdots,A_{6}$, 則有

$P\{X=i\}$ 為

$p_{i}=P\{X=i\}=\frac{e^{-1}}{i!},i=0,1,\cdots,5.$

例如

$p_{0}=P\{X=0\}=e^{-1}=0.36788,$

$p_{3}=P\{X=3\}=\frac{e^{-1}}{3!}=0.06131,$

$p_{6}=P\{X\geq6\}=1-\sum_{i=0}^{5}p_{i}=0.059,$

$n=100$.

$\chi^{2}擬合檢驗計算表$
$A_{i}$ $f_i$ $p_i$ $np_{i}$ 是否合並 $f_{i}^{2}/(np_{i})$
$A_{0}:{X=0}$ 22 $e^{-1}$ 36.788 13.16
$A_{1}:{X=1}$ 37 $e^{-1}$ 36.788 37.21
$A_{2}:{X=2}$ 20 $e^{-1}/2$ 18.394 21.75

$A_{3}:{X=3}$

$A_{4}:{X=4}$

$A_{5}:{X=5}$

$A_{6}:{X\geq6}$

13

6

2

0

$e^{-1}/6$

$e^{-1}/24$

$e^{-1}/120$

$1-\sum_{i=0}^{5}p_{i}$

6.131

1.533

0.307

0.059

合並:8.03

 

54.92

計算結果如上表所示, 其中有些 $np_i<5$ 的組合予以適當合並,使得每組均有 $np_i\geq5$, 如上表所示. 並組后 $k=4$,$\chi^{2}$ 的自由度為 $k-1=4-1=3.\chi_{0.05}^{2}(k-1)=\chi_{0.05}^{2}(3)=7.815.$ 現在 $\chi^{2}=13.16+37.21+21.75+54.92-100=27.04>7.815,$ 故在顯著水平 0.05 下拒絕 $H_0$, 認為樣本不是來自均值為 $\lambda=1$ 的泊松分布.

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM