統計3:樣本和統計量


統計推斷是指,在數理統計中,我們研究的隨機變量,其分布是未知的,或者是不完全知道的,人們是通過對所研究的隨機變量進行重復獨立的觀察,得到許多觀察值,對這些數據進行分析,從而對所研究的隨機變量的分布做出種種推斷。

一,隨機樣本

總體和個體  在數理統計中,研究對象是某一項數量指標(例如,學生的身高,體重等),對這一項數量指標進行觀察。把試驗的全部可能的觀察值稱為總體,每一個可能的觀察值稱為個體。

總體中的每一個個體是隨機試驗的一個觀察值,因此,它是某一隨機變量X的值。一個總體就對應一個隨機變量X,對總體的研究就是對一個隨機變量X的研究。

樣本  在實際中,總體的分布一般是未知的,或只知道它具有某種形式而其中包含了未知參數。在數理統計中,人們都是通過從總體中抽取一部分個體,根據獲得的數據對總體分布做出推斷,被抽出的部分個體叫做總體的一個樣本。

所謂從總體抽取一個個體,就是對總體X進行一次觀察並記錄觀察結果。在相同的條件下對總體X進行n次重復的,獨立的觀察,把n次觀察的結果按照試驗的次序記為:X1,X2,...,Xn,

由於X1,X2,...,Xn是對隨機變量X觀察的結果,且各次觀察是在相同的條件下獨立進行的,所以有理由認為X1,X2,...,Xn是相互獨立的,且都與X具有相同分布的隨機變量,把X1,X2,...,Xn 稱為來自總體X的一個簡單隨機樣本。

當n次觀察一經完成,得到一組實數x1,x2,...,xn,它們依次是隨機變量X1,X2,...,Xn的觀察值,稱為樣本值。

樣本 定義, 設X是具有分布函數F的隨機變量,若 X1,X2,...,Xn 是具有同一分布函數F的,相互獨立的隨機變量,則稱 X1,X2,...,Xn 為從分布函數F(或總體F,總體X)得到的簡單隨機樣本,簡稱樣本。它們的觀察值 x1,x2,...,xn稱為樣本值,又稱為X的n個獨立的觀察值。

若 X1,X2,...,Xn 為總體X的一個樣本,則X1,X2,...,Xn相互獨立,且它們的分布函數都是F(x),所以(X1,X2,...,Xn)的分布函數是:

白話:隨機變量X1,X2,...,Xn同時發生的概率是單獨發生的概率之積。

二,統計量

樣本是進行統計推斷的依據,在應用時,往往不是直接使用樣本本身,而是針對不同的指標構造樣本的適當函數(即統計量),利用統計量進行統計推斷。

1,統計量的定義

定義 設X1, X2, ..., Xn是來自總體X的一個樣本,g(X1, X2, ..., Xn)是樣本X1, X2, ..., Xn的函數,若g中不含未知數,則稱 g(X1, X2, ..., Xn) 是一個統計量。

因為 X1, X2, ..., Xn 都是隨機變量,而統計量g(X1, X2, ..., Xn)是隨機變量的函數,因此統計量是一個隨機變量。設x1,x2,...,xn是相應於樣本X1,X2,...,Xn的樣本值,則稱g(x1,x2,...,xn)是g(X1, X2, ..., Xn)的觀察值。

2,常用的統計量

統計量是隨機變量的一個函數,是對樣本的一個量化指標,常用的統計量是:

樣本均值

樣本方差,注意是S2的分母是n-1

樣本k階矩,ak是原點距,mk是中心距:

 

3,經驗分布函數

經驗分布函數是與總體分布函數F(x)相對應的統計量,也就是說,經驗分布函數是一個統計量,只不過是隨機變量X的分布函數的函數。

記經驗分布函數Fn(x)=S(x),表示X1, X2, ..., Xn中不大於x的隨機變量的個數。

一般,設x1,x2,...,xn是總體F的一個容量為n的樣本值,先將x1,x2,...,xn按照自小到大的次序排列,並重新編號,設為x(1) <= x(2)<=...<=x(n)

那么經驗分布函數Fn(x)的觀察值為:

為什么 要定義經驗分布函數呢?接下來介紹一個最重要的定理:格里紋科定理。

設x1,x2,...xn是取自總體分布函數為F(x)的樣本,Fn(x)是其經驗分布函數,當n→∞時,有

也即是說當n足夠大時,經驗分布函數是總體分布函數F(x)的一個良好的近似。格里紋科定理表明,當樣本數足夠多時,用樣本估計總體是合理的,這即是數理統計的基礎。

4,經驗分布函數圖形

求經驗分布函數Fn(x)在一點x處的值,只要求出隨機變量X的n個觀測值(x1,x2,..,xn)中小於或等於x的個數,再除以觀測次數n即可。由此可見,經驗分布函數Fn(x)就是在n次重復獨立實驗中事件{X<=x}出現的頻率。
經驗分布函數Fn(x)的圖形是一條呈跳躍上升的。

如果樣本觀測值(x1,x2,..,xn)中沒有重復的數值,則每一跳躍為1/n。圖中圓滑曲線是總體X的理論分布函數F(x)的圖形。若把經驗分布函數的圖形連成折線,那么它實際就是累積頻率直方圖,這和概率分布函數的性質是一致的。

三,抽樣分布

統計量的分布稱為抽樣分布,在使用統計量進行統計推斷時,常需要直到它的分布。當總體的分布函數已知時,抽樣分布是確定的,然而要求出統計量的精確分布,一般來說是困難的。

統計量的三大分布是指卡方分布(χ2分布)、t分布和F分布,是來自正態總體的三個常用的抽樣分布,下文會詳細介紹,此處略。

 

1,關於樣本均值和方差的重要結論

設總體X(不管服從什么分布,只要均值和方差村子啊)的均值為μ,方差為σ; X1,X2,...,Xn是子來自總體X的一個樣本,和S2分別是樣本均值和樣本方差,

則有E()=μ,D()=σ2/n,E(S2)=σ2

 

2,正態總體的樣本均值與樣本方差的分布

定理一:設 X1,X2,...,Xn是來自正態總體N(μ,σ2)的樣本,那么是樣本均值,則有

設統計量 Z,n為樣本容量,μ為樣本均值,S為樣本標准差,

那么Z服從標准正態分布,即Z~N(0,1),這就是在假設檢驗中用到的Z檢驗統計量

 

定理二:設 X1,X2,...,Xn是來自正態總體N(μ,σ2)的樣本,和S2分別是樣本均值和樣本方差,則有

 

設卡方統計量χ2,那么該統計量服從卡方分布,即χ2~χ2(n-1),這就是假設檢驗中經常用到得卡方檢驗統計量

 

定理三:設 X1,X2,...,Xn是來自正態總體N(μ,σ2)的樣本,和S2分別是樣本均值和樣本方差,則有

 

設統計量t,那么該統計量服從t分布,即t~t(n-1),這就是假設檢驗中經常用到得t檢驗統計量

 

定理四:(兩個正態總體的樣本均值和樣本方差的分布)

設X1,X2......Xn1和Y1,Y2..........Yn2分別是來自正態總體N(μ112)N(μ222)的樣本,且這兩個樣本相互獨立

分別是這兩個樣本的樣本均值和樣本方差,則有

 

 

參考文檔:

經驗分布函數與格里紋科定理

抽樣分布(4) 樣本均值和樣本方差的分布


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM