抽樣分布|t分布|中心極限定理|點估計|矩估計|最大似然法|


生物統計與實驗設計-統計學基礎-2&區間估計-1

正態分布參數:均值和方差

 

 

 

 

其中,選擇1d是因為好算;通常,95%區分大概率事件和小概率事件,

 

當總體是正態分布時,可以利用常用抽樣分布估計出樣本參數:

抽樣分布是樣本估計量是樣本的一個函數,在統計學中稱作統計量這就是說,統計量由樣本值計算得到,因此抽樣分布也是指統計量的分布。以下是當總體滿足正態分布時,樣本均值也滿足正態分布(抽樣分布是樣本均值的分布,此處是正態分布)樣本均值的均值與方差和總體參數之間的關系:

 

 

 

 

如上式,若得到一次實驗的樣本,樣本容量就是n,計算所有樣本會得到一次實驗的樣本均值,多次實驗會得到多次實驗的樣本均值,假如有600次實驗則會得到600個樣本均值,再對這600個樣本均值進行計算,計算出樣本均值的均值和方差,這個樣本均值的均值和方差與總體參數滿足上式,根據上式關系即可估算出總體均值和總體方差。

 

當總體不是正態分布,可利用中心極限定理估計出總體參數:

中心極限定理:n足夠大則認為樣本呈正態分布,因此其樣本均數也呈正態分布。

 

如今,為了精確計算樣本均數,存在三種常見的抽樣分布(抽樣分布是指統計量的分布,以上例為例,就是樣本均值的分布),這里的計算是為了得到右邊的參數部分。

 

最為常用的是t分布,它的特點是對於樣本含量沒有要求:

 

 

 

 

化簡之后是下式:

 

 

 

 t分布的期望和方差如下:

 

 

 

 

由以上期望和方差可知,t分布只與自由度有關系,與其他無關。

 

使用t分布作為抽樣分布而不使用正態分布的理由是:對於大樣本,當n足夠大時,t分布和標准正態分布的曲線幾乎重合;對於小樣本,此時自由度為n-1,並不等同於正態分布(其實若樣本容量比較小比如25,樣本均值分布很大可能不是正態分布),而t分布在此時因為自由度的控制,使得曲線並非正態分布,比較符合客觀事實,所以可以控制系統誤差,比標准正態分布更准確。

 

若不使用t分布,則可以先使用特定數(比如30為界限,此處具體值依據具體問題)判斷是大樣本或是小樣本,再選擇分布:

當總體分布為正態分布,則樣本指標的分布也 采用正態分布,即用Z分布來進行統計推斷。

當總體分布為二項分布(n很大,P有很小), 即當np小於等於5 時,則樣本指標的分布采用泊松分布來進行統計推斷。反之,當np大於等於5時,可用正態分布近似代替二項分布,則樣本指標的分布采用正態分布來進行統計推斷。

當小樣本時:

 

以上是通過多個樣本得到多個多個統計量再計算均值的方式,后面推出了一個樣本便估計參數的方法。

 

目標是估計出尖值,即估計量:

 

 

參數估計可以使用點估計和區間估計,點估計完成了參數估計的從無到有,區間估計完成了參數估計的精細化:

 

矩估計:提出了用原點矩的方法建立樣本矩與總體矩的關系

 

右邊是總體矩左邊是樣本矩:eg,一階樣本矩等於參數均值。所以矩估計的思路是:將總體(含有未知參數的式子,該式子就是由之前學過的不同分布推導或者通用求積分得到)和樣本(含有統計量的式子,一般就是數值一個個加或做完處理后一個個加,非常初級)聯系起來的橋梁是矩估計

特點:無論總體是出於何種分布(總體矩的表達形式有所不同),最終估計出來的總體參數(僅均值和方差)的表達式完全一致。

最大似然估計是用一組樣本估計出總體參數的另一種方法,它的過程是首先建立似然函數,該似然函數是在通過樣本得知總體分布之后,結合樣本數n,建立在n個樣本同時滿足某分布之上,得到它們的聯合概率密度,取對數(此步驟是為了簡化計算,若有其他可化簡的方法皆可,它並不參與最大似然的思想)最后對似然函數求最大值(即若估計一個參數求一階導,和估計兩個參數求一階導和二階導)。

 

通過比較矩估計的和最大似然估計的參數,可以得知這一統計量和矩估計量估計出的量是不一定是一樣的(但對於總體是正態分布時,估計出的參數是一樣的)

經驗:先最大似然,再矩估計

 

在通過以上方式估計參數之后,通過加入估計參數的評判標准,判斷何種參數最為可靠:

無偏性:估計的參數滿足抽樣分布,主要看與集中趨勢的比較:若估計的參數是位於所有估計的參數中的集中區域,則認為給估計的參數是無偏的,否則就是有偏的,有偏常常是系統性錯誤造成的。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM