生物統計與實驗設計-統計學基礎-2&區間估計-1
正態分布參數:均值和方差
其中,選擇1d是因為好算;通常,95%區分大概率事件和小概率事件,
當總體是正態分布時,可以利用常用抽樣分布估計出樣本參數:
抽樣分布是樣本估計量是樣本的一個函數,在統計學中稱作統計量(這就是說,統計量由樣本值計算得到),因此抽樣分布也是指統計量的分布。以下是當總體滿足正態分布時,樣本均值也滿足正態分布(抽樣分布是樣本均值的分布,此處是正態分布)樣本均值的均值與方差和總體參數之間的關系:
如上式,若得到一次實驗的樣本,樣本容量就是n,計算所有樣本會得到一次實驗的樣本均值,多次實驗會得到多次實驗的樣本均值,假如有600次實驗則會得到600個樣本均值,再對這600個樣本均值進行計算,計算出樣本均值的均值和方差,這個樣本均值的均值和方差與總體參數滿足上式,根據上式關系即可估算出總體均值和總體方差。
當總體不是正態分布,可利用中心極限定理估計出總體參數:
中心極限定理:n足夠大則認為樣本呈正態分布,因此其樣本均數也呈正態分布。
如今,為了精確計算樣本均數,存在三種常見的抽樣分布(抽樣分布是指統計量的分布,以上例為例,就是樣本均值的分布),這里的計算是為了得到右邊的參數部分。
最為常用的是t分布,它的特點是對於樣本含量沒有要求:
化簡之后是下式:
t分布的期望和方差如下:
由以上期望和方差可知,t分布只與自由度有關系,與其他無關。
使用t分布作為抽樣分布而不使用正態分布的理由是:對於大樣本,當n足夠大時,t分布和標准正態分布的曲線幾乎重合;對於小樣本,此時自由度為n-1,並不等同於正態分布(其實若樣本容量比較小比如25,樣本均值分布很大可能不是正態分布),而t分布在此時因為自由度的控制,使得曲線並非正態分布,比較符合客觀事實,所以可以控制系統誤差,比標准正態分布更准確。
若不使用t分布,則可以先使用特定數(比如30為界限,此處具體值依據具體問題)判斷是大樣本或是小樣本,再選擇分布:
當總體分布為正態分布,則樣本指標的分布也 采用正態分布,即用Z分布來進行統計推斷。
當總體分布為二項分布(n很大,P有很小), 即當np小於等於5 時,則樣本指標的分布采用泊松分布來進行統計推斷。反之,當np大於等於5時,可用正態分布近似代替二項分布,則樣本指標的分布采用正態分布來進行統計推斷。
當小樣本時:
以上是通過多個樣本得到多個多個統計量再計算均值的方式,后面推出了一個樣本便估計參數的方法。
目標是估計出尖值,即估計量:
參數估計可以使用點估計和區間估計,點估計完成了參數估計的從無到有,區間估計完成了參數估計的精細化:
矩估計:提出了用原點矩的方法建立樣本矩與總體矩的關系
右邊是總體矩左邊是樣本矩:eg,一階樣本矩等於參數均值。所以矩估計的思路是:將總體(含有未知參數的式子,該式子就是由之前學過的不同分布推導或者通用求積分得到)和樣本(含有統計量的式子,一般就是數值一個個加或做完處理后一個個加,非常初級)聯系起來的橋梁是矩估計
特點:無論總體是出於何種分布(總體矩的表達形式有所不同),最終估計出來的總體參數(僅均值和方差)的表達式完全一致。
最大似然估計是用一組樣本估計出總體參數的另一種方法,它的過程是首先建立似然函數,該似然函數是在通過樣本得知總體分布之后,結合樣本數n,建立在n個樣本同時滿足某分布之上,得到它們的聯合概率密度,取對數(此步驟是為了簡化計算,若有其他可化簡的方法皆可,它並不參與最大似然的思想)最后對似然函數求最大值(即若估計一個參數求一階導,和估計兩個參數求一階導和二階導)。
通過比較矩估計的和最大似然估計的參數,可以得知這一統計量和矩估計量估計出的量是不一定是一樣的(但對於總體是正態分布時,估計出的參數是一樣的)
經驗:先最大似然,再矩估計
在通過以上方式估計參數之后,通過加入估計參數的評判標准,判斷何種參數最為可靠:
無偏性:估計的參數滿足抽樣分布,主要看與集中趨勢的比較:若估計的參數是位於所有估計的參數中的集中區域,則認為給估計的參數是無偏的,否則就是有偏的,有偏常常是系統性錯誤造成的。