統計學基礎之參數估計


目錄:

一、點估計

  1、矩估計法

  2、順序統計量法

  3、最大似然法

  4、最小二乘法

二、區間估計

  1、一個總體參數的區間估計:

  • 總體均值的區間估計
  • 總體比例的區間估計
  • 總體方差的區間估計    

  2、兩個總體參數的區間估計:

  • 兩個總體均值之差的區間估計
  • 兩個總體比例之差的區間估計
  • 兩個總體方差比的區間估計  

三、樣本量的確定

  1、估計總體均值時樣本量的確定

  2、估計總體比例時樣本量的確定


 一、點估計

點估計是用樣本統計量來估計總體參數,因為樣本統計量為數軸上某一點值,估計的結果也以一個點的數值表示,所以稱為點估計。

點估計和區間估計屬於總體參數估計問題。何為總體參數統計,當在研究中從樣本獲得一組數據后,如何通過這組信息,對總體特征進行估計,也就是如何從局部結果推論總體的情況,稱為總體參數估計

由樣本數據估計總體分布所含未知參數的真值,所得到的值,稱為 估計值。點估計的精確程度用置信區間表示。
當母群的性質不清楚時,我們須利用某一量數作為估計數,以幫助了解母數的性質。如:樣本平均數乃是母群平均數μ的估計數。當我們只用一個特定的值,亦即數線上的一個點,作為估計值以估計母數時,就叫做 點估計
點估計目的是依據樣本X=(X1、X2…Xi)估計總體分布所含的未知參數θ或θ的函數g(θ)。一般θ或g(θ)是總體的某個特征值,如數學期望、方差、相關系數等。

1、矩估計法

利用樣本矩來估計總體中相應的參數。首先推導涉及感興趣的參數的總體矩(即所考慮的隨機變量的冪的期望值)的方程。然后取出一個樣本並從這個樣本估計總體矩。接着使用樣本矩取代(未知的)總體矩,解出感興趣的參數。從而得到那些參數的估計。

最簡單的矩估計法是用一階樣本原點矩來估計總體的期望而用二階樣本中心矩來估計總體的方差。在尋找參數的矩法估計量時,對總體原點矩不存在的分布如柯西分布等不能用,另一方面它只涉及總體的一些數字特征,並未用到總體的分布,因此矩法估計量實際上只集中了總體的部分信息,這樣它在體現總體分布特征上往往性質較差,只有在樣本容量n較大時,才能保障它的優良性,因而理論上講,矩法估計是以大樣本為應用對象的。

如果總體中有 K個未知參數,可以用前 K階樣本矩估計相應的前k階總體矩,然后利用未知參數與總體矩的函數關系,求出參數的估計量。

2、順序統計量法

順序統計量設是總體X的樣本,將它們自小到大排成,則這個排列稱為樣本順序統計量。抽取一個樣本,便有一組自小到大的觀察值

與之相對應,其中
是觀察值中最小者,
是觀察值中最大者。 例如,樣本值為3.15,2.98,3.16,3.05,2.90,則其順序統計量為2.90,2.98,3.05,3.15,3.16  
順序統計量估計法 順序統計量估計法是直觀簡便的估計法,常常是對總體的數學期望與標准差進行。
為總體X的樣本順序統計量,則稱 樣本中位數。樣本中位數
的觀察值
的取值規則是:將樣本觀察值
自小到大排成順序統計量觀察值
,當n為奇數(即n=2k+1)時,
取居中的數據
;當n為偶數(n=2k)時,
取居中兩個數據的平均值
,即
從中位數的含義可見,它帶來了總體X取值的平均數信息,因此, 用於估計總體X的數學期望是合適的。用樣本中位數
估計總體X的數學期望的方法,稱數學期望E(X)的 順序統計量估計法。其結果也有估計量與估計值之分。

3、最大似然法

  給定一個概率分布D,假定其概率密度函數(連續分布)或概率聚集函數(離散分布)為 f D,以及一個分布參數θ,我們可以從這個分布中抽出一個具有 n個值的采樣X1,X2,...,Xn,通過利用 f D,我們就能計算出其概率: 。但是,我們可能不知道θ的值,盡管我們知道這些采樣數據來自於分布D。如何估計θ?一個自然的想法是從這個分布中抽出一個具有 n個值的采樣X1,X2,...,Xn,然后用這些采樣數據來估計θ。找到一個關於θ的估計。最大似然估計會尋找關於 θ的最可能的值(即,在所有可能的θ取值中,尋找一個值使這個采樣的“可能性”最大化)。這種方法正好同一些其他的估計方法不同,如θ的非偏估計,非偏估計未必會輸出一個最可能的值,而是會輸出一個既不高估也不低估的θ值。要在數學上實現最大似然估計法,定義可能性:
並且在θ的所有取值上,使這個函數最大化。這個使可能性最大的值即被稱為 θ的最大似然估計

4、最小二乘法

 

 

 觀測值就是我們的多組樣本,理論值就是我們的假設擬合函數。目標函數也就是在機器學習中常說的損失函數,我們的目標是得到使目標函數最小化時候的擬合函數的模型。舉一個最簡單的線性回歸的簡單例子,比如我們有m個只有一個特征的樣本:

 

 

 

 樣本采用下面的擬合函數:這樣我們的樣本有一個特征x,對應的擬合函數有兩個參數θ0和θ1需要求出。

目標函數為:

 

 

 用最小二乘法做什么呢,使J(θ0,θ1)最小,求出使J(θ0,θ1)最小時的θ0和θ1,這樣擬合函數就得出了。

參考:https://www.cnblogs.com/pinard/p/5976811.html


二、區間估計

區間估計是在點估計的基礎上,給出總體參數估計的一個區間范圍,該區間通常由樣本統計量加減估計誤差得到。與點估計不同,進行區間估計時,根據樣本統計量的抽樣分布可以對樣本統計量與總體參數的接近程度給出一個概率度量

1、一個總體參數的區間估計:轉自:https://blog.csdn.net/liangzuojiayi/article/details/78043658

  • 總體均值的區間估計
  •  

     

  • 總體比例的區間估計
  •  

     

  • 總體方差的區間估計
  •  

     

     

     

        

2、兩個總體參數的區間估計:轉自:https://blog.csdn.net/liangzuojiayi/article/details/78044718

  • 兩個總體均值之差的區間估計
  • 大樣本
  •  

     小樣本

  •  

     

     

     

  • 兩個總體比例之差的區間估計
  •  

     

  • 兩個總體方差比的區間估計
  •  

     

     

     


三、樣本量的確定 : 轉自:https://blog.csdn.net/rosa_zz/article/details/79562794

•樣本容量:

樣本中個體的數目或組成抽樣總體的單位數。

•必要樣本容量:

亦稱必要樣本單位數,是指滿足調查目的要求的情況下,至少需要選擇的樣本單位數。

1、估計總體均值時樣本量的確定

1.重復抽樣

一旦確定了置信水平(1-α),Zα/2的值就確定了,對於給定的的值和總體標准差σ,就可以確定任一希望的允許誤差所需要的樣本容量。令E代表所希望達到的允許誤差,即:

 

由此可以推到出確定樣本容量的公式如下:

 

2.不重復抽樣

 

•樣本容量n與總體方差成正比,
•與絕對誤差成反比,
•與概率度成正比。

例:擁有MBA學位的研究生年薪的標准差大約為4000 元,假定想要估計年薪95%的置信區間,希望允許誤差為10000 元,應抽取多大的樣本容量?

2、估計總體比例時樣本量的確定

1.重復抽樣

一旦確定了置信水平(1-α),Zα/2的值就確定了。由於總體比例的值是固定的,所以允許誤差由樣本容量來確定,樣本容量越大允許誤差就越小。估計的精度就越好。因此,對於給定的的π值,就可以確定任一希望的允許誤差所需要的樣本容量。令E代表所希望達到的允許誤差,即:

 

由此可以推導出重復抽樣和無限總體抽樣條件確定樣本容量的公式如下:

 

2.不重復抽樣

 

•d的取值一般小於0.1
•π未知,以樣本比例p替代
•π或p都未知時,可取0.5,這是一種謹慎估計

例:某社區想通過抽樣調查了解居民參加體育活動的比率,如果把誤差范圍設定在5%,問如果以95%的置信水平進行參數估計,需要多大的樣本?

 

 確定樣本容量的注意事項

一、在實際中采用不重復抽樣,但常用重復抽樣下的公式代替;

二、若和p未知,其處理方式是:

        1.用過去近期的數據代替,

        2.用樣本數據代替,

        3.取p=0.5或最接近0.5的值;

三、對同一總體,若求出的Nx,Np不等,這時取較大的作為必要樣本容量,

        以同時滿足做兩種調查的需要;

四、在實際工作中,常使用重復抽樣下的簡單隨機抽樣公式。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM