重復抽樣與不重復抽樣的抽樣平均誤差大小？

本文轉載自查看原文 2019-04-02 16:22 4121 數學

突然發現自己掉進了一個大坑......一開始想要搞明白重復抽樣與不重復抽樣的平均平均誤差大小？一想什么鬼，重復抽樣、不重復抽樣、平均誤差大致明白，可是結合起來是什么？后來查了查發現，抽樣平均誤差又是什么？經過一番查找，大致對抽樣有了一點點的了解，但其中仍存在許多問題沒有解決；得到了現階段自己所需要的，及時出坑.....

本文介紹：

抽樣的基本概念
抽樣誤差

1. 抽樣的基本概念
2. 抽樣誤差
Reference

1. 抽樣的基本概念

1.1 全及總體與樣本總體

全及總體是我們所要研究的對象，又稱母體，簡稱總體；是具有某種共同性質的許多單位的集合體；

樣本總體則是我們所要觀察的對象，又稱子樣，簡稱樣本；樣本總體是從全及總體中隨機抽樣出來的，代表的是全及總體部分單位的集合體；

對於某一次抽樣，全及總體是確定的，而樣本總體是不確定的，因為由一個全及總體能夠隨機抽樣出許多樣本總體；

注意：為求統一，下文中出現的總體即代表全及總體；出現的樣本則代表樣本總體，即某次抽樣得到的樣本總體；

1.2 全及指標與抽樣指標

全及指標是通過某種方式對總體進行計算得到的指標，這種指標能夠反映總體的某種屬性或特征，也稱總體參數；常用的全及指標有：總體平均數（或總體成數）、總體標准差（或總體方差）；

抽樣指標是通過某種方式對樣本進行計算得到的指標，而這種指標能夠反應樣本的樣本特征，目的是用來估計全及指標的綜合指標，稱為統計量；可以看出，統計量是樣本變量的函數；常用的統計量（即抽樣指標）有：樣本平均數（或抽樣成數）、樣本標准差（或樣本方差）；

同樣，對於一個問題，總體是唯一確定的，因此總體參數（即全及指標）也是唯一確定的，它是待估計的數；而統計量（即抽樣指標）則是隨機變量，它的取值隨着樣本的不同而變化，肯定的嘛；

注意：為求統一，下文中出現的總體參數即代表全及指標，對應於總體；出現的統計量則代表抽樣指標，對應於樣本；

1.3 樣本容量與樣本個數

樣本容量指的是一次抽樣后樣本所包含的單位數；通常單位數大於30個稱大樣本，否則稱小樣本；

樣本個數指的是從一個總體中可能抽取的樣本（即樣本總體）個數，也稱樣本可能數目；

一個總體有多少樣本，則樣本統計量就有多少種取值，從而就形成統計量的分布；

1.4 重復抽樣和不重復抽樣

重復抽樣和不重復抽樣表示的是從總體種獲取樣本的兩種不同方式；重復抽樣指的是在抽樣過程中，是又放回的；不重復抽樣則表示無放回；

2. 抽樣誤差

2.1 抽樣誤差

由於樣本是從總體中隨機抽樣而來的，正因為隨機抽樣使樣本中各單位的結構不足以代表總體中各單位的結構（其實，也就是說樣本無法完全反映總體的特征），而引起的統計量與總體參數（即抽樣指標與全及指標）之間的絕對離差，稱為抽樣誤差，也稱隨機誤差；（不包括登記誤差、系統性誤差）（至於什么是絕對離差？，是指單項數值與平均值之間差的絕對值）

抽樣誤差包括：抽樣實際誤差、抽樣平均誤差、抽樣極限/允許誤差；

2.2 影響抽樣誤差的因素

影響抽樣誤差的因素：

總體各單位標志值的差異程度；
樣本的單位數；
抽樣的方法；
抽樣調查的組織形式；

2.3 抽樣平均誤差

“終於見到想要看到的東西了，，，，”

2.3.1 抽樣平均誤差的作用

作用：抽樣平均誤差的作用是說明統計量（即樣本指標）對總體參數（即總體指標）的代表性的高低；即抽樣平均誤差大，說明統計量對總體參數的代表性低；反之，則高；

2.3.2 抽樣平均誤差的計算

（1）抽樣平均誤差是指所有可能的樣本指標與總體指標之間的平均差異程度，反應抽樣誤差的一般水平的指標；

（2）用樣本平均數的標准差或樣本成數的標准差來作為衡量其抽樣誤差一般水平的尺度。

抽樣平均誤差的計算根據抽樣方式的不同分成：重復抽樣計算、不重復抽樣計算；

2.3.2.1 樣本平均數的抽樣平均誤差

重復抽樣：

\[\sigma_{\overline{X}} =\dfrac{\sigma}{\sqrt{n}} \]

其中，\(\sigma\)表示總體標准差；\(n\)表示樣本容量；

不重復抽樣：

\[\sigma_{\overline{X}} = \sqrt{\dfrac{\sigma^2}{n}(\dfrac{N-n}{N-1})} \]

其中，\(N\)表示總體單位數；

當\(N\)很大的時候，\(N-1\approx N\)：

\[\sigma_{\overline{X}} = \sqrt{\dfrac{\sigma^2}{n}(1-\dfrac{n}{N})} \]

計算抽樣平均誤差時，用樣本標准差\(s\)代替總體標准差；

2.3.2.2 樣本成數的抽樣平均誤差

樣本成數的抽樣平均誤差表明各樣本成數和總體成數絕對離差的一般水平；

重復抽樣：

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}} \]

其中，\(p\)表示總體成數；\(n\)表示樣本單位數；

不重復抽樣：

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}(\dfrac{N-n}{N-1})} \]

當\(N\)很大時，

\[\sigma_P = \sqrt{\dfrac{p(1-p)}{n}(1-\dfrac{n}{N})} \]

總結：可以發現，重復抽樣的抽樣平均誤差大於不重復抽樣的抽樣平均誤差；

大致看到了目前自己想要看明白的階段，其中具體細節沒有深究；例如，計算抽樣平均誤差的樣本平均數、樣本成數具體怎么定義，以及上述公式如何推導證明？

仍有許多問題存在其中，引用文獻中有一篇抽樣平均誤差計算公式的證明，作者對公式進行了推導，想要弄明白的可以看一下；

Reference

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python實現excel表不重復隨機抽樣 Hive實現從表中隨機抽樣得到一個不重復的數據樣本 MSE（均方誤差）、RMSE （均方根誤差）、MAE （平均絕對誤差） C#聲明一個100大小的數組隨機生成1-100之間不重復的數 MAPE 平均絕對百分誤差學習筆記54—均方誤差(MSE)和均方根誤差(RMSE)和平均絕對誤差(MAE) 回歸指標 - MSE均方誤差、RMSE均方根誤差、MAE平均絕對誤差、R²判別系數用Excel統計不重復個數，你會嗎有重復數字的不重復全排列均方根誤差（RMSE），平均絕對誤差 (MAE)，標准差 (Standard Deviation)