樣本和統計量


1. 樣本空間

   隨機試驗 $E$ 的所有基本結果組成的集合為 $E$ 的樣本空間。樣本空間中的數據元素具有唯一性,不能重復。

 

2. 總體

   所研究對象的某項數量指標取值的全體稱為總體,用隨機變量 $X$ 表示。比如我們要研究亞洲人的身高分布,那所有亞洲人的身高數據就構成

   總體。總體中數據個數大於等於樣本空間中的數據個數,比如 100 個人身高全為 2m,那么總體就是 100 個 2m,而樣本空間就只有一個 2m。

 

3. 個體

   總體中的一個元素稱為個體。比如某一個人的身高。

 

4. 簡單隨機樣本

   由於總體太過龐大,我們總不能真的統計全部亞洲人的身高,於是我們采用抽樣的手段,在亞洲人中抽出 10000 人,用這 10000 人的身高分布來代

   表總體的身高分布,這 10000 次抽樣相互獨立。我們現在只研究一次抽樣:假如總體是 $\left \{ 0.1, 0.2, 0.2, 0.3, 0.3, 0.3 \right \}$,那么可以認為我們抽取出

   個人有 $\frac{1}{6}$ 的概率身高為 0.1,有 $\frac{1}{3}$ 的概率身高為 0.2,有 $\frac{1}{2}$ 的概率身高為 0.3。由於每次抽樣之前,不會知道抽樣的結果,所以一個機變量

   來示,將這 10000 次的抽樣結果記為隨機變量 $X_{1},X_{2},...X_{n}$,稱為簡單隨機樣本,簡稱樣本,它們的具體觀察值 $x_{1},x_{2},...x_{n}$ 稱為樣本值

   樣本與總體同分布,每一個個體都是一維隨機變量,所以樣本是多維,總體是一維。這就和投硬幣一樣.投一次是一維隨機變量.投多次是多維隨機變量。

   注意:總體是概率分布角度,是理論上的,樣本是統計角度,是實際觀察到的,兩者是不同的。

 

5. 統計量

   樣本 $X_{1},X_{2},...X_{n}$ 不含參數的函數 $T = T(X_{1},X_{2},...X_{n})$ 稱為統計量,也稱樣本統計量常見的樣本統計量有:樣本均值、樣本方差等。

   我們需要認識到樣本統計量本身也是一個隨機變量,這是因為每次抽樣的結果具有不確定性,即樣本具有不確定性,那么樣本的函數當然也具有不確定性。

 

6. 抽樣分布

   樣本統計量這個隨機變量的分布即為抽樣分布。總體數據那么大不可能一個一個的進行分析,只能拿一些樣本分析,這樣就需要抽樣,但是我們要研

   究的並不是單純的數據,而是數據的一些特征,如均值、方差等,所以對數據進行加工換算,得到樣本統計量。以樣本均值為例:

$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$$

   每經過一輪抽樣(每輪 $n$ 次),會算出不同的樣本均值,隨着樣本量 $n$ 的增大,不論總體是否服從正態分布,樣本均值的抽樣分布都將趨於正態分布。

   那這個統計量如何同總體的特征聯系起來呢?兩者之間通過大數定律進行聯系,當樣本容量 $n$ 足夠大時,有

$$\frac{1}{n}\sum_{i=1}^{n}X_{i}\overset{P}{\rightarrow}E(X)$$

   所以,樣本足夠大時,可以用樣本均值來估計總體均值。

   那為什么研究統計量的分布呢?通過研究這個分布,目的是評估樣本估計的合理性、有效性及誤差等,如可以證明樣本均值是總體均值的無偏估計:

$$E(\overline{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_{i}) = \frac{1}{n}\sum_{i=1}^{n}E(X_{i}) = \frac{1}{n} \cdot n \cdot E(X)=E(X)$$

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM