1. 樣本空間
隨機試驗 $E$ 的所有基本結果組成的集合為 $E$ 的樣本空間。樣本空間中的數據元素具有唯一性,不能重復。
2. 總體
所研究對象的某項數量指標取值的全體稱為總體,用隨機變量 $X$ 表示。比如我們要研究亞洲人的身高分布,那所有亞洲人的身高數據就構成
總體。總體中數據個數大於等於樣本空間中的數據個數,比如 100 個人身高全為 2m,那么總體就是 100 個 2m,而樣本空間就只有一個 2m。
3. 個體
總體中的一個元素稱為個體。比如某一個人的身高。
4. 簡單隨機樣本
由於總體太過龐大,我們總不能真的統計全部亞洲人的身高,於是我們采用抽樣的手段,在亞洲人中抽出 10000 人,用這 10000 人的身高分布來代
表總體的身高分布,這 10000 次抽樣相互獨立。我們現在只研究一次抽樣:假如總體是 $\left \{ 0.1, 0.2, 0.2, 0.3, 0.3, 0.3 \right \}$,那么可以認為我們抽取出的這一
個人有 $\frac{1}{6}$ 的概率身高為 0.1,有 $\frac{1}{3}$ 的概率身高為 0.2,有 $\frac{1}{2}$ 的概率身高為 0.3。由於每次抽樣之前,不會知道抽樣的結果,所以用一個隨機變量
來表示,將這 10000 次的抽樣結果記為隨機變量 $X_{1},X_{2},...X_{n}$,稱為簡單隨機樣本,簡稱樣本,它們的具體觀察值 $x_{1},x_{2},...x_{n}$ 稱為樣本值。
樣本與總體同分布,每一個個體都是一維隨機變量,所以樣本是多維,總體是一維。這就和投硬幣一樣.投一次是一維隨機變量.投多次是多維隨機變量。
注意:總體是概率分布角度,是理論上的,樣本是統計角度,是實際觀察到的,兩者是不同的。
5. 統計量
樣本 $X_{1},X_{2},...X_{n}$ 不含參數的函數 $T = T(X_{1},X_{2},...X_{n})$ 稱為統計量,也稱樣本統計量。常見的樣本統計量有:樣本均值、樣本方差等。
我們需要認識到樣本統計量本身也是一個隨機變量,這是因為每次抽樣的結果具有不確定性,即樣本具有不確定性,那么樣本的函數當然也具有不確定性。
6. 抽樣分布
樣本統計量這個隨機變量的分布即為抽樣分布。總體數據那么大不可能一個一個的進行分析,只能拿一些樣本分析,這樣就需要抽樣,但是我們要研
究的並不是單純的數據,而是數據的一些特征,如均值、方差等,所以對數據進行加工換算,得到樣本統計量。以樣本均值為例:
$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n}X_{i}$$
每經過一輪抽樣(每輪 $n$ 次),會算出不同的樣本均值,隨着樣本量 $n$ 的增大,不論總體是否服從正態分布,樣本均值的抽樣分布都將趨於正態分布。
那這個統計量如何同總體的特征聯系起來呢?兩者之間通過大數定律進行聯系,當樣本容量 $n$ 足夠大時,有
$$\frac{1}{n}\sum_{i=1}^{n}X_{i}\overset{P}{\rightarrow}E(X)$$
所以,樣本足夠大時,可以用樣本均值來估計總體均值。
那為什么研究統計量的分布呢?通過研究這個分布,目的是評估樣本估計的合理性、有效性及誤差等,如可以證明樣本均值是總體均值的無偏估計:
$$E(\overline{X}) = E(\frac{1}{n}\sum_{i=1}^{n}X_{i}) = \frac{1}{n}\sum_{i=1}^{n}E(X_{i}) = \frac{1}{n} \cdot n \cdot E(X)=E(X)$$