注:概率論方面就暫時告一段落,終於可以說說統計方面的事情了。如果說概率論中主要是研究隨機變量的方法學和理論模型,那么統計學就是利用概率論這一強大的工具來研究具有隨機性的現象(結果的不確定性)。而研究這些隨機現象最重要的方法就是,大量重復試驗進而找到其統計規律性。一般步驟為:重復試驗(例如反復測量,多次觀察等)並記錄試驗結果,然后對這些實驗數據進行整理、分析和建模。最終達到對隨機現象的某些規律進行預測並指導我們的決策的目的。下面對一些基本概念做一個總結。
0. 概率論與數理統計的異同
概率論、數理統計都是研究隨機現象的統計規律性的數學分支,但兩者研究角度不同。
概率論:從已知分布出發,研究隨機變量$X$的性質、規律、數學特征等;
數理統計:研究對象$X$的分布未知或只知道部分信息,需要觀察它的取值(數據采集),通過分析數據來推斷$X$服從什么分布或確定未知參數。
數理統計研究問題的主要方法:以部分數據信息來推斷整體相關信息
1. 樣本與總體
樣本與總體的概念,在前面已經多次接觸到,只是沒有非常明確的給出定義。例如我們一般假設某個學校全體學生的身高,用隨機變量$X$表示,近似服從正態分布,這里的正態分布就是"總體"的分布,字面意思就是所有待研究對象的集合。在實際的數據分析中,我們通過觀察或其他測量方式得到的數據一般都只是待研究對象的一個子集,這個子集就是一個樣本(可以包含多個個體)。例如通過某種方式,從全體學生中找出100名學生,這100名學生就是一個樣本。樣本與總有之間的關系,有兩種可能的情況:
- 如果這種方式是完全隨機的(例如抽簽),那么這個樣本就是全體學生的一個非常好的代表,我們可以利用這個100個學生的平均身高、體重、家庭收入等來估計全體學生的平均身高、體重以及家庭收入。這時候樣本的分布應該與總體的分布類似,都近似服從正態分布。
- 但如果我們找出這100名學生的方式不是完全隨機的,那么這個樣本就不具有代表性,此時樣本的分布與總體的分布可能會有非常大的差異。
總體:研究對象的全體;
個體:總體中的成員;
總體的容量:總體中包含的個體數;
有限總體:容量有限的總體;
無限總體:容量無限的總體,通常將容量非常大的有限總體也按無限總體處理。
樣本,總體&隨機變量
- 實際中人民通常只關注總體的某個(或幾個)指標;
- 總體的某個指標$X$,例如全體學生的身高,對於不同的個體來說有不同的取值,這些取值構成一個分布,因此$X$可以看成一個隨機變量;
- 有時候直接將$X$稱為總體,假設$X$的分布函數為$F(x)$,也稱總體$X$具有分布$F(x)$。
樣本容量:樣本中所含個體的數目;
抽樣:抽取樣本的過程;
由於抽樣的隨機性,樣本也具有隨機性,通常容量為n的樣本用隨機變量 $X_1, ..., X_n$ 來表示,
簡單隨機樣本:若 $X_1, X_2, ..., X_n$ 是相互獨立的(獨立性)且與總體 $X$ 有相同的分布(代表性),則稱 $X_1, X_2, ..., X_n$ 為來自總體 $X$ 的一個容量為n的簡單隨機樣本,簡稱為 $X$ 的一個樣本。獲得簡單隨機樣本的抽樣稱為簡單隨機抽樣。如果沒有特殊說明,統計里面所說的樣本都指的是簡單隨機樣本。
樣本($X_1, X_2, ..., X_n$)的每一個觀察值($x_1, x_2, ..., x_n$)稱為樣本值或樣本的一次實現。
樣本值的集合稱為樣本空間。
總體分布決定了樣本取值的概率規律,因而可以由樣本值去推斷總體。數理統計的主要任務之一就是研究如何根據樣本推斷總體。
聯合分布函數:若總體 $X$ 的分布函數為 $F(x)$,$X_1, X_2, ..., X_n$ 為來自 $X$ 的一個樣本,則樣本($X_1, X_2, ..., X_n$) 的聯合分布函數為:
$$F(x_1, x_2, ..., x_n) = \displaystyle \prod_{ i = 1 }^nF(x_i)$$
2. 統計量
統計量的概念存在於樣本中,是對樣本某個指標的概括,例如上面例子中選出來的100位學生的平均身高就是一個統計量。統計量區別於"個體量"(我自己生造的詞),具有以下兩個特點:
- 不包含任何未知數;
- 包含所有樣本的信息。
因此只要樣本確定,統計量的值就可以直接計算出來。例如一旦選定100位學生,他們的平均身高就可以計算出來。
定義
樣本的不包含任何未知參數的函數。通常可以通過構造統計量的方式,從樣本中提取有用的信息來研究總體的分布以及各種特征數。
常用統計量
- 樣本均值 $\bar{X} = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_i$;
- 樣本方差 $S^2 = \displaystyle \frac{1}{n - 1} \sum_{i=1}^{n}(X_i - \bar{X})^2$;
- 樣本標准差 $S = \sqrt{S^2}$;
- 樣本k階原點矩 $A_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}X_{i}^k$;
- 樣本k階中心距 $B_k = \displaystyle \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^k$, k = 1, 2, ...
從上面可以看到:樣本的均值等於樣本的1階原點矩;但是樣本的方差不等於樣本的2階中心距(在總體中這兩者是相等的);
用統計量估計總體的數字特征
當總體數字特征未知時,
- 用樣本均值$\bar{X}$估計總體均值$\mu = E(X)$;
- 用樣本方差$S^2$估計總體方差$\sigma^2 = E(X - \mu)^2$;
- 用樣本原點矩$A_k$估計總體原點矩$\alpha_k = E(X^k)$;
- 用樣本中心距$B_k$估計總體中心距$\beta_k = E(X - \mu)^k$。
上面用到的表示矩的符號,請參考小結5中,矩那部分的符號說明。
以上估計的理論基礎就是大數定律。值得注意的是,總體的均值$\mu$是一個數,可能已知,也可能未知;而樣本均值$\bar{X}$是一個隨機變量,依賴於樣本值。
3. 抽樣分布
統計量的分布被稱為抽樣分布。
當總體$X$服從一般分布(如指數分布、均勻分布等),要得出統計量的分布是很困難的;當總體$X$服從正態分布時,統計量$\bar{X}$、$S^2$是可以計算的,且服從一定的分布。這些分布就是下面要介紹的三大抽樣分布——$\chi^2$分布,$t$分布,$F$分布。
歡迎閱讀“概率論與數理統計及Python實現”系列文章
Reference
中國大學MOOC:浙江大學&哈工大,概率論與數理統計