大家好,這是一個新系列,在這個系列里我將和大家一起學習數理統計。由於數理統計是一門偏實用的學科,這個系列里還會使用較多的R語言,如果以前沒有接觸過R語言,不妨也安裝一下R studio,相信能對數理統計有更好的理解。本書使用的教材以韋來生的《數理統計》為主,但並不是按照教材的編排組織內容的。
為了方便大家閱讀與學習,我將把那些可以暫時跳過,以后再回頭看的內容放在引用塊里,而將那些關鍵的定義使用加粗表示。此外,由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出。
由於本文是系列的第一篇文章,我們就對數理統計的基礎知識作一下簡要的介紹就好,沒有過多的數理推導與證明。
Part1:什么是數理統計
解釋一個學科是什么總是在學習之前繞不開的問題,書上給出的定義是:研究如何有效地收集和使用帶有隨機性影響的數據的一門學科。但我經過了一個學期的學習以后,最深的感受並不是“有效地收集和使用隨機數據”,而是“概率論在實踐中的運用”。
在概率論中,我們所研究的,總是給定一個隨機變量\(X\),然后需要研究它的均值、方差等等相關數字信息,這依賴於一個前提——我們知道這個隨機變量的全部信息,然后才能基於這些信息展開計算。但在實際生活中,我們真的可以知道隨機變量的全部信息嗎?
舉個例子,上學期有個同學(不妨稱呼他為yhh)送了我一箱橙子,他一共搞來了十箱,賣橙子給他的人說這里的每箱橙子都是80斤重的。但實際上,每一箱橙子不可能是精准的80斤重,事實上任意兩箱橙子在重量上相等的概率都是0(回顧一下概率論里的連續型隨機變量),那廠家憑什么聲稱它的橙子每一箱都是80斤重?
因此,我們只能認為,它每一箱橙子在沒有稱重之前,重量都是一個隨機變量,並且我們認為它是獨立同分布的,稱重以后它才成為一個具體的數(如果你的稱是嚴格精確的)。廠家所聲稱的80斤,指的是橙子重量作為隨機變量,它的均值(或者中位數、眾數)是80斤。
不過,廠家所聲稱的80斤是否又是真實的呢?這就是數理統計的范疇了,由於我們不可能完備地知道所有橙子的重量信息,只能通過買來的那十項對橙子的平均重量進行估計——參數估計,這就是數理統計研究的范疇。如果是你,你肯定會選擇把十箱橙子稱重,把十項橙子的平均重量作為橙子平均重量的估計。事實上,用十箱橙子的平均重量作為所有橙子的均重,在數學上是有道理的。在概率論中,我們曾學過大數定律(這里指辛欽大數定律),它指出均值存在的獨立同分布隨機變量,它們的平均值也是一個隨機變量,且隨着隨機變量數目的增加,依概率收斂於隨機變量的均值。以下為定理的敘述與證明,但是可以跳過。
辛欽大數定律:設\(\{\xi_n\}\)是定義在概率空間\(\{\Omega,\mathscr F,\mathbb{P}\}\)上的獨立同分布隨機變量序列,\(\mathbb{E}|\xi_1|<\infty\),且\(\mathbb{E}(\xi_1)=\mu\),則
\[\frac{\sum_{k=1}^n \xi_k}{n}\stackrel{P}\to \mathbb{E}(\xi_1)=\mu. \]證明:設\(f(t)\)是\(\{\xi_n\}\)的特征函數,則由於\(\mathbb{E}(\xi_n)=\mu\),所以
\[f(t)=1+\mathrm{i}\mu t+o(t),\quad t\to0. \]對每個\(t\in\mathbb{R}\),有
\[f\left(\frac{t}{n} \right)=1+\frac{\mathrm{i}\mu t}{n}+o\left(\frac{1}{n} \right),\quad n\to\infty, \]由\(\{\xi_n\}\)的獨立同分布性,設\(f_n(t)\)為\(\sum_{k=1}^n \xi_k/n\)的特征函數,就有
\[f_n(t)=\left(1+\frac{\mathrm{i}\mu t}{n}+o\left(\frac{1}{n} \right) \right)^n\to \mathrm{e}^{\mathrm{i}\mu t},\quad n\to \infty. \]由特征函數與密度函數的等收斂性,可知
\[\frac{\sum_{k=1}^n\xi_n}{n}\stackrel{d}\to \mu. \]又因為\(\mu\)是常數,所以將依分布收斂改為依概率收斂。
如果稱重后,發現橙子的重量是79.9斤,你認為廠家說的屬實嗎?75斤又或者是70斤呢?有沒有一個相對的標准來衡量廠家的聲稱到底正不正確?這也是數理統計的范疇,我們稱之為假設檢驗,簡單說來,就是檢驗一個統計假設是否是正確的。
從以上的例子,大家可能會對我們所要學習的數理統計有一個大致的了解。但是學習還是要一步步來的,在第一天的學習中,我們先認識一下數理統計中會接觸到的,貫穿整個學科的概念。
Part 2:總體與樣本
總體和樣本是數理統計中的最基本概念,如果把yhh的橙子作為例子,那么工廠產出的每一箱橙子合在一起就構成了總體,里面每一箱具體的橙子都是個體。而yhh購買橙子的行為,可以視作從總體里抽取樣本,被抽出的那十箱橙子就稱作樣本。
具體說來,由於我們所研究的對象都是事物的某方面數值屬性,因此我們也可以細化一下總體、個體和樣本的定義:
- 總體是所有個體某種數量指標構成的集合,是數的集合。
- 個體是組成總體的每一個數,是數集里的元素。
- 樣本是按照某種方法,從總體中獲得的部分個體,是數集里的部分元素。
當我們將總體視為數集后,每一個數出現的可能性就隨之確定,因此總體可以視為有一定的概率分布,這個概率分布就稱為總體分布\(F\),它刻畫了總體的全部信息,一般我們對總體和總體分布不加以區分。
而樣本,是以特殊方式從總體中獲得的數,我們這里要強調的是樣本的兩重性。從廠家手里拿到了十箱橙子,經過稱重,我們知道了十箱橙子的具體重量,它相當於十個常數;但是,如果我們不加稱量,我們就不知道這些橙子的重量,在稱量之前我們還是得把它們當成十個隨機變量來看待。換句話說,如果我們另外買了十箱橙子(相當於獲得了十個樣本),它的重量一定跟前十箱一樣嗎?顯然不是的,這也就說明,樣本也具有隨機變量的隨機性。樣本的這種觀測前是隨機變量,觀測后是常數的性質,我們稱之為樣本的兩重性。必須要說,理解樣本的兩重性,對於數理統計的學習是十分有必要的,否則后面將提到的統計量的分布、極限分布等概念,都很難理解。
下面介紹一種特殊的抽樣方式:簡單隨機抽樣,它指的是從無限總體中,相互獨立地抽取樣本。這種抽樣方式有兩個極其重要的特點:
- 代表性,每一個樣本作為隨機變量,它與總體都是同分布的。
- 獨立性,每一個樣本作為隨機變量,它們相互之間都是獨立的。
抽樣滿足以上兩個特點時,就稱抽樣方式為簡單隨機抽樣,用符號表示為
一旦出現這個符號,我們就認為\(X_1,X_2,\cdots,X_n\)都是與總體\(X\)同分布且相互獨立的隨機變量,此時的樣本\((X_1,\cdots,X_n)\)作為一個\(n\)維隨機向量,也被稱為簡單隨機樣本。
我們假設總體具有分布函數\(F\),則樣本作為一個\(n\)維向量,也有聯合分布函數,這被稱為樣本分布。我們將\(n\)個樣本的聯合分布函數記作\(F_n(x_1,x_2,\cdots,x_n)\),則有
這里等號成立是基於樣本的相互獨立性,且每一個樣本的邊際分布都是\(F(x)\)。同理,如果總體具有密度函數\(f\),則樣本作為\(n\)維向量也擁有聯合密度,記作\(f_n(x_1,\cdots,x_n)\),則有
這兩個式子都可以稱作樣本分布,且樣本分布將在后續發揮很重要的作用,所以這兩個式子務必記下來。
Part 3:統計量
基於樣本,我們可以計算出統計量,統計量的定義是“樣本的函數”,通俗點說是由樣本算出的量。
我其實不太明白,為什么許多人不能理解統計量的概念。還是那十箱橙子,我稱量了十箱橙子的重量以后,十箱橙子的平均重量就可以算出來了,那“十箱橙子的平均重量”就是一個統計量唄——這就是從樣本算出的量。總而言之,判斷一個東西是不是統計量,就只要看你觀測完樣本以后,這個量能不能算出來就完事了。
書上提到了一些常用的統計量,並不是所有統計量都有很大的作用,但下面所介紹的統計量是大家必須掌握的,就算不能理解它的意思,也要先記下來。
首先是樣本均值,顧名思義,就是樣本的平均值,比如剛才那十箱橙子的平均重量。它的標准定義式是
以后我們都將使用\(\bar X\)來指代樣本均值。
其次是樣本方差,它描述的其實是樣本偏離其均值的程度,定義式為
這里的平方幫助我們把偏離程度進行合理的加總,如果沒有這個平方,則顯然
需要注意的是,別把樣本均值、樣本方差和其所在總體的均值、方差搞混!樣本均值和樣本方差都是統計量,而總體均值和總體方差呢?它們是隨機變量的數字特征,是通過對分布函數、密度函數進行積分后計算得到的常數,如果給定了總體,則總體均值和總體方差是不會變的,樣本均值和樣本方差卻是隨機的(因為樣本是隨機變量,其算出的量自然也是隨機變量)。
我見過一些把總體方差定義為\(\frac{1}{n}\sum_{j=1}^n(X_j-\bar X)^2\)的,但我覺得這種定義對我們沒有什么好處,所以我們接下來把總體方差,當作樣本所屬的總體的數字特征——方差(二階中心矩)。
此外,最大值和最小值也是極為常用的統計量,它們都屬於次序統計量。大家應該已經在概率論里接觸過次序統計量了,它們就是把樣本從小到大排列成
並且在概率論中接觸過最小值、最大值的分布函數求法,應該也知道次序統計量是隨機變量。
最后,是兩個在今后的學習中會用到的量:樣本原點矩與樣本中心矩,統稱為樣本矩。我們這里僅僅給出其定義式,具體的理解可以在以后學習矩估計的時候再進行。
最后需要強調的是,以上統計量都是由樣本計算出來的,因此在未對樣本進行觀測前,它們的值也具有隨機性,因而是隨機變量,具有一定的分布,我們一般稱之為統計量的分布;而對樣本進行觀測后,樣本的值確定了,統計量的值也隨之確定了,成為一個常數。因此,統計量也有與樣本一樣的兩重性。
說了這么多概念、定義,我自己都碼煩了,想必大家也看煩了。下一篇文章開始,我們就要加大數學的力度了,准備起飛!