最近又遇到了t分布及t檢驗方面的內容,發現有些地方自己當初沒有很明白,就又查了些資料,加深了一下自己的理解,這里也將自己的一些理解記錄下來。
1. 理論基礎——大數定理與中心極限定理
在正式介紹t分布前,還是再強調一下數理統計學中的兩大基石般的定理:大數定理與中心極限定理,后面會用到。這里我就不以數學公式的方式來說明了,直接說一下兩個定理所表達的意思。
- 大數定理。不管是強大數定理還是弱大數定理,都表達着這樣一個意思:當樣本數量足夠大時,這些樣本的均值無限接近總體的期望。
- 中心極限定理。不管樣本總體服從什么分布,當樣本數量足夠大時,樣本的均值以正態分布的形式圍繞總體均值波動。中心極限定理的表達方式可以有多種,我這里只是其中一種。
2. t 統計量
t 統計量是英國化學家、數學家、統計學家 William Sealy Gosset提出的,當年他在愛爾蘭的吉尼斯酒廠(這個酒廠還有個很牛的事兒,它的老板編著了現今著名的《吉尼斯世界紀錄》)工作時,酒廠禁止其將研究成果公開發表,以免泄露秘密,迫不得已William Sealy Gosset以筆名“The Student”發表研究成果,t統計量及t分布的命名就是源於改筆名。
大麥是釀造啤酒的主要原料,因此酒廠就希望大麥產量越高越好,於是就不斷改進大麥種植工藝,此時就需要做試驗來比較不同工藝下大麥的產量,但是實際條件不允許(或者為了減輕工作負擔)大面積種植麥子來比較工藝的優劣,因此試驗田種植是比較合適的方式。比如現在有兩片試驗田(如下圖所示),左邊的是采用工藝A種植的麥子,右邊的是采用工藝B種植的麥子,兩邊各種100株麥子。下面我要開始編故事啦。。。
現在發現左邊麥田中平均每株麥穗上有100粒麥子,右邊麥田中平均每株麥穗上有120粒麥子,這說明啥?說明采用工藝B能得到更高的麥子產量對不?咱們外行可能會這么看,但是人家專業的可不輕易這么認為。這是采用小面積的試驗田種出的麥子,一個是量少,不足以說明問題(想想咱們的大數定理),另一個是無法保證除工藝區別外其它因素都一樣。因此,William Sealy Gosset就想,這20粒麥子的差值能不能說明工藝的優劣問題呢?
William Sealy Gosset知道,每株麥穗上的平均麥子數是有波動的,可能這一次種的麥子平均值是100,下一次就不一定了,可能就是105,也可能是95。那可以這樣考慮啊,這20的差值是不是在工藝A下麥子平均產量的正常波動范圍內?樣本均值的波動可以用樣本均值的標准差表示,注意:這里說的是樣本均值的標准差,而不是樣本的標准差,基於這種想法可以構造這樣一個統計量
來評估工藝的優劣,其中是工藝A下每株麥穗上結的麥子數,
是工藝B下每株麥穗上結的麥子數,
是工藝A下每株麥穗上結的麥子數平均值的標准差。好了,到了這里故事也編得差不多了,t 統計量的由來也差不多就這樣了,下面咱們嚴謹的定義一下 t 統計量,分兩種情況,一種是單總體情況,另一種是雙總體情況。
- 單總體情況。這種情況下 t 統計量的定義為
式中為樣本的均值,
為總體的均值,
為總體標准差,
為樣本個數,由於總體標准差無法得知,因此一般用樣本標准差
來估計總體標准差。從數學上可以證明,若樣本個數為
,樣本均值的標准差(樣本均值的波動)等於總體的標准差(總體波動)除以樣本個數
,我們可以通過大數定理來簡單理解一下,當樣本個數增大時,樣本均值的波動也應該是越小的。總體的標准差是無法獲知的,一般用樣本標准差來估計。這里着重強調一個概念——標准誤,標准誤即樣本均值的標准差,它對於理解假設檢驗很重要。
- 雙總體的情況。這種情況下t 統計量的定義為
式中為樣本1的均值,
為樣本2的均值,
為樣本1與樣本2均值差值的標准誤。這里我不再說明
是怎么計算的了,一個原因是比較復雜,需要分幾種情況討論,另一個更主要的原因是
如何計算不重要,計算機內置函數會幫我們計算的,重要的是理解 t 統計量是如何提出的以及表示什么意思。
3. t 分布與正態分布
t 統計量的分布就是 t 分布了,下面我們以單總體時的 t 統計量為例,說明一下 t 分布與正態分布的關系。我們已經知道了樣本的均值為,也知道
的標准差為
,那么依據中心極限定理,樣本均值
服從均值為
,方差為
的正態分布,也許你已經發現了,沒錯,當樣本數量足夠大時,t 分布無限接近標准的正態分布
。
在第一節中也強調了,不管是大數定理還是中心極限定理,都是在樣本數量足夠大時管用的。在樣本數量不是足夠大時,盡管t 分布的概率密度曲線和正態分布分布曲線相近,但是還是有所區別,用樣本標准差估計總體標准差是一個原因。
是t分布的概率密度曲線,這里我不寫出
的具體公式了,有興趣的同學可以自行研究,偉大的統計學家們已經研究透測
了,並且制作了t分布的概率表。從 t 統計量的定義式看就知道,樣本個數的影響非常關鍵,因此 t 分布中有一個重要的概念——自由度,其值為
。為什么是
呢?我拿樣本方差的計算過程來說明吧,樣本方差為
當個樣本均值確定時,如果知道了其中的任意
個樣本的值,那么剩下的一個樣本的值自然就確定了,這就是為什么自由度為
。這里還是在貼一次t分布的概率表吧。
4. t 檢驗
現在我們再回到一開始的“比較麥子種植工藝A和B的優劣比較”問題, William Sealy Gosset提出的問題是:這20的差值是否在工藝A下麥子平均產量的正常波動范圍內?這實際上是一個雙樣本的 t 檢驗問題,不過可以將其轉化為單樣本的 t 檢驗問題,認為工藝B下麥子的均值也為100,即然后看一下這20的差值是否是顯著的。現在我們提出如下假設
: 工藝B與工藝A下大麥產量一致
上面的例子中沒有給出工藝B下麥子產量的標准差,我這里先假設一個,為,那么可以按照單樣本的 t 統計量定義式計算此時的統計量值
選定 95%的置信水平,自由度為99(樣本個數為100),查 t 概率分布表得到1.660(自由度99與自由度100接近,我這里就按100算了),這遠小於17.889,因此我們有理由拒絕接受原假設,從而認為工藝B提升了麥子的產量。
5. 小結
對於 t 檢驗,我還想再說兩句,不管是獨立樣本還是相依樣本的 t 檢驗,目的都是為了判斷兩類樣本在某一變量上的均值差異是否顯著,這也是構造 t 檢驗的作用。