數理統計研究問題的方式,不是對所研究對象的全體(稱為總體)進行觀察,而是抽取其中的部分(稱為樣本)進行觀察獲得數據(抽樣),並通過這些數據對總體進行推斷。數理統計方法具有“部分推斷整體”的特征。
數學中的自由度一般是指能夠自由取值的變量個數。數理統計中的自由度是指當以樣本的統計量來估計總體的參數時,樣本中獨立或能自由變化的數據的個數,自由度通常記為df。數理統計上的這個定義可以從如下幾個方面來理解:
第一,“統計量”(如樣本數據的平均數X、樣本數據的標准差)是研究者通過調查樣本的數據人為地計算出來的,而“參數”(如總體均值μ、總體標准差δ)是被調查的總體所客觀存在的,這是兩者的區別。在統計學的理論層面上,要求或者假定統計量是參數的無偏估計,認為二者是相等的(在實際研究中,由於抽樣的偏差,可能導致兩者不相等,但對於這種情況,研究者是無法知道的,知道就沒有抽樣調查的必要了)。在理論假設下,統計量也就和參數一樣被看作是客觀的、確定的。
第二,既然在理論上統計量被要求是確定的,那么在實際層面上,計算統計量的那組數據就 不是完全自由的。這一點很重要,因為自由度中“自由”的含義就是相對這個“確定”條件而言的。正是統計量的這種“確定性”限制了與之相關的一組數據的自由度,也就是說,一組數據不是可以完全自由取值的,它必須支持“統計量與總體參數相等”的理論假設。這就是自由度存在的理由。
有必要舉例來進一步說明“獨立或能自由變化的數據”的含義。在心理、社會等領域的測量或者調查過程中,研究者設置了一些變量(如智商、收入等),這些變量是隨機變量。所謂隨機變量是指,在調查總體中,變量的取值范圍及其所對應的頻次(兩者合起來稱為變量的分布)是確定的,但在一次具體的抽樣調查中,變量的取值及其所對應的頻次則是不確定的,但在大樣本的抽樣調查中,變量的分布又是能體現總體的特征和規律的。
例如:研究者在調查某個城市在崗職女工的平均收入時,從總體40000萬人中,研究者隨機抽取了200人進行調查。在這個例子中,總體40000個在崗女工的收入的平均數是總體參數,是客觀的、確定的,盡管研究者不知道。通過隨機抽樣和問卷調查,研究者獲得了200人的收入的數據。運用這組數據可以算出樣本的平均數,它是統計量。由於在理論上要求統計量與參數相等,所以這200個數據中只有199個數據可以“自由”變動,所以,這組數據在求平均數這個統計量時的自由度就是:K=200-1=199。
第三,在上面的例子中,研究者只抽了一個200人的樣本,而在實際層面,這200人的收入是確定的,因為每個被調查者只有一個確定的收入。既然這樣,“199個數據可以自由變動”是什么意思呢?
這需要回到理論上去回答。在理論上,從20000人中隨機抽取200人有種抽取方法,也就是說,在理論上研究者可以得到個不同的、樣本容量均為200人的樣本,這個數據量是很大的(沒有必要確切知道它的值)。這樣,在理論上就存在很多組調查數據(雖然研究者確實只調查了一個200人的樣本,也只獲得了一組數據),每組都有200個數據。每組數據在理論上都有對應的統計量,正是這些統計量的分布,構成了統計學中所說的抽樣分布,它是基礎統計學的核心內容。所以,僅僅在理論上,這200個數據中的199個數據是可以隨不同樣本而變化的、自由的。當然,話說回來,這種自由並非是絕對的,它們也只能在總體的取值范圍內變動,例如,關於“收入”這個變量的取值就不可能為負值。
眾所周知,很多統計量的計算公式中都有自由度的概念,可為什么同樣是計算標准差,總體標准差的自由度是n,而樣本標准差的自由度就是n-1?為什么其它公式中的自由度還有n-2、n-3呢?它到底是什么含意?
在統計模型中,自由度指樣本中可以自由變動的變量的個數,當有約束條件時,自由度減少 自由度計算公式:自由度=樣本個數-樣本數據受約束條件的個數,即df=n-k(df自由度,n樣本個數,k約束條件個數),n-1是通常的計算方法,更准確的講應該是n-k,n表示“處理”的數量,k表示實際需要計算的參數的數量。如需要計算2個參數,則數據里只有n-2個數據可以自由變化。例如,一組數據,平均數一定,則這組數據有n-1個數據可以自由變化;如一組數據平均數一定,標准差也一定,則有n-2個數據可以自由變化。
第四,自由度是誰的?從前面的分析中可以知道,自由度產生於這樣的背景下:運用一組數據來求“統計量”。離開“一組數據”就不可能有“統計量”,不計算“統計量”,“一組數據”就失去了科學的價值。所以,“自由度”應該是“統計量”和“一組數據”所共同擁有的。當然,為了方便,我們說“統計量的自由度”或者“一組數據的自由度”也都是可以接受的。
第五,統計學上的自由度包括兩方面的內容:
首先,在估計總體的平均數時,由於樣本中的n個數都是相互獨立的,從其中抽出任何一個數都不影響其他數據,所以其自由度為n。
在估計總體的方差時,使用的是離差平方和。只要n-1個數的離差平方和確定了,方差也就確定了;因為在均值確定后,如果知道了其中n-1個數的值,第n個數的值也就確定了。這里,均值就相當於一個限制條件,由於加了這個限制條件,估計總體方差的自由度為n-1。例如,有一個有4個數據(n=4)的樣本, 其平均值m等於5,即受到m=5的條件限制,在自由確定4、2、5三個數據后, 第四個數據只能是9,否則m≠5。因而這里的自由度υ=n-1=4-1=3。推而廣之,任何統計量的自由度υ=n-限制條件的個數。
其次,統計模型的自由度等於可自由取值的自變量的個數。如在回歸方程中,如果共有p個參數需要估計,則其中包括了p-1個自變量(與截距對應的自變量是常量1)。因此該回歸方程的自由度為p-1。
在一個包含n個個體的總體中,平均數為m。知道了n-1個個體時,剩下的一個個體不可以隨意變化。為什么總體方差計算,是除以n而不是n-1呢?方差是實際值與期望值之差平方的期望值,所以知道總體個數n時方差應除以n,除以n-1時是方差的一個無偏估計。
上述從不同角度對自由度的概念與定義進行了闡述,我們認為,在統計學上,自由度是建立在統計量之上的概念,它是統計量的數學特征。至此,我們可以給出數理統計中自由度的科學定義:自由度是指在一組樣本數據中,能夠自由取值且不違反給定約束條件的樣本數值的個數。這樣,我們就較科學地將實際樣本容量和自由度區別開來。
下面將進一步舉例說明自由度在不同方面的應用。
一、樣本方差的自由度
許多教科書在列出樣本方差的計算公式時都沒有說分子n-1(n為樣本容量)就是自由度,也很少解釋清楚為什么是除以n-1而不是n。假設一個容量為10的樣本,如果沒有其他關於該樣本的信息或約束的話,任意從總體中抽取的10個觀察值都可以形成這樣的樣本。也就是說,這10個觀察值可以任意地被從總體中抽取的其他觀察值所取代。當我們想要計算樣本方差時,必須先算出樣本均值,設
=35。此時,這10個觀察值就不能任意地被總體中抽取的其他觀察值所取代了。因為n
=350,10個觀察值的總和必須等於350。這樣一來,樣本中只有9個觀察值可以隨意改變,因為如果任意9個觀察值確定了,第10個觀察值也被這9個值確定了。因此在計算樣本方差時自由度等於9。有效樣本容量被減少為n-1,在此基礎上,我們可以很好地理解為什么作為均方差的樣本方差計算時,要用自由度來平均而非用n平均。這也說明了如果從樣本數據中估計了一個總體參數,自由度就會減少一個。因為樣本方差的自由度為n-1,所以在比較兩個獨立總體的均值大小的t檢驗中,合並方差的自由度等於n1+n2-2=(n1-1)+(n2-1);在比較兩個獨立總體的方差大小的F檢驗中,F統計量的自由度為(n1-1,n2-1),其中n1,n2分別為兩個樣本的容量。
二、獨立性檢驗中的自由度
在獨立性的卡方檢驗中,列聯表是必不可少的。 我們運用列聯表來說明其中自由度的思想。見表1,一張2×3的列聯表,它的行和與列和已經給定了。如果不能給出更多的頻數,這張表是有空缺的。如果填入一個頻數,如(n2,m2)=45,另一個頻數(n1,m2)就可以被確定(n1,m2)=45。倘若再給出一個頻數,那么整個列聯表就填列完整了。如令(n1,m1)=15,則(n2,m1)=5,(n2,m3)=20,(n1,m3)=20。對於2行3列的列聯表,只要給出2個獨立的必要的信息,我們就可以確定整張表的信息內容。也就是說列聯表有(r-1)(c-1)=(2-1)(3-1)=2個自由度。可以想象,一張r行c列的列聯表,在各行和與列和給定的情況下,我們只要填上任意(r-1)行(c-1)列的頻數,表中其他的頻數也會隨之確定下來,所以列聯表有(r-1)(c-1)個自由度。
總之,數理統計中的自由度對於整個統計學而言是一個很重要的概念,它在抽樣分布和假設檢驗中的作用尤其突出。統計量的自由度和檢驗該統計量是否顯著的臨界值之間的對應關系,從而為判斷是否顯著提供了一定的標准。全面地認識理解數理統計中自由度的含義和應用方向,對理解和在實際中應用數理統計學具有至關重要的作用。