最近一直在研究均值估計之類的問題,下午正好有機會和大家分享一下.
本文摘自
Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.
標准差(Standard Deviation)
標准差,縮寫為S.D., SD, 或者 s (就是為了把人給弄暈?),是描述數據點在均值(mean)四周聚集水平的指標。
如果把單個數據點稱為“Xi,” 因此 “X1” 是第一個值,“X2” 是第二個值,以此類推。均值稱為“M”。初看上去Σ(Xi-M)就可以作為描述數據點散布情況的指標,也就是把每個Xi與M的偏差求和。換句話講,是(單個數據點—數據點的均勻)的總和。
看上去挺有邏輯性的,但是它有兩個缺點。
第一個困難是:上述定義的結果永久是0。根據定義,高出均值的和永久即是低於均值的和,因此它們相互抵消。可以取差值的絕對值來處理(也就是說,忽略負值的符號),但是由於各種神秘兮兮的原因,統計學家不喜歡絕對值。另外一個剔除負號的方法是取平方,因為任何數的平方肯定是正的。所以,我們就有Σ(Xi-M)2。
另外一個問題是當我們增加數據點后此等式的結果會隨之增大。比如我們手頭有25個值的樣本,根據前面公式計算出SD是10。如果再加25個一模一樣的樣本,直覺上50個大樣本的數據點分布情況應當不變。但是我們的公式會產生更大的SD值。好在我們可以通過除以數據點數量N來填補這個漏洞。所以等式就釀成Σ(Xi-M)2/N.
根據墨菲定律,我們處理了兩個問題,就會隨之產生兩個新問題。
第一個問題(或者我們應當稱為第三個問題,這樣能與前面的相銜接)是用平方抒發偏差。假設我們丈量自閉症兒童的IQ。或許會發現IQ均值是75, 散布水平是100 個IQ點平方。這IQ點平方又是什么東西?不過這輕易處理:用結果的平方根替代,這樣結果就與原來的丈量單位一致。所以上面的例子中的散布水平就是10個IQ點,變得更加輕易理解。
最后一個問題是目前的公式是一個有偏估計,也就是說,結果總是高於或者低於實在的值。解釋稍微有點龐雜,先要繞個彎。在少數情況下,我們做研究的時候,更感興致樣本來自的整體(population)。比如,我們探查有年輕男性精神分裂症患者的家庭中的外現情緒(expressed emotion,EE)水平時,我們的興致點是全部滿意此條件的家庭(整體),而不單單是哪些受研究的家庭。我們的工作就是從樣本中估計出整體的均值(mean)和SD。因為研究應用的只是樣本,所以這些估計會與整體的值未知水平的偏差。幻想情況下,計算SD的時候我們應當曉得每個家庭的分值(score)偏離整體均值的水平,但是我們手頭只有樣本的均值。
根據定義,分值樣本偏離樣本均值的水平要小於偏離其他值,因此應用樣本均值減去分值失掉的結果總是比用整體均值(還不曉得)減去分值要小,公式產生的結果也就偏小(當然N很大的時候,這個偏差就可以忽略)。為了改正這個問題,我們會用N-1除,而不是N。總之,最后我們失掉了修正的標准差的(估計)公式(稱為樣本標准差):
順帶一下,不要直接應用此公式計算SD,會產生很多舍入誤差(rounding error)。統計學書一般會提供另外一個同等的公式,能獲得更加精確的值。
當初我們完成了全部推導工作,這象征着什么呢?
假設數據是正態分布的,一旦曉得了均值和SD,我們便曉得了分值分布的全部情況。對於任一個正態分布,大概2/3(精確的是68.2%)的分值會落在均值-1 SD和均值+1 SD之間,95.4%的在均值-2 SD 和均值+2 SD之間。比如,大部份研究生或者職業院校的入學考試(GRE,MCAT,LSAT和其他折磨人的手段)的分數分布(正態)就計划成均值500,SD 100。這象征68%的人得分在400到600之間,略超越95%的人在300到700之間。應用正態曲線的概率表,我們就能准確指出低於或者高於某個分數的比例是多少。相反的,如果我們想讓5%的人淘汰掉,如果曉得當年測試的均值和SD,依靠概率表,我們就能准確划出最低分數線。
總結一下,SD告知我們分值圍繞均值的分布情況。當初我們轉向標准誤差(standard error)。
標准誤差(Standard Error)
前面我提到過大部份研究的目標是估計某個整體(population)的參數,比如均值和SD(標准方差)。一旦有了估計值,另外一個問題隨之而來:這個估計的精確水平如何?這問題看上去無解。我們實際上不曉得確實的整體參數值,所以怎么能評價估計值的親近水平呢?挺符合邏輯的推理。但是以前的統計學家們沒有被嚇倒,我們也不會。我們可以求助於概率:(問題轉化成)實在整體均值處於某個范圍內的概率有多大?(格言:統計象征着你不需要把話給說絕了。)
答復這個疑問的一種方法重復研究(實驗)幾百次,獲得很多均值估計。然后取這些均值估計的均值,同時也得出它的標准方差(估計)。然后用前面提到的概率表,我們可估計出一個范圍,包括90%或者95%的這些均值估計。如果每個樣本是隨機的,我們就可以安心腸說實在的(整體)均值90%或者95%會落在這個范圍內。我們給這些均值估計的標准差取一個新名字:均值的標准誤差(the standard error of the mean),縮寫是SEM,或者,如果不存在混雜,直接用SE代表。
但是首先得處理一個小紕漏:重復研究(實驗)幾百次。現今做一次研究已很困難了,不要說幾百次了(即使你能花費整個余生來做這些實驗)。好在一貫給力的統計學家們已想出了基於單項研究(實驗)確定SE的方法。讓我們先從直觀的角度來講:是哪些要素影響了我們對估計精確性的判斷?一個顯著的要素是研究的范圍。樣本范圍N越大,反常數據對結果的影響就越小,我們的估計就越親近整體的均值。所以,N應當出當初計算SE公式的分母中:因為N越大,SE越小。類似的,第二要素是:數據的穩定越小,我們越相信均值估計能精確反應它們。所以,SD應當出當初計算公式的分子上:SD越大,SE越大。因此我們得出以下公式:
(為什么不是N? 因為實際是我們是在用N除方差SD2,我們實際不想再用平方值,所以就又采用平方根了。)
所以,SD實際上反應的是數據點的穩定情況,而SE則是均值的穩定情況。
置信區間(Confidence Interval)
前面一節,針對SE,我們提到了某個值范圍。我們有95%或者99%的信念以為實在值就處在當中。我們稱這個值范圍為“置信區間”,縮寫是CI。讓我們看看它是如何計算的。看正態分布表,你會發現95%的區域處在-1.96 SD 和+1.96 SD 之間。回顧到前面的GRE和MCAT的例子,分數均值是500,SD是100,這樣95%的分數處在304和696之間。如何失掉這兩個值呢?首先,我們把SD乘上1.96,然后從均值中減去這部份,便失掉下限304。如果加到均值上我們便失掉上限696。CI也是這樣計算的,不同的地方是我們用SE替代SD。所以計算95%的CI的公式是:95%CI= 均值± ( 1.96 x SE)。
選擇SD, SE和CI
好了,當初我們有SD, SE和CI。問題也隨之而來:什么時候用?選擇哪個指標呢?很顯著,當我們描述研究結果時,SD是必須報告的。根據SD和樣本大小,讀者很快就能獲知SE和任意的CI。如果我們再添加上SE和CI,是不是有重復之嫌?答復是:“YES”和“NO”兼有。
本質上,我們是想告之讀者通常數據在不同樣本上是存在穩定的。某一次研究上獲得的數據不會與另外一次重復研究的結果一模一樣。我們想告之的是期望的差異到底有多大:可能穩定存在,但是沒有大到會修改結論,或者穩定足夠大,下次重復研究可能會得出相反的結論。
某種水平上來講,這就是檢驗的顯著水平,P level 越低,結果的偶然性就越低,下次能重復出類似結果的可能性越高。但是顯著性檢驗,通常是黑白分明的:結果要么是顯著的,要么不是。如果兩個實驗組的均值差別只是勉強通過了P < 0.05的紅線,也經常被當成一個很穩定的結果。如果我們在圖表中加上CI,讀者就很輕易確定樣本和樣本間的數據穩定會有多大,但是我們選擇哪個CI呢?
我們會在圖表上加上error bar(誤差條,很難聽),通常同等於1個SE。好處是不用選擇SE或者CI了(它們指向的是一樣的東西),也無過多的計算。不幸的這種方法傳遞了很少有用信息。一個error bar (-1 SE,+1 SE )同等於68%的CI;代表我們有68%的信念真的均值(或者2個實驗組的均值的差別)會落在這個范圍內。糟糕的是,我們習慣用95%,99% 而不是68%。所以讓忘記加上SE吧,傳遞的信息量太少了,它的主要用途是計算CI。
那么把error bar加長吧,用2個SE如何?這好像有點意思,2是1.96的不錯估計。有兩方面的好處。首先這個方法能顯示95%的CI,比68%更有意義。其次能讓我們用眼睛檢驗差別的顯著性(至少在2個實驗組的情況下是如此)。如果下面bar的頂部和上面bar的底部沒有重疊,兩個實驗組的差異必定是顯著的(5%的顯著水平)。因此我們會說,這2個組間存在顯著差別。如果我們做t-test,結果會驗證這個發現。這種方法對超越2個組的情況就不那么精確了。因為需要多次比較(比如,組1和組2,組2和組3,組1和組3),但是至少能給出差別的粗略指示。在表格中展示CI的時候,你應當給出確實的數值(乘以1.96而不是2)。
總結
SD反應的是數據點圍繞均值的分布狀況,是數據報告中必須有的指標。SE則反應了均值穩定的情況,是研究重復多次后,期望失掉的差異水平。SE自身不傳遞很多有用的信息,主要功能是計算95%和99%的CI。 CI是顯著性檢驗的補充,反應的是實在的均值或者均值差別的范圍。
一些期刊已把顯著性檢驗拋棄了,CI取而代之。這可能走過頭了。因為這兩種方法各有優點,也均會被誤用。比如,一項小樣本研究可能發現控制組和實驗組間的差別顯著(0.05的顯著水平)。如果在結果展示加上CI,讀者會很輕易看到CI十分寬,說明對差別的估計是很粗糙的。與之相反,大量鼓吹的被二手煙影響的人數,實際上不是一個均值估計。最好的估計是0,它有很寬的CI,報道的卻只是CI的上限。
總之,SD、顯著性檢驗,95%或者99% 的CI,均應當加在報告中,有利於讀者理解研究結果。它們均有信息量,能相互補充,而不是替代。相反,“裸”的SE的並不能告知我們什么信息,多占據了一些篇幅和空間而已。
文章結束給大家分享下程序員的一些笑話語錄: 問路
有一個駕駛熱氣球的人發現他迷路了。他降低了飛行的高度,並認出了地面 上的一個人。他繼續下降高度並對着那個人大叫,“打擾一下,你能告訴我我 在哪嗎?”
下面那個人說:“是的。你在熱氣球里啊,盤旋在 30 英尺的空中”。
熱氣球上的人說:“你一定是在 IT 部門做技術工作”。
“沒錯”,地面上的人說到,“你是怎么知道的?”
“呵呵”,熱氣球上的人說,“你告訴我的每件事在技術上都是對的,但對都沒 有用”。
地面上的人說,“你一定是管理層的人”。
“沒錯”,熱氣球上的人說,“可是你是怎么知道的?”
“呵呵”,地面上的那人說到,“你不知道你在哪里,你也不知道你要去哪,你 總希望我能幫你。你現在和我們剛見面時還在原來那個地方,但現在卻是我 錯了”。