標准差(Standard Deviation) 和 標准誤差(Standard Error)


本文摘自

Streiner DL.Maintaining standards: differences between the standard deviation and standarderror, and when to use each. Can J Psychiatry 1996; 41: 498–502.

http://www.07net01.com/program/306401.html

標准差(Standard Deviation)

標准差,縮寫為S.D., SD, 或者 s (就是為了把人給弄暈?),是描寫敘述數據點在均值(mean)周圍聚集程度的指標。

假設把單個數據點稱為“Xi,” 因此 “X1” 是第一個值。“X2” 是第二個值,以此類推。

均值稱為“M”。

初看上去Σ(Xi-M)就能夠作為描寫敘述數據點散布情況的指標。也就是把每一個Xi與M的偏差求和。換句話講。是(單個數據點—數據點的平均)的總和。

看上去挺有邏輯性的。可是它有兩個缺點。

第一個困難是:上述定義的結果永遠是0。依據定義,高出均值的和永遠等於低於均值的和。因此它們相互抵消。能夠取差值的絕對值來解決(也就是說,忽略負值的符號),可是由於各種神奇兮兮的原因,統計學家不喜歡絕對值。另外一個剔除負號的方法是取平方,由於不論什么數的平方肯定是正的。所以,我們就有Σ(Xi-M)2。

另外一個問題是當我們添加數據點后此等式的結果會隨之增大。

比方我們手頭有25個值的樣本。依據前面公式計算出SD是10。假設再加25個一模一樣的樣本,直覺上50個大樣本的數據點分布情況應該不變。可是我們的公式會產生更大的SD值。

好在我們能夠通過除以數據點數量N來彌補這個漏洞。所以等式就變成Σ(Xi-M)2/N.

依據墨菲定律,我們攻克了兩個問題,就會隨之產生兩個新問題。

第一個問題(或者我們應該稱為第三個問題,這樣能與前面的相銜接)是用平方表達偏差。假設我們測量自閉症兒童的IQ。或許會發現IQ均值是75, 散布程度是100 個IQ點平方。這IQ點平方又是什么東西?只是這easy處理:用結果的平方根替代,這樣結果就與原來的測量單位一致。

所以上面的樣例中的散布程度就是10個IQ點,變得更加easy理解。

最后一個問題是眼下的公式是一個有偏預計,也就是說。結果總是高於或者低於真實的值。

解釋略微有點復雜。先要繞個彎。在多數情況下,我們做研究的時候。更感興趣樣本來自的整體(population)。比方,我們探查有年輕男性精神分裂症患者的家庭中的外現情緒(expressed emotion。EE)水平時,我們的興趣點是全部滿足此條件的家庭(整體)。而不單單是哪些受研究的家庭。

我們的工作便是從樣本中預計出整體的均值(mean)和SD。由於研究使用的僅僅是樣本,所以這些預計會與整體的值未知程度的偏差。理想情況下。計算SD的時候我們應當知道每一個家庭的分值(score)偏離整體均值的程度。可是我們手頭僅僅有樣本的均值。

依據定義,分值樣本偏離樣本均值的程度要小於偏離其它值,因此使用樣本均值減去分值得到的結果總是比用整體均值(還不知道)減去分值要小。公式產生的結果也就偏小(當然N非常大的時候,這個偏差就能夠忽略)。為了糾正這個問題,我們會用N-1除,而不是N。總之,最后我們得到了修正的標准差的(預計)公式(稱為樣本標准差):

標准差(Standard Deviation) 和 標准誤差(Standard Error)

順帶一下,不要直接使用此公式計算SD,會產生非常多舍入誤差(rounding error)。統計學書通常會提供另外一個等同的公式,能獲得更加精確的值。

如今我們完畢了全部推導工作,這意味着什么呢?

假設數據是正態分布的。一旦知道了均值和SD,我們便知道了分值分布的全部情況。對於任一個正態分布,大概2/3(精確的是68.2%)的分值會落在均值-1 SD和均值+1 SD之間。95.4%的在均值-2 SD 和均值+2 SD之間。

比方,大部分研究生或者職業院校的入學考試(GRE,MCAT,LSAT和其它折磨人的手段)的分數分布(正態)就設計成均值500,SD 100。這意味68%的人得分在400到600之間。略超過95%的人在300到700之間。使用正態曲線的概率表,我們就能准確指出低於或者高於某個分數的比例是多少。相反的。假設我們想讓5%的人淘汰掉。假設知道當年測試的均值和SD,依靠概率表。我們就能准確划出最低分數線。

總結一下,SD告訴我們分值環繞均值的分布情況。如今我們轉向標准誤差(standard error)。

標准誤差(Standard Error)

前面我提到過大部分研究的目的是預計某個整體(population)的參數。比方均值和SD(標准方差)。一旦有了預計值,另外一個問題隨之而來:這個預計的精確程度怎樣?這問題看上去無解。我們實際上不知道確切的整體參數值。所以怎么能評價預計值的接近程度呢?挺符合邏輯的推理。可是曾經的統計學家們沒有被嚇倒。我們也不會。

我們能夠求助於概率:(問題轉化成)真實整體均值處於某個范圍內的概率有多大?(格言:統計意味着你不須要把話給說絕了。

回答這個疑問的一種方法反復研究(實驗)幾百次,獲得非常多均值預計。然后取這些均值預計的均值,同一時候也得出它的標准方差(預計)。然后用前面提到的概率表,我們可預計出一個范圍,包含90%或者95%的這些均值預計。

假設每一個樣本是隨機的,我們就能夠安心地說真實的(整體)均值90%或者95%會落在這個范圍內。

我們給這些均值預計的標准差取一個新名字:均值的標准誤差(the standard error of the mean),縮寫是SEM,或者。假設不存在混淆。直接用SE代表。

可是首先得處理一個小紕漏:反復研究(實驗)幾百次。

現今做一次研究已經非常困難了,不要說幾百次了(即使你能花費整個余生來做這些實驗)。好在一向給力的統計學家們已經想出了基於單項研究(實驗)確定SE的方法。

讓我們先從直觀的角度來講:是哪些因素影響了我們對預計精確性的推斷?一個明顯的因素是研究的規模。樣本規模N越大。反常數據對結果的影響就越小,我們的預計就越接近整體的均值。所以,N應該出如今計算SE公式的分母中:由於N越大,SE越小。

相似的。第二因素是:數據的波動越小,我們越相信均值預計能精確反映它們。所以,SD應該出如今計算公式的分子上:SD越大。SE越大。因此我們得出以下公式:

標准差(Standard Deviation) 和 標准誤差(Standard Error)

(為什么不是N?

由於實際是我們是在用N除方差SD2,我們實際不想再用平方值。所以就又採用平方根了。)

所以,SD實際上反映的是數據點的波動情況。而SE則是均值的波動情況。

置信區間(Confidence Interval)
前面一節。針對SE,我們提到了某個值范圍。我們有95%或者99%的信心覺得真實值就處在其中。我們稱這個值范圍為“置信區間”,縮寫是CI。讓我們看看它是怎樣計算的。

看正態分布表,你會發現95%的區域處在-1.96SD 和+1.96 SD 之間。

回想到前面的GRE和MCAT的樣例。分數均值是500。SD是100,這樣95%的分數處在304和696之間。

怎樣得到這兩個值呢?首先,我們把SD乘上1.96,然后從均值中減去這部分,便得到下限304。假設加到均值上我們便得到上限696。CI也是這樣計算的,不同的地方是我們用SE替代SD。

所以計算95%的CI的公式是:95%CI= 均值± ( 1.96 xSE)。

選擇SD, SE和CI
好了。如今我們有SD, SE和CI。問題也隨之而來:什么時候用?選擇哪個指標呢?非常明顯。當我們描寫敘述研究結果時。SD是必須報告的。依據SD和樣本大小,讀者非常快就能獲知SE和隨意的CI。假設我們再加入上SE和CI,是不是有反復之嫌?回答是:“YES”和“NO”兼有。

本質上,我們是想告之讀者通常數據在不相同本上是存在波動的。

某一次研究上獲得的數據不會與另外一次反復研究的結果一模一樣。我們想告之的是期望的差異究竟有多大:可能波動存在。可是沒有大到會改動結論,或者波動足夠大。下次反復研究可能會得出相反的結論。

某種程度上來講。這就是檢驗的顯著程度。P level 越低。結果的偶然性就越低。下次能反復出相似結果的可能性越高。

可是顯著性檢驗。一般是黑白分明的:結果要么是顯著的,要么不是。

假設兩個實驗組的均值區別僅僅是勉強通過了P < 0.05的紅線,也常常被當成一個非常穩定的結果。假設我們在圖表中加上CI,讀者就非常easy確定樣本和樣本間的數據波動會有多大。可是我們選擇哪個CI呢?

我們會在圖表上加上error bar(誤差條,非常難聽),通常等同於1個SE。優點是不用選擇SE或者CI了(它們指向的是一樣的東西),也無過多的計算。不幸的這樣的方法傳遞了非常少實用信息。一個error bar (-1 SE,+1 SE )等同於68%的CI;代表我們有68%的信心真的均值(或者2個實驗組的均值的區別)會落在這個范圍內。糟糕的是,我們習慣用95%,99% 而不是68%。所以讓忘記加上SE吧。傳遞的信息量太少了,它的主要用途是計算CI。

那么把error bar加長吧,用2個SE怎樣?這好像有點意思。2是1.96的不錯預計。

有雙方面的優點。首先這種方法能顯示95%的CI。比68%更有意義。其次能讓我們用眼睛檢驗區別的顯著性(至少在2個實驗組的情況下是如此)。假設以下bar的頂部和上面bar的底部沒有重疊。兩個實驗組的差異必然是顯著的(5%的顯著水平)。

因此我們會說。這2個組間存在顯著區別。假設我們做t-test,結果會驗證這個發現。

這樣的方法對超過2個組的情況就不那么精確了。由於須要多次比較(比方。組1和組2。組2和組3,組1和組3),可是至少能給出區別的粗略指示。在表格中展示CI的時候,你應該給出確切的數值(乘以1.96而不是2)。

總結
SD反映的是數據點環繞均值的分布狀況,是數據報告中必須有的指標。SE則反映了均值波動的情況。是研究反復多次后,期望得到的差異程度。SE自身不傳遞非常多實用的信息。主要功能是計算95%和99%的CI。

CI是顯著性檢驗的補充,反映的是真實的均值或者均值區別的范圍。

一些期刊已把顯著性檢驗拋棄了,CI取而代之。這可能走過頭了。

由於這兩種方法各有優點。也均會被誤用。

比方,一項小樣本研究可能發現控制組和實驗組間的區別顯著(0.05的顯著水平)。假設在結果展示加上CI。讀者會非常easy看到CI十分寬。說明對區別的預計是非常粗糙的。

與之相反,大量鼓吹的被二手煙影響的人數,實際上不是一個均值預計。

最好的預計是0,它有非常寬的CI。報道的卻僅僅是CI的上限。

總之,SD、顯著性檢驗,95%或者99% 的CI,均應該加在報告中,有利於讀者理解研究結果。它們均有信息量。能相互補充,而不是替代。

相反,“裸”的SE的並不能告訴我們什么信息,多占領了一些篇幅和空間而已。

http://bbs.pinggu.org/thread-1189387-1-1.html
最后總結:標准差還是標准誤。注意看其英文原意,就能夠把握個八九不離十了。本質上二者是同一個東西(都是標准差),但前者反映的是一種偏離程度,后者反映的是一種“差錯”,即用樣本統計量去預計整體參數的時候,對其“差錯”大小(也即預計精度)的衡量。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM