一組數據怎樣去評價和量化它的離散度,有很多種方法:
標准差極差
標准差離均差平方和
由於誤差的不可控性,因此只由兩個數據來評判一組數據是不科學的。所以人們在要求更高的領域不使用極差來評判。其實,離散度就是數據偏離平均值的程度。因此將數據與均值之差(我們叫它離均差)加起來就能反映出一個准確的離散程度。和越大離散度也就越大。
但是由於偶然誤差是成正態分布的,離均差有正有負,對於大樣本離均差的代數和為零的。為了避免正負問題,在數學有上有兩種方法:一種是取絕對值,也就是常說的離均差絕對值之和。而為了避免符號問題,數學上最常用的是另一種方法--平方,這樣就都成了非負數。因此,離均差的平方和成了評價離散度一個指標。
標准差方差(S2)
由於離均差的平方和與樣本個數有關,只能反應相同樣本的離散度,而實際工作中做比較很難做到相同的樣本,因此為了消除樣本個數的影響,增加可比性,將離均差的平方和求平均值,這就是我們所說的方差成了評價離散度的較好指標。
樣本量越大越能反映真實的情況,而算術平均值卻完全忽略了這個問題,對此統計學上早有考慮,在統計學中樣本的均差多是除以自由度(n-1),它的意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。
標准差標准差(SD)
由於方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標准差。
在統計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。
標准差變異系數(CV)
標准差能很客觀准確的反映一組數據的離散程度,但是對於不同的項目,或同一項目不同的樣本,標准差就缺乏可比性了,因此對於方法學評價來說又引入了變異系數CV。
一組數據的平均值及標准差常常同時做為參考的依據。在直覺上,如果數值的中心以平均值來考慮,則標准差為統計分布之一“自然”的測量。
定義公式:其中N應為n-1,即自由度
⒈方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/(n) (x為平均數)
⒉標准差=方差的算術平方根
error bar。在實驗中單次測量總是難免會產生誤差,為此我們經常測量多次,然后用測量值的平均值表示測量的量,並用誤差條來表征數據的分布,其中誤差條的高度為±標准誤。這里即標准差。
standard deviation和標准誤standard error 的計算公式分別為
標准差解釋
編輯
從幾何學的角度出發,標准差可以理解為一個從 n 維空間的一個點到一條直線的距離的函數。舉一個簡單的例子,一組數據中有3個值,X1,X2,X3。它們可以在3維空間中確定一個點 P = (X1,X2,X3)。想像一條通過原點的直線。如果這組數據中的3個值都相等,則點 P 就是直線 L 上的一個點,P 到 L 的距離為0,所以標准差也為0。若這3個值不都相等,過點 P 作垂線 PR 垂直於 L,PR 交 L 於點 R,則 R 的坐標為這3個值的平均數:
運用一些代數知識,不難發現點 P 與點 R 之間的距離(也就是點 P 到直線 L 的距離)是|PR|。在 n維空間中,這個規律同樣適用,把3換成 n 就可以了。
標准差標准差標准誤
首先要從統計抽樣的方面說起。現實生活或者調查研究中,我們常常無法對某類欲進行調查的目標群體的所有成員都加以施測,而只能夠在所有成員(即樣本)中抽取一些成員出來進行調查,然后利用統計原理和方法對所得數據進行分析,分析出來的數據結果就是樣本的結果,然后用樣本結果推斷總體的情況。一個總體可以抽取出多個樣本,所抽取的樣本越多,其樣本均值就越接近總體數據的平均值。
標准差
表示的就是樣本數據的離散程度。標准差就是樣本平均數方差的開平方,標准差通常是相對於樣本數據的平均值而定的,通常用M±SD來表示,表示樣本某個數據觀察值相距平均值有多遠。從這里可以看到,標准差受到極值的影響。標准差越小,表明數據越聚集;標准差越大,表明數據越離散。標准差的大小因測驗而定,如果一個測驗是學術測驗,標准差大,表示學生分數的離散程度大,更能夠測量出學生的學業水平;如果一個測驗測量的是某種心理品質,標准差小,表明所編寫的題目是同質的,這時候的標准差小的更好。標准差與正態分布有密切聯系:在正態分布中,1個標准差等於正態分布下曲線的68.26%的面積,1.96個標准差等於95%的面積。這在測驗分數等值上有重要作用。
標准誤






