z-score值:
(某值-mean)/標准差=z-score
zi=(xi-均值)/s,zi又稱為標准分數。這是統計中的標准化公式。它給出了一組數據中各個數據的相對位置。
該公式的意義:
一個數減去均值,可認為是:該數偏離均值的程度。
因為,標准差可以認為是一組數的平均離散程度。所以,減去均值后再除以sd,可認為是:(該數偏離平均值的程度)是(整組數平均偏離程度)的幾倍。
所以,針對每一個數都可以計算它的z-score值。
例子:
一組數: X=(25,28,31,34,37,40,43) X的平均數:34 X的標准差:(81+36+9+9+36+81)/7 = 37, 37的平方根:6。所以標准差=6
減平均數:-9,-6,-3,0,3,6,9
除以標准差:Y=(-1.5, -1,-0.5, 0, 0.5, 1, 1.5) Y的平均數:0 Y的標准差:(2.25+1+0.25+0.25+1+2.25)/7=1,1的平方根:1。所以標准差=1
即:將上面的一組數,轉換成了下面的一組正負值的數。
由此例子,可以看出:z-score(即Y值)具有平均數是0,標准差是1的特性。符合標准正態分布。
z-score只是對原來的數據進行線性變換,並沒有改變某個數據在該組數據中的位置,也沒有改變這組數據的分布形狀。它只是將該組數據變為平均數為0,標准差為1的一組數。
這樣,就可以利用正態分布的一些特性。(此處還不太懂,后續補充吧)
方差:
與均值之差的平方的和的平均數。
標准差的計算公式:
相關系數:
衡量兩組數據之間的關系 。比如:X=(x1,x2,...),Y=(y1,y2,...)
反應的是變量之間的線性關系和相關性的方向(正相關、負相關)。比如,0表示X與Y之間不相關;1表示X與Y正相關,X變大,Y也變大;-1表示X與Y負相關,X變小,Y也變小。
有3種定量相關性association的方法:OR、RR(risk ratio)、ARR(abolute risk reduction)