協方差
協方差用來描述兩個變量的相關性
若兩個隨機變量正相關則cov(x,y) > 0
負相關則cov(x,y)<0
不相關則cov(x,y) = 0
公式 cov(x,y) = E[(x-ux) *(y-uy)]
rxy = cov(x,y) / ( sqrt(cov(x,x)) * sqrt(cov(y,y)) )
就是求x - x的均值 與 y-y的均值的乘積的期望
因為若兩個向量正相關則對於多數的(x,y), (x-ux) *(y-uy) > 0, 其期望自然也就大於0
若兩個向量負相關則對於多數的(x,y), (x-ux) *(y-uy) < 0, 其期望自然也就小於0
若兩個向量完全不相關則(x-ux) *(y-uy) 有時大於0,有時小於0,其期望等於0
相關系數:
σ:方差
相關系數是消除了量剛(尺度)的協方差
比如X是均值為1000的隨機變量 Y是均值為0的隨機變量, 先將其標准化處理再計算協方差就是相關系數
-1<=p<=1
相關系數為1表示完全正相關,為-1表示負相關,為0表示完全不相關
術語解釋:
標准化:
對於均值為u, 方程為a的正太分布隨機變量X
可通過Y =(x-u)/a將其變為均值為0方差為1的正太分布隨機變量Y