鏈接:https://www.cnblogs.com/raorao1994/p/9050697.html
方差、標准差、協方差、相關系數
【方差】
(variance)是在概率論和統計方差衡量
隨機變量或一組數據時離散程度的度量。概率論中方差用來度量
隨機變量和其
數學期望(即
均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的
平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。方差是衡量源數據和期望值相差的度量值。(百度百科)
在統計描述中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。總體方差計算公式:


實際工作中,總體均數難以得到時,應用樣本統計量代替總體參數,經校正后,樣本方差計算公式:
S^2= ∑(X- ) ^2 / (n-1) S^2為樣本方差,X為變量,
為樣本均值,n為樣本例數。(無偏估計)
【標准差】
標准差(Standard Deviation) ,中文環境中又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標准差是方差的算術平方根。標准差能反映一個數據集的離散程度。平均數相同的兩組數據,標准差未必相同。標准差也被稱為標准偏差,或者實驗標准差,公式為

【協方差】
可以通俗的理解為:兩個變量在變化過程中是同方向變化,還是反方向變化,同向或反向程度如何?
你變大,同時我也變大,說明兩個變量是同向變化的,這時協方差就是正的。
你變大,同時我變小,說明兩個變量是反向變化的,這時協方差就是負的。
從數值來看,協方差的數值越大,兩個變量同向程度也就越大。反之亦然。

公式簡單翻譯一下是:如果有X,Y兩個變量,每個時刻的“X值與其均值之差”乘以“Y值與其均值,(其實是求“期望”,但就不引申太多新概念了,簡單認為就是求均值了)。
【相關系數】
相關關系是一種非確定性的關系,相關系數是研究變量之間
線性相關程度的量。由於研究對象的不同,相關系數有如下幾種定義方式。簡單相關系數:又叫相關系數或線性相關系數,一般用字母r 表示,用來度量兩個變量間的線性關系。

既然是一種特殊的協方差,那它:
1、也可以反映兩個變量變化時是同向還是反向,如果同向變化就為正,反向變化就為負。
2、由於它是標准化后的協方差,因此更重要的特性來了:它消除了兩個變量變化幅度的影響,而只是單純反應兩個變量每單位變化時的相似程度。
【參考文獻】
https://www.zhihu.com/question/20852004
https://baike.baidu.com/item/%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/3109424?fr=aladdin
https://blog.csdn.net/u010182633/article/details/45921929
https://www.zhihu.com/question/20099757