方差、協方差、協方差矩陣的概念及意義


期望
離散型隨機變量的一切可能的取值xi與對應的概率Pi(=xi)之積的和稱為該離散型隨機變量的數學期望(設級數絕對收斂),記為 E(x)。隨機變量最基本的數學特征之一。它反映隨機變量平均取值的大小。又稱期望或均值。
若隨機變量X的分布函數F(x)可表示成一個非負可積函數f(x)的積分,則稱X為連續性隨機變量,f(x)稱為X的概率密度函數(分布密度函數)。
 
方差
方差是各個數據與平均數之差的平方的平均數。在概率論和數理統計中,方差(英文Variance)用來度量隨機變量和其數學期望(即均值)之間的偏離程度。在許多實際問題中,研究隨機變量和均值之間的偏離程度有着很重要的意義。
方差刻畫了隨機變量的取值對於其數學期望的離散程度。
方差深入:
 
很顯然,均值描述的是樣本集合的中間點,它告訴我們的信息是很有限的,而標准差給我們描述的則是樣本集合的各個樣本點到均值的距離之平均。以這兩個集合為例,[0,8,12,20]和[8,9,11,12],兩個集合的均值都是10,但顯然兩個集合差別是很大的,計算兩者的標准差,前者是8.3,后者是1.8,顯然后者較為集中,故其標准差小一些, 標准差描述的就是這種“散布度”。之所以除以n-1而不是除以n,是因為這樣能使我們以較小的樣本集更好的逼近總體的標准差,即統計上所謂的 “無偏估計”。而方差則僅僅是標准差的平方
 
標准差
標准差(Standard Deviation) ,也稱均方差(mean square error),是 各數據偏離 平均數 的距離的平均數,它是離均差平方和平均后的方根,用σ表示。標准差是方差的算術平方根。 標准差能反映一個數據集的離散程度。平均數相同的,標准差未必相同。
 
協方差
協方差分析是建立在方差分析和回歸分析基礎之上的一種統計分析方法。 方差分析是從質量因子的角度探討因素不同水平對實驗指標影響的差異。一般說來,質量因子是可以人為控制的。 回歸分析是從數量因子的角度出發,通過建立回歸方程來研究實驗指標與一個(或幾個)因子之間的數量關系。但大多數情況下,數量因子是不可以人為加以控制的。
在概率論和統計學中,協方差用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。
 
上面幾個統計量看似已經描述的差不多了,但我們應該注意到, 標准差和方差一般是用來描述一維數據的,但現實生活我們常常遇到含有多維數據的數據集,最簡單的大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集,我們當然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的猥瑣程度跟他受女孩子歡迎程度是否存在一些聯系啊,嘿嘿~協方差就是這樣一種用來度量兩個隨機變量關系的統計量。
 
協方差的結果有什么意義呢?如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關系數”的定義),也就是說一個人越猥瑣就越受女孩子歡迎,嘿嘿,那必須的~結果為負值就說明負相關的,越猥瑣女孩子越討厭,可能嗎?如果為0,也是就是統計上說的“相互獨立”。
 
總結
 
必須要明確一點,協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的。
理解協方差矩陣的關鍵就在於牢記它計算的是不同維度之間的協方差,而不是不同樣本之間,拿到一個樣本矩陣,我們最先要明確的就是一行是一個樣本還是一個維度,心中明確這個整個計算過程就會順流而下,這么一來就不會迷茫了~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM