先說一下協方差和相關系數
1.協方差
公式:$$ Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]$$
其中,\(\mu_x\)和\(\mu_y\)是隨機變量\(X\) 和\(Y\)的均值,兩個隨機變量的值對其均值的偏差相乘,然后再求期望。
如果\((X-\mu_x)\)與\((Y-\mu_y)\)同號,則乘積為正,異號則乘積為負。那么,協方差的正負責表現出了兩個值的運動變化,通俗來說:
X(Y)變大同時Y(X)也變大,說明兩個變化時同向變化的,這時候協方差為正(正相關)。
反之,X(Y)變小但是Y(X)變大,兩個變化的方向是相反的,這時候協方差為負(負相關)。
參考:知乎回答:如何通俗易懂地解釋協方差和相關系數
2.相關系數
如果不同的隨機變量他們的波動性(幅度)不同,有的波動很大,有的波動比較平穩,那這個時候,比如比較隨機變量X與隨機變量Y和Z哪個更相關,即使大家都很相關,但是Y和Z的幅度有很大的區別,cov(X,Y)和cover(X,Z)的值差距就會很大。
因此,在比較隨機變量的相關性的時候,協方差的值就能不准確衡量,因為沒有“歸一化”處理。
因此引出 相關系數:
對於二維隨機變量\((X,Y)\),其各自的方差\(Var(x) = \sigma_X^2, Var(Y) = \sigma_Y^2\),那么:
3.Gram矩陣
定義:
由此可見,Gram matrix(簡稱G矩陣)是對向量\(A\)自身分布特征的一種描述,如果每一維代表一個特征,那么總共就有\(n\)個特征,G矩陣就是這n個特征向量之間的內積組成的矩陣,那么,可以被看做n個特征之間的偏心協方差矩陣(沒有減去均值),在一定程度上,其正負性可以判斷其特征之間的相關性。哪兩個特征同時出現,哪兩個特征此消彼長等等...
性質:
G矩陣是半正定矩陣
G的行列式非0時,X是線性無關的(充分必要)(可用來判定X是否線性無關,很重要)