機器學習基礎 | 互相關系數和互信息異同探討


主要闡述互相關系數和互信息的區別和聯系,先說結論:

  • 對於高斯分布,兩者是等價的,且存在轉換公式,當\(X\)\(Y\)互相關系數為零時,兩者相互獨立,且互信息為零;當互相關系數為\(\pm1\)時,兩者完全相關且互信息為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相關系數只是反應了兩者之間的線性相關關系,而互信息則直接從概率分布角度考慮變量之間的相互獨立性,相互獨立一定不相關,不相關不一定相互獨立

互相關系數

互相關系數是研究變量之間 線性相關 程度的量,定義公式如下:

\[r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}} \]

其中:\(Cov(X,Y)\)\(X\)\(Y\)之間的協方差,\(Var[X]\)\(X\)的方差,\(Var[Y]\)為Y的方差。

  • \(Cov(X,Y)=E[(X-E[X])(Y-E(Y))]=E[XY]-E[X]E[Y]\)
  • \(Var[X]=E[(X-E[X])^2]=E[X^2]-E[X]^2\)

互相關系數的基本性質如下:

  1. \(|r(X,Y)|\leq 1\)

  2. \(r(X,Y)>0\),則兩者之間是正相關;若\(r(X,Y)<0\),則兩者之間是負相關

  3. \(X\)\(Y\)不相關,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),則\(X\)\(Y\)不相關,這里的不相關指的是兩者之間不存在線性關系,不能排除其他關系。

  4. \(X\)\(Y\)相互獨立,則\(r(X,Y)=0\);反過來,若\(r(X,Y)=0\),只能表明\(X\)\(Y\)不相關,兩者之間並不一定相互獨立。

注:

  • 相互獨立指的是\(p(x,y)=p(x)p(y), \forall x,y\)
  • 相互獨立一定不相關,不相關不一定相互獨立,例如\(x=\cos\alpha,Y=\sin\alpha\),兩者協方差為零,但是兩者不獨立。
  • 對於正態分布,不相關和獨立是等價的。

互相關系數的另一種表達式:

\[\lambda(X,Y)=\sqrt{1-\frac{det(C(Z))}{det(C(X))det(C(Y))}} \]

其中:\(Z=(X,Y),C(Z)=E[(Z-E[Z])\cdot(Z-E[Z])^T]\)是高維變量的協方差矩陣,若\(X\)\(Y\)都是一維向量,則

  • \(C(X)=Var[X]\)\(C(Y)=Var[Y]\)
  • \(det(C(Z))=Var[X]Var[Y]-Cov(X,Y)^2\)

因此:\(\mathbf{\lambda(X,Y)=|r(x,y)|}\)

互信息

兩個變量的互信息的定義如下:

\[I(X,Y)=\int p(x,y)\log\frac{p(x,y)}{p(x)p(y)}dxdy \]

定理:\(Z=(X,Y)\)服從高斯分布,則

\[I(X,Y)=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \]

證明: 只須證明如下兩點即可:

  1. \(I(X,Y)=H(X)+H(Y)-H(X,Y)\)

  2. 多元正態分布的信息熵:設\(X_1,X_2,...,X_n\)服從均值為\(\mu\),協方差矩陣為\(K\)的果園正態分布,則

    \[H(X_1,X_2,...,X_n)=\frac{1}{2}\log[(2\pi e)^ndet(K)] \]

上述兩點的證明按照互信息的定義和正態分布的概率密度函數直接推導即可,這里不再重復,感興趣的讀者可以查閱本文的參考文獻。根據上述兩點,我們有

\[\begin{aligned} I(X,Y)&=\frac{1}{2}\log[(2\pi e)det(C(X))]+\frac{1}{2}\log[(2\pi e)det(C(Y))]-\frac{1}{2}\log[(2\pi e)^2det(C(Z))]\\ &=-\frac{1}{2}\log\left(\frac{det(C(Z))}{det(C(X)det(C(Y)))}\right) \end{aligned} \]

證畢。

根據上述定理以及\(\lambda(X,Y)\),可以定義一個度量\(\Lambda(X,Y)\)

\[\Lambda(X,Y)=\sqrt{1-e^{2I(X,Y)}} \]

注: \(\Lambda(X,Y)\)具有如下性質:

  1. \(\Lambda(X,Y)\)是互信息的一種歸一化,取值范圍從\([0,\infty]\)歸一化到了\([0,1]\),且\(\Lambda(X,Y)\)同時包含了變量之間的線性關系和非線性關系
  2. \((X,Y)\)服從高斯分布時,\(\Lambda(X,Y)=\lambda(X,Y)\),即其此時和互相關系數等價
  3. 若令\(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\),則\(D_{MI}\)刻畫了變量之間的非線性關系,可用於指示變量之間是否存在非線性關系,分析系統的非線性動力學變化。

兩者的關系

根據上面的分析很容易得到兩者的關系如下:

  • 對於高斯分布,兩者是等價的,且存在轉換公式,當\(X\)\(Y\)互相關系數為零時,兩者相互獨立,且互信息為零;當互相關系數為\(\pm1\)時,兩者完全相關且互信息為無窮大,轉換公式:

    \[I(X,Y)=-\frac{1}{2}\log(1-r^2) \]

  • 一般情形,互相關系數只是反應了兩者之間的線性相關關系,而互信息則直接從概率分布角度考慮變量之間的相互獨立性,相互獨立一定不相關,不相關不一定相互獨立

更為重要的是:

  • \(D_{MI}(X,Y)=\Lambda(X,Y)-\lambda(X,Y)\) 刻畫了變量之間的非線性關系,可用於指示變量之間是否存在非線性關系,分析系統的非線性動力學變化。

參考文獻


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM