協方差,皮爾遜相關性,卡方檢驗


1、協方差

協方差(Covariance)在概率論統計學中用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。

期望值分別為E(X)=\muE(Y)=\nu的兩個具有有限二階實數隨機變量X 與Y 之間的協方差定義為:

{\displaystyle \operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu .}

協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。

2、

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差標准差的商:

{\displaystyle \rho _{X,Y}={\mathrm {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={E[(X-\mu _{X})(Y-\mu _{Y})] \over \sigma _{X}\sigma _{Y}}}

上式定義了總體相關系數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的協方差和標准差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:

{\displaystyle r={\frac {\sum \limits _{i=1}^{n}(X_{i}-{\overline {X}})(Y_{i}-{\overline {Y}})}{{\sqrt {\sum \limits _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}}{\sqrt {\sum \limits _{i=1}^{n}(Y_{i}-{\overline {Y}})^{2}}}}}}
數據標准化之后,(服從標准正太分布的話)夾角余弦,皮爾遜相關度是一樣的
3、卡方檢驗
這個還不是太明白數學意義,這是怎么來的,為啥這么算???,而且沒實際使用過。
具體介紹參考這篇博客

https://blog.csdn.net/bitcarmanlee/article/details/52279907 

參考資料:

https://www.zhihu.com/question/19734616

https://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM