獨立性檢驗表明的是兩者是否有關系,相關性檢驗說明兩者成什么樣的關系,無論是否有關系都可以表示出回歸方程
1 相關性檢驗
簡單相關系數:度量定量變量間的線性相關關系(非相關性)
復相關系數:因變量與多個自變量之間的關系
偏相關系數:反應矯正其他變量后某一變量與另一變量的相關關系,校正:嘉定其他變量取值均為平均數
典型相關系數:主成分分析后得到性的線性無關的綜合指標,通過新的綜合指標間的相關系數研究原來的各組指標之間的整體相關性
1.1 皮爾森相關系數
1.1.1 協方差
二維隨機變量(X,Y),X與Y之間的協方差定義為\(Cov(X,Y) = E{[X - E(X)][Y - E(Y)]}\)
E為期望
協方差>0,正相關;協方差<0,正相關;協方差=0,不相關
1.1.2 相關系數
相關系數定義:\(Corr(X,Y) = \frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}=\frac{Cov(X,Y)}{\sigma_x \sigma_y}\);Var為方差
Corr(X,Y)=1的時候,說明兩個隨機變量完全正相關;Corr(X,Y)=-1的時候,說明兩個隨機變量完全負相關;Corr(X,Y)為0,表示X與Y不相關,這里的不相關指的是X與Y沒有線性關系
2 獨立性檢驗
2.1 卡方獨立性檢驗Chi-Square Test
在大數據運營場景中,通常用在某個變量(或特征)值是不是和應變量有顯著關系。
普通的思維方式,是拿已經知道的結果(硬幣是均衡的,沒有人做過手腳),推測出會出現的不同現象的次數。而卡方檢驗是拿觀察到的現象(投正面或反面的次數或者頻數),來判斷這個結果(硬幣是不是均衡的)。
卡方檢驗公式為:\(\chi^2 = \sum \frac{(observed - expected)^2}{expected}\)
方法:1.公式求值。2.自由度:假設僅有X1 X2,X1若給定,X2不自由?則自由度為2-1即1。3.置信度:自己設
拿到這3個信息,去查表,因為0.72小於查表得到的3.841,所以我們得出這個硬幣是均衡的結論。