什么是相關性分析:
相關性分析研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。
相關分析是一種簡單易行的測量定量數據之間的關系情況的分析方法。可以分析包括變量間的關系情況以及關系強弱程度等
有點類似於特征提取
常用的相關性分析方法
協方差及協方差矩陣
協方差用來衡量兩個變量的總體誤差,如果兩個變量的變化趨勢一致,協方差就是正值,說明兩個變量正相關。如果兩個變量的變化趨勢相反,協方差就是負值,說明兩個變量負相關。如果兩個變量相互獨立,那么協方差就是0,說明兩個變量不相關。協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。
協方差通過數字衡量變量間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變量時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數
相關系數
相關系數(Correlation coefficient)是反應變量之間關系密切程度的統計指標,相關系數的取值區間在1到-1之間。1表示兩個變量完全線性相關,-1表示兩個變量完全負相關,0表示兩個變量不相關。數據越趨近於0表示相關關系越弱。
person correlation coefficient(皮爾森相關性系數)
其中Rxy表示樣本相關系數,cov(x,y)表示樣本協方差,Sx表示X的樣本標准差,Sy表示y的樣本標准差。用於度量兩個變量X和Y之間的相關(線性相關)
spearman correlation coefficient(斯皮爾曼相關性系數)
它是衡量兩個變量的依賴性的 非參數 指標。
kendall correlation coefficient(肯德爾相關性系數)
回歸分析->一元和多元
回歸分析(regression analysis)是確定兩組或兩組以上變量間關系的統計方法。回歸分析按照變量的數量分為一元回歸和多元回歸。兩個變量使用一元回歸,兩個以上變量使用多元回歸。進行回歸分析之前有兩個准備工作,第一確定變量的數量。第二確定自變量和因變量。
偏相關分析
偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程,判定指標是相關系數的R值。