相關性分析


什么是相關性分析:

相關性分析研究現象之間是否存在某種依存關系,對具體有依存關系的現象探討相關方向及相關程度。

相關分析是一種簡單易行的測量定量數據之間的關系情況的分析方法。可以分析包括變量間的關系情況以及關系強弱程度等

有點類似於特征提取

常用的相關性分析方法

協方差及協方差矩陣

協方差用來衡量兩個變量的總體誤差,如果兩個變量的變化趨勢一致,協方差就是正值,說明兩個變量正相關。如果兩個變量的變化趨勢相反,協方差就是負值,說明兩個變量負相關。如果兩個變量相互獨立,那么協方差就是0,說明兩個變量不相關。協方差只能對兩組數據進行相關性分析,當有兩組以上數據時就需要使用協方差矩陣。

協方差通過數字衡量變量間的相關性,正值表示正相關,負值表示負相關。但無法對相關的密切程度進行度量。當我們面對多個變量時,無法通過協方差來說明那兩組數據的相關性最高。要衡量和對比相關性的密切程度,就需要使用下一個方法:相關系數

相關系數

相關系數(Correlation coefficient)是反應變量之間關系密切程度的統計指標,相關系數的取值區間在1到-1之間。1表示兩個變量完全線性相關,-1表示兩個變量完全負相關,0表示兩個變量不相關。數據越趨近於0表示相關關系越弱。

 

person correlation coefficient(皮爾森相關性系數)

其中Rxy表示樣本相關系數,cov(x,y)表示樣本協方差,Sx表示X的樣本標准差,Sy表示y的樣本標准差。用於度量兩個變量X和Y之間的相關(線性相關)

spearman correlation coefficient(斯皮爾曼相關性系數)

它是衡量兩個變量的依賴性的 非參數 指標。 

kendall correlation coefficient(肯德爾相關性系數)

回歸分析->一元和多元

回歸分析(regression analysis)是確定兩組或兩組以上變量間關系的統計方法。回歸分析按照變量的數量分為一元回歸和多元回歸。兩個變量使用一元回歸,兩個以上變量使用多元回歸。進行回歸分析之前有兩個准備工作,第一確定變量的數量。第二確定自變量和因變量。

回歸分析法的步驟如下:
1、根據自變量與因變量的現有數據以及關系,初步設定回歸方程;
2、求出合理的回歸系數;
3、進行 相關性檢驗,確定相關系數;
4、在符合相關性要求后,即可根據已得的回歸方程與具體條件相結合,來確定事物的未來狀況,並計算預測值的置信區間。

偏相關分析

偏相關分析是指當兩個變量同時與第三個變量相關時,將第三個變量的影響剔除,只分析另外兩個變量之間相關程度的過程,判定指標是相關系數的R值。

p值是針對原假設H0:假設兩變量無線性相關而言的。一般假設檢驗的顯著性水平為0.05,你只需要拿p值和0.05進行比較:如果p值小於0.05,就拒絕原假設H0,說明兩變量有線性相關的關系,他們無線性相關的可能性小於0.05;如果大於0.05,則一般認為無線性相關關系,至於相關的程度則要看相關系數R值,R越大,說明越相關。越小,則相關程度越低。偏相關分析也稱凈相關分析,它在控制其他變量的線性影響的條件下分析兩變量間的線性相關性,所采用的工具是偏相關系數(凈相關系數)。控制變量個數為一時,偏相關系數稱為一階偏相關系數;控制變量個數為二時,偏相關系數稱為二階相關系數;控制變量個數為為零時,偏相關系數稱為零階偏相關系數,也就是相關系數
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM