有時候我們根據需要要研究數據集中某些屬性和指定屬性的相關性,顯然我們可以使用一般的統計學方法解決這個問題,下面簡單介紹兩種相關性分析方法,不細說具體的方法的過程和原理,只是簡單的做個介紹,由於理解可能不是很深刻,望大家諒解。
1、Pearson相關系數
最常用的相關系數,又稱積差相關系數,取值-1到1,絕對值越大,說明相關性越強。該系數的計算和檢驗為參數方法,適用條件如下: (適合做連續變量的相關性分析)
(1)兩變量呈直線相關關系,如果是曲線相關可能不准確。
(2)極端值會對結果造成較大的影響
(3)兩變量符合雙變量聯合正態分布。
2、Spearman秩相關系數
對原始變量的分布不做要求,適用范圍較Pearson相關系數廣,即使是等級資料,也可適用。但其屬於非參數方法,檢驗效能較Pearson系數低。(適合含有等級
變量或者全部是等級變量的相關性分析)
3、無序分類變量相關性
最常用的為卡方檢驗,用於評價兩個無序分類變量的相關性。根據卡方值衍生出來的指標還有列聯系數、Phi、Cramer的V、Lambda系數、不確定系數等。
OR、RR也是衡量兩變量之間的相關程度的指標。
卡方檢驗用於檢驗兩組數據是否具有統計學差異,從而分析因素之間的相關性。卡方檢驗有pearson卡方檢驗,校正檢驗等,不同的條件下使用不同的卡方檢驗方
法,比如說滿足雙大於(40,5)條件的情況下要使用pearson卡方檢驗方法,另外的情況下要使用校正卡方檢驗方法。
說的不多,只是想在大家使用相關方法的時候清楚他們之間的差別,以及不同方法的適用條件是什么。