關聯分析(相關分析):用於考察變量間數據關聯密切程度的統計分析方法,幾乎所有涉及到多個變量的假設檢驗分析,這些都可以看作是這樣變量間的關聯分析
相關分析的分類
按照變量數量
一個變量 vs 另一個變量(平常指的就是這個)
一個變量 vs 一組變量
一組變量 vs 另一組變量
多組變量間的相關分析
按照變量種類
連續變量
有序分類變量
無序分類變量
各種相關系數
連續 vs 連續 :Pearson相關系數
Spearman秩相關系數
有序 vs 有序:Gamma系數等
無序 vs 無序 :列聯系數等
基於卡方統計量進一步推導而來
無方向,0~1
OR/RR:一類特殊的關聯強度指標
連續 vs 分類:Eta
實質為方差解釋度
統計圖表在相關分析中至關重要
連續變量:用散點圖確認關聯趨勢是否為直線
分類變量:分組條圖、馬賽克圖(分組百分條圖)等工具
兩連續變量的相關
直線相關
曲線相關,如果此時直接進行直線相關分析,有可能得出無相關性的結論
正相關、負相關
完全相關:不屬於統計學的研究范疇
pearson相關系數r=協方差/方差x*方差y
變量x和變量y需服從正態分布的前提假設,值從-1到1,0表示不相關
pearson相關系數的檢驗
H0:兩變量間無直線相關關系,ρ=0
t檢驗
pearson相關系數的適用條件
必須使線性相關
極端值對相關系數影響計算極大,因此要慎重考慮和處理
要求相應的變量呈雙變量正態分布,有一定的耐受性
如果相關分析的兩變量x、y並不符合使用條件時,r就不能正確反應x,y間的相關性,這時可以使用spearman秩相關系數rs,先對數據做秩變換,然后計算兩組秩間的直線相關系數
# 相關分析 # 先考察圖形 ccss.plot.scatter('s3', 'index1')
ss.pearsonr(ccss.s3, ccss.index1) # 0.21907931508110484相關系數,后一個是p值,拒絕了不相關
(-0.21907931508110484, 6.243011312736348e-14)
相對危險度RR:表示兩種情況下發病密度或者說發病概率之比
Pt:實驗組人群反應陽性概率
Pc:對照組人群反應陽性概率
如果RR>1,說明相應的自變量增加,會導致個體發病/死亡風險增加若干倍
優勢比OR:RR的計算需要得到各組的反應概率,這在回顧性研究中很難滿足,此時用OR代替RR
OR:為下列兩種比例之比
反應陽性人群中實驗因素有無的比例
反應陰性人群中實驗因素有無的比例
import numpy as np import statsmodels.stats.contingency_tables as tbl # 這里必須使用numpy進行轉換,否則后續計算可能報錯 table5 = tbl.Table2x2(np.asarray(pd.crosstab(ccss.Ts9, ccss.O1))) table5
table5.summary() # Odds ratio是or,Estimate是or或者rr值,LCB置信區間
Estimate | SE | LCB | UCB | p-value | |
---|---|---|---|---|---|
Odds ratio | 0.201 | 0.135 | 0.300 | 0.000 | |
Log odds ratio | -1.603 | 0.203 | -2.001 | -1.204 | 0.000 |
Risk ratio | 0.278 | 0.196 | 0.392 | 0.000 | |
Log risk ratio | -1.281 | 0.177 | -1.627 | -0.935 | 0.000 |