第六節 數據的關聯性分析


關聯分析(相關分析):用於考察變量間數據關聯密切程度的統計分析方法,幾乎所有涉及到多個變量的假設檢驗分析,這些都可以看作是這樣變量間的關聯分析

相關分析的分類

  按照變量數量

    一個變量 vs 另一個變量(平常指的就是這個)

    一個變量 vs 一組變量

    一組變量 vs 另一組變量

    多組變量間的相關分析

  按照變量種類

    連續變量

    有序分類變量

    無序分類變量

各種相關系數

  連續 vs 連續 :Pearson相關系數

    Spearman秩相關系數

  有序 vs 有序:Gamma系數等

  無序 vs 無序 :列聯系數等

    基於卡方統計量進一步推導而來

    無方向,0~1

    OR/RR:一類特殊的關聯強度指標

  連續 vs 分類:Eta

    實質為方差解釋度

統計圖表在相關分析中至關重要

  連續變量:用散點圖確認關聯趨勢是否為直線

  分類變量:分組條圖、馬賽克圖(分組百分條圖)等工具

兩連續變量的相關

  直線相關

  曲線相關,如果此時直接進行直線相關分析,有可能得出無相關性的結論

  正相關、負相關

  完全相關:不屬於統計學的研究范疇

pearson相關系數r=協方差/方差x*方差y

  變量x和變量y需服從正態分布的前提假設,值從-1到1,0表示不相關

pearson相關系數的檢驗

  H0:兩變量間無直線相關關系,ρ=0

  t檢驗

pearson相關系數的適用條件

  必須使線性相關

  極端值對相關系數影響計算極大,因此要慎重考慮和處理

  要求相應的變量呈雙變量正態分布,有一定的耐受性

如果相關分析的兩變量x、y並不符合使用條件時,r就不能正確反應x,y間的相關性,這時可以使用spearman秩相關系數rs,先對數據做秩變換,然后計算兩組秩間的直線相關系數

# 相關分析
# 先考察圖形
ccss.plot.scatter('s3', 'index1')

ss.pearsonr(ccss.s3, ccss.index1)  # 0.21907931508110484相關系數,后一個是p值,拒絕了不相關
(-0.21907931508110484, 6.243011312736348e-14)

相對危險度RR:表示兩種情況下發病密度或者說發病概率之比

  Pt:實驗組人群反應陽性概率

  Pc:對照組人群反應陽性概率

如果RR>1,說明相應的自變量增加,會導致個體發病/死亡風險增加若干倍

優勢比OR:RR的計算需要得到各組的反應概率,這在回顧性研究中很難滿足,此時用OR代替RR

OR:為下列兩種比例之比

  反應陽性人群中實驗因素有無的比例

  反應陰性人群中實驗因素有無的比例

import numpy as np
import statsmodels.stats.contingency_tables as tbl
# 這里必須使用numpy進行轉換,否則后續計算可能報錯
table5 = tbl.Table2x2(np.asarray(pd.crosstab(ccss.Ts9, ccss.O1)))
table5
table5.summary()  # Odds ratio是or,Estimate是or或者rr值,LCB置信區間
  Estimate SE LCB UCB p-value
Odds ratio 0.201   0.135 0.300 0.000
Log odds ratio -1.603 0.203 -2.001 -1.204 0.000
Risk ratio 0.278   0.196 0.392 0.000
Log risk ratio -1.281 0.177 -1.627 -0.935 0.000

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM