OR、HR、RR:三個經常把人弄暈的概念


AME統計028|OR、HR、RR:三個經常把人弄暈的概念

Published at: February 15, 2016 2015年第1卷第S1期

胡志德 
 
 
關鍵詞:
 

編者按:【AME 統計】專欄自開設以來,一直以向讀者推送各種統計學干貨為宗旨,鼓勵自由討論。自本期起,統計學專欄將開設“有獎問答”環節(詳情請見下文),歡迎讀者踴躍參與,與我們一起學習,共同進步。

 


在醫學統計學中,有三個關於比值的概念,分別為相對危險度(relative risk,RR,也稱 risk ratio)、風險比(hazard ratio,HR)和優勢比(odds ratio,OR)。很多同行一看見這三個概念就感覺惡心反胃、頭皮發麻、竇性心動過速,大有霧里看花,水中望月的感覺。在此,筆者擬談談如何正確理解這三個概念的區別和聯系。

我們以病因學研究為例,先談談 OR 與 RR 的區別,因為這兩個指標均可以從四格表中衍生出來。我們先來看看兩個關於吸煙與肺癌的例子:

例1:為明確吸煙與肺癌的關系,某研究者在 1985 年隨機調查了某社區的 10000 名居民,並每年對其進行隨訪,以觀察其肺癌的發生狀況在剛剛進行調查的時候,他就發現這 10000 個居民中有 3000 人吸煙,7000 人不吸煙。在本例中,我們假定吸煙和不吸煙居民之間不存在交叉污染,即吸煙的 3000 人永遠不會戒煙,而不吸煙的 7000人 也永遠不會吸煙。且這 10000 個人不會失訪。隨訪 30 年后,吸煙的 3000 人中有 300 人得了肺癌。相比之下,不吸煙的 7000 人中僅有 70 人患肺癌。如表1所示:

表1 吸煙與肺癌的關系

 

患肺癌

無肺癌

吸煙

300(a)

2700(b)

不吸煙

70(c)

6930(d)

 

RR 的定義是:暴露組發病率或死亡率與非暴露組發病率或死亡率之比。

在本案例中,吸煙人群 30 年內發生肺癌的比例為 0.10(300/3000),而不吸煙人群發生肺癌的比例為 0.01(70/7000)。因此,與非吸煙人群相比,吸煙人群發生肺癌的相對危險度(RR)為:0.10/0.01=10,即可以認為吸煙人群 30 年內發生肺癌的風險是非吸煙人群的 10 倍。實際上,不難看出,RR 在四格表中的計算公式就是:RR=(a/(a+b))/(c/(c+d))。

例2:某醫生懷疑吸煙與肺癌有關,因為他發現自己經手的很多肺癌患者都有吸煙史。於是他在 2015 年找了 100 名肺癌患者和 100 名健康對照,回溯了他們的過去 30 年的吸煙史,結果發現:100 名肺癌患者中 90 名患者有吸煙史,100 名健康個體中僅有20人有吸煙史。如表2所示:

表2 吸煙與肺癌的關系

 

吸煙

不吸煙

肺癌

90(a)

10(b)

健康個體

20(c)

80(d)

 

OR 的定義是:病例組中暴露人數與非暴露人數的比值除以對照組中暴露人數與非暴露人數的比值。這里的“暴露”其實就是指“吸煙”。在本案例中,肺癌組暴露人數與非暴露人數的比值為 9(90/10),而在健康個體中,暴露人數與非暴露人數的比值為 0.25(20/80)。因此,OR 為:9/0.25=36。由此我們也不難看出,OR 在四格表中的計算公式為:OR=ad/bc。

部分讀者看到這里可能覺得有點糊,按理說 RR 的臨床解釋最為清晰,說得通俗點就是:吸煙個體發生肺癌的風險是非吸煙個體的多少倍。相比之下,OR 的臨床解釋則要復雜得多。為何表1用 RR 來描述吸煙與肺癌的關聯強度,表2則要用 OR 來描述呢?按理說,只要是四格表,都可以計算 RR,為什么流行病學家還搞個 OR 在這里呢?的確,所有的四格表都可以計算 RR,比如我們將表2調整為如下格式(表3),當然也可以計算 RR:

表3 吸煙與肺癌的關系

 

患肺癌

無肺癌

吸煙

90

20

不吸煙

10

80

 

RR 的計算過程為:吸煙人群中有 110 名個體吸煙,90 例發生了肺癌,肺癌發生風險約為 0.82(90/110);不吸煙的 90 名個體中,僅有 10 人發生肺癌,因此肺癌的發生風險是 0.11(10/90)。因此與不吸煙的個體相比,吸煙個體發生肺癌的風險約為 7.45 倍(0.82/0.11)。

然而,表2絕對不能轉化成表3的格式,這是有研究的性質決定的,表1的數據來源於隊列研究,表2的數據來源於病例對照研究。

如前述章節(有病例和對照的研究就是病例-對照研究?實驗組和對照組的樣本量一定要“均衡”才行?)所述,隊列研究和病例對照研究有很大的區別,這些區別概括起來就是:隊列研究是前瞻性研究,是由因索果的研究;病例對照研究是回顧性研究,是由果索因的研究。前瞻性研究最大的優勢在於:“真實世界”尚未發生,因為研究者可以詳盡地描述“真實世界”,體現在:抽取的 10000 名研究對象實際上就是來自於“真實世界”的,因為研究者是從普通人群中隨機抽取研究對象的;研究對象中吸煙個體的比例為 0.30,也是反映了真實情況,即現實生活中,吸煙個體的比例就是 0.30;隨訪 30 年后,總共有 370 人發生了肺癌(患病率為 3.7%),這一患病率也是來源於真實世界的結論。由於其得出的 RR 值是來自於真實世界的,因此具有“外推性”,或者說“泛化性”,可以直接地告訴人們吸煙的患者發生肺癌的風險是不吸煙患者的多少倍。

相比之下,病例對照研究就沒有那么簡單了,因為病例對照研究是先知道結局,再去回溯原因,此時,“真實世界”已經一去不復返了,哪里還能完整地回溯回來?研究者募集了 100 名肺癌患者和 100 名健康個體,實際上就是假定了肺癌的患病率為 0.50,這一數字顯然不是來自於真實世界。在真實世界中,過去 30 年肺癌的發生了是多少呢?沒有人會知道這個精確的數字。因此,如果強行用 RR 來展示病例對照研究結果的話,沒有多大的臨床價值,因為這個 RR 不是來自真實世界的,不具備“外推性”。流行病學家不得已,才在這里提出了一個 OR 的概念,用於反映暴露因素與結局事件的關聯強度。如前所述,OR 這個指標在四格表中的計算公式:OR=ad/bc,實際上也可以表示為(a/b)/(c/d)。理論上講,不管實驗組樣本為多少例,a/b 是不變的(當然可能會有一些小的波動,但屬於抽樣誤差);同理,不管對照組樣本量如何變化,c/d 的比例也是固定的。因此,OR 最大的優勢的是不受實驗組和對照組比例(或者說患病率)的影響。這也就是為什么在病例對照研究中人們喜歡用 OR 來表示暴露因素與結局事件關聯強度的原因所在。

我們不妨來做一個根本就不存在的假設。我們假設表1中的隊列研究的資料是完全存在的,只是沒有發表。后來,有人用病例對照的研究思路來闡述吸煙與肺癌的關系。從表1我們得知,過去三十年,這個社區總共發生了 370 例肺癌,其中 300 個肺癌患者具有吸煙史,70 個不具有吸煙史。因此如果從中抽取 100 例肺癌的話,理論上說就應該是 81 個肺癌患者有吸煙史,19 個肺癌患者沒有吸煙史。健康個體一共有 9630 個,其中 2700 個吸煙,6930 個不吸煙,如果從這 9630 個健康個體中抽取 100 人的話,就應該有 28 個人吸煙,72 個人不吸煙。於是可以得出下表(表4):

表4 吸煙與肺癌的關系

 

患肺癌

無肺癌

吸煙

81

28

不吸煙

19

72

 

根據表4的內容不難算出,與非吸煙個體相比,吸煙患者發生肺癌的 RR 是 3.56(計算過程略),該 RR 值與表1的 RR 值(10)相距甚遠。假定我們抽取的健康個體不是 100 人,而是 200 人,則可以算出 RR 為 5.07(計算過程略)。由此可知,RR 在很大程度上受患病率的影響,病例對照研究之所以不能計算 RR,就是因為其患病率是假設的,就算勉強計算出 RR 也不具備外推性,沒啥意思。

OR 的臨床解釋是什么呢?筆者一般不喜歡去解釋,因為解釋的文字讀起來也很繁瑣,且個人認為臨床價值不高。對於我們而言,只需要記住 OR 大於 1 表示暴露因素是危險因素,OR 小於 1 則表示暴露因素是保護因素即可。

前述 OR 和 RR 都來源於四格表,即僅僅考慮了一個暴露因素(吸煙)與結局事件(肺癌)的關系。而在現實中,疾病的發生往往不是單一因素作用的結果。比如:假定吸煙的人都不太喜歡吃水果,而水果攝入過少也可以導致肺癌。因此很有可能出現一種極端的情況,其實吸煙與肺癌無關,我們之所以在隊列研究或病例對照研究中觀察到了吸煙與肺癌的關系,完全是“吃水果”作怪。此時,我們將“吃水果”稱為“混雜因素”,即表示他們可能會干擾暴露因素與結局變量之間的關系。為了排除混雜因素的干擾,需要在統計學上做一些校正,比較常用的方法就是 Cox 風險比例模型和 logistic 回歸模型。一說到 Cox 風險比例模型和 logistic 回歸模型,估計很多讀者的腦海里馬上閃現兩個概念,HR 和 OR。沒錯,這里的 OR 和四格表里面的 OR 其實就是一個意思,只是二者的計算方法不同。來自於 logistic 回歸的 OR 可以校正很多混雜因素,因此是一個多因素校正的 OR,而來自於四格表的 OR 只考慮了單一因素,因此可以簡單理解為單因素分析的 OR。在撰寫論文的過程中,一般認為多因素校正的 OR 更可靠。實際上,如果把四格表的數據用單因素的 logistic 回歸方程計算,得到的 OR 是一樣的,有興趣的讀者可以自己算。

Cox 模型與 logistic 回歸有很多相似之處,都可以用於校正混雜因素。根據 Cox 模型可以計算出 HR 值,HR 值的解釋與 RR 幾乎一致,即表示暴露組患病的概率為非暴露組的多少倍。但是與 logistic 回歸不同的是,Cox 模型除了可以校正混雜因素外,還考慮了結局事件發生的時間。因此,HR 不能簡單等同於 RR,只能說 HR 是考慮了時間因素的 RR。說得這里,估計部分讀者有點糊,啥叫“考慮了時間因素的 RR”?我們不妨來做這樣一個假設:在表1中(隊列研究)中,RR 為 10,我們可以理解為:與不吸煙人群相比,吸煙人群在 30 年內患肺癌的風險是不吸煙人群的10倍。注意“30 年內患肺癌的風險”,這是一個很含糊的說法:有人可能在隨訪開始第二年就發生肺癌,有人可能到隨訪快結束時(第三十年)才發生肺癌。如果構建四格表,這兩個肺癌是同等看待的,但實際上,這兩種肺癌的“社會危害性”顯然是不能相提並論的!畢竟后者很有可能會多活二十多年。因此,我們在考慮結局事件是否發生的同時,往往還要考慮結局事件發生的時間!這就是 HR 存在的價值!

總結一下本文,以研究疾病發生機制的研究為例來談談 RR,OR 和 HR 的區別,實際上,研究疾病預后的研究也可以類推。

 

RR:主要用於隊列研究,可以從四格表衍生出來,表示暴露患者發生疾病的風險是非暴露患者的多少倍。

OR:主要用於病例對照研究和橫斷面研究,可以從四格表中衍生出來,也可以由logistic回歸計算得來,表示病例組中暴露人數與非暴露人數的比值除以對照組中暴露人數與非暴露人數的比值。

HR:主要用於隊列研究,主要由 Cox 風險比例模型衍生出來,是考慮了時間因素的 RR。

 

最后留下一個問題給大家思考:

對前瞻性隊列研究數據的分析,可以用 logistic 回歸計算 OR 值嗎?為什么?

轉載自:胡志德 http://kysj.amegroups.com/articles/3923


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM