AME統計025|實驗組和對照組的樣本量一定要“均衡”才行?
“隨機、對照、重復、均衡”是統計學和流行病學老師在課堂上經常強調的內容之一。受此影響,很多同行在開展科研的過程中不分青紅皂白地遵循這四大原則。特別是對於“均衡”這一概念,很多研究者總是覺得要是實驗組和對照組不平衡(樣本量相差甚遠)的話,研究結果就不夠可靠。殊不知,並非所有的研究都要遵循“均衡”原則的。而且,部分研究如果嚴格遵循“均衡”原則的話,不僅無助於研究質量的提升,反而會削弱研究的論證強度。
實際上,“均衡”這一原則主要是針對干預性研究提出來的,旨在維持較高的統計效能。而在醫學研究領域,除了干預性研究(比如隨機對照試驗)外,還有觀察性研究和診斷准確性試驗,這些研究就不需要研究者老老實實地遵循“均衡”原則了。對於觀察性研究和診斷准確性試驗而言,最重要的設計要點之一就是要體現“真實世界”,或者說樣本來源及構成比要接近於臨床實際。
1、診斷准確性試驗
理想的診斷准確性試驗屬於單門設計,即設立統一的納入排除標准,連續或隨機招募所有符合條件的病人,然后根據金標准將病人分為疾病組和對照組(非疾病組),然后采用受試者工作特征曲線(ROC)或四格表評價某一手段對疾病的鑒別能力。此外,為了保證研究質量,提升論證強度,還應該遵循雙盲、統一金標准、全部接受金標准、金標准獨立等原則。從上述設計原則我們不難看出,實驗組和對照組是自然形成的,無需刻意將比例控制在1:1。
比如:某研究分析了 NT-proBNP 在呼吸困難人群中對心力衰竭的診斷價值(J Am Coll Cardiol 2010; 55:2062-2076.),在設立了統一的納入標准(因呼吸困難而就診)和排除標准(外傷)后,研究者采用連續招募的方式募集到了 1641 例呼吸困難的人群,並采用金標准將病人划分為心衰病人(n=568)和非心衰病人(n=1073)。在此研究中,實驗組(心衰病人)和對照組(非心衰病人)的樣本之比大約是 1:2 左右。
按照“均衡”原則來衡量的話,這項研究有一個明顯的設計缺陷:試驗組和對照組的樣本量居然不均衡。J Am Coll Cardiol 這種喪心病狂到令人發指的雜志怎么會接受這樣一篇用腳拇指都能看出的有漏洞的論文呢?
實際上,試驗組和對照組不平衡的問題並不是這項研究的缺陷,反而是研究的亮點。我們知道,在診斷試驗中,診斷敏感性和特異性與診斷界值的取舍密切相關,而診斷界值的取舍又在很大程度上取決於待評價試驗結果在實驗組和對照組中的分布狀況。如果刻意將實驗組和對照組比例控制到 1:1,當然也能進行診斷准確性方面的統計學分析,但是問題在於,這種統計分析結果不具備外推性(clinical application),或者說其結論不能直接用於指導臨床工作,因為實驗組和對照組的比例完全是虛擬的,與真實世界的情況相差甚遠。在真實世界中,如果您接診了 1641 個因呼吸困難而就診的人群的話,確實只能觀察到約 568 例心衰病人。因此,基於這樣一個人群的研究結果,顯然才會具有外推性。實際上,這種實驗設計理念在診斷准確性試驗質量評價工具(QUADAS)中也得到了充分的體現。感興趣的讀者可以閱讀 QUADAS 的相關內容。
2、隊列研究
隊列研究主要有兩種,一種是研究疾病發生風險,另一種則是研究疾病的預后。我們以前一種隊列研究為例,重點談一談實驗組和對照組是否需要平衡的問題。
2012 年的 BMJ 雜志刊登了一篇文章,分析類風濕因子(RF)與類風濕關節炎(RA)發病風險的關系。該研究於 1982 年左右納入了 9712 名無 RA 的普通人群進行了分析,檢測了這些人群當時的 RF 水平,隨后對這些研究對象進行了長達 28 年的隨訪,發現有 183 人發展為 RA,之后研究者采用了 Kaplan-Meier 法和 Cox 模型分析了基線 RF 與未來 RA 發病風險的關系。在這個研究中,實驗組就是在隨訪過程中發生 RA 的患者(n=183),對照組則是剩下的人群(n=9529),兩者的樣本量可謂相差甚遠。但是就這樣一個不“均衡”的研究,卻能“堂而皇之”地發表在大名鼎鼎的 BMJ 上,因為這樣的研究設計才是真實世界的研究!
眾所周知,在隊列研究中,一般采用 Kaplan-Meier 法和 Cox 模型去分析暴露因素與結局事件之間的關系,通過 Cox 模型中的風險比(HR)來反映暴露因素與結局事件之間的關系密切程度。HR 具有極為重要的臨床價值,因為它直接反映了暴露因素與結局事件的關聯性。比如:與 RF<25 IU/ml 的患者相比,RF>100 IU/ml 的個體的 HR 為 5,其對應的臨床解釋為:RF>100 IU/ml 的個體在未來三十年內發生 RA 的風險是 RF<25 IU/ml 的人群的 5 倍。
在 Cox 模型中,HR 在很大程度上受樣本構成比的影響。假如在上述研究中,我們刻意將實驗組和對照組的比例控制在 1:1(采用巢式病例對照研究的模式),當然也能用 Cox 模型算出一個 HR,但是這個 HR 顯然不能外推,不能用於臨床實踐,因為這個 HR 是經虛擬世界的研究出來的,在這個虛擬世界中,RA 和對照組的構成比是 1:1,即有一半的研究對象在隨訪過程中發生了 RA!而在真實世界中,在三十年的隨訪過程中,發生 RA 的僅為少數。
3、基於回顧性資料的觀察性研究或診斷准確性試驗也應該盡量體現真實世界
前面兩個例子都是基於前瞻性資料的研究,在這些研究中,真實世界尚未開始,因為研究者可以采用各種方法去確保研究對象、研究過程接近於真實世界。但是如果是基於回顧性資料的研究,真實世界早已一去不復返,又該怎么辦呢?筆者認為,即使是基於回顧性資料的研究,也應該盡量將研究設計得接近真實世界。
筆者以 2015 年發表在 Am J Cardiol(2015; 115:57-61.)上面的一篇基於回顧性資料的隊列研究來談談如何在此類研究中體現真實世界。研究者欲研究中性粒細胞/淋巴細胞比值(NLR)與心力衰竭患者預后的關系,因此從所在醫院的電子病歷庫中提取 2007 年至 2010 年期間求治於克利夫蘭診所的所有進展期心力衰竭患者的病歷資料,共計 549 份。進一步分析后,發現其中有 22 份病例上沒有 NLR 的結果,因此只能對剩下的 527 份病例進行分析。研究者通過社保系統查詢到了這 527 名研究對象的遠期預后,發現在隨訪期間共有 121 例患者接受了心臟移植,158 例患者死亡。經過一系列統計分析后,作者發現基線 NLR 與患者的遠期預后密切相關,NLR 大於 5.4 的患者,發生全因死亡的風險是 NLR 小於 3 的患者的 2.16 倍。
這是一項基於回顧性資料的隊列研究(回顧性隊列研究),從中我們可以看出,為了保證研究對象接近於真實世界,作者可謂煞費苦心!最重要的措施就是納入所有病例,向讀者和審稿人傳遞一個信息:雖然我們的研究不是真實世界的研究,但是我們想了很多辦法去回溯真實世界,目前的研究對象和真實世界已經很接近了。的確,在 549 份病例中,只遺漏了 22 份病例,其對結果的影響是很小的。
國內雜志上刊登的很多研究,往往沒有花筆墨去介紹研究是否接近於真實世界,只是輕描淡寫地寫一句“選取某段時間在醫院就診的患某種疾病的患者 200 名”。問題在於:這 200 名患者是如何獲得的?隨機選取還是隨意選取?能否代表真實世界中這個疾病的狀況呢?
4、總結
“均衡”原則主要是針對干預性研究提出來的,如果研究者開展的是觀察性研究或者診斷性試驗,則沒有必要遵循這一原則。觀察性研究和診斷准確性試驗最重要的是要體現真實世界,即實驗組和對照組應該是自然形成的,無需刻意將其比例控制在 1:1!
http://mp.weixin.qq.com/s?__biz=MzA4MzU2NjUyNA==&mid=403622821&idx=5&sn=c4a6f1c1abba84ecfe01df963892b3b2&scene=21#wechat_redirect