建立臨床數據庫前的准備


摘自:建立臨床數據庫前的准備 - 知乎
https://zhuanlan.zhihu.com/p/168649672?utm_source=ZHShareTargetIDMor

建立臨床數據庫前的准備

劉岳鵬

徐州市中心醫院

摘要:

臨床數據庫是臨床科研必不可少的基礎,其建立的准備過程可以歸納為三步:定調、確定內容和形式標准化。通過以上三個步驟的實施形成一個臨床研究病例報告表和一個可靠、易用的數據載體,最終為臨床數據庫的建立做好准備。

關鍵詞:臨床數據庫;

 

循證醫學時代,臨床數據庫通過收集有研究價值的臨床診療數據,為臨床經驗的積累提供數據支撐,並孕育出一篇篇的臨床研究論文,是科室的發展和個人的成長過程中不可或缺的助力。現階段,各臨床科室也逐漸認識到建立臨床數據庫的重要性和必要性。那么,在建立臨床數據庫之前,哪些准備是必要的呢?這里總結了三點:

  1. 定調

首先,根據個人或者科室目前的能力和需求,確定需要哪種類型的數據庫。 根據復雜程度,數據庫分為三類:單任務型,其內容是針對一個試驗項目而建立的,包含一個核心結局變量集,數據量少,收集工作量不大,但是數據不能反復利用;多任務型,其內容針對多個可能的試驗項目,包含多個核心結局變量集,數據量大,收集工作量大,數據可以反復利用[1];多中心型,是建立在多個機構之間的多任務型數據庫,除了兼具多任務型的特點外,在數據管理,數據保密等方面具有自己的特點(表1)。表格中提到的“核心結局變量集”是臨床科研標准化的概念之一[2],是指通過最少且必需的一系列變量對某個結局事件進行評價,其目的是避免變量過多,浪費人力物力,又避免變量過少,不能全面評價結局事件。

 

表1. 臨床數據庫的類型及其特點

類型

內容

特點

單任務型

針對一個試驗項目,包含一個核心結局變量集

數據量少,數據不能反復利用

多任務型

針對多個可能的試驗項目,包含多個核心結局變量集

數據量大,數據可以反復利用

多中心型

多個研究機構

兼具多任務型數據庫特點

二、確定內容

1. 確定臨床數據庫的主題和特色。確定數據庫的主題,即確定個人或科室感興趣的研究領域,比如乳腺癌、甲狀腺疾病等。數據庫主題可以有其獨特之處,比如特殊的疾病,也可以和其它的數據庫一樣。唯一注意的是,對於感興趣的疾病是否能夠獲得足夠的病例數量,沒有足夠的病例數量就無法得出確實的研究結果。另外,數據庫建設一定要有特色,一方面是考慮到撰寫有新意的論文,另一方面也是為了做出創造性的工作。這里是“創造性”,不是“創新性”。“創新性”在醫學基礎研究中比較重要,然而,在臨床研究中不單純強調創新性,因為許多臨床研究的目的是為了為臨床診療提供證據支撐,而不是為了產生新的醫學理論和方法,相似設計的多個臨床研究為后續系統性綜述的實施提供了便利。

數據庫的特色從以下幾個方面考慮:1)特色的預測變量(也稱作自變量)。結局變量是評價某個疾病轉歸的一系列變量,通常是標准化的,而預測變量是影響結局的因素的變量,其隨着新治療技術、新的診斷方法、新的葯物的出現而不斷變化,是一個數據庫特色的、可定制的方面;2)足夠多的病例數。大樣本的觀察可以為臨床實踐提供最確實的證據,增加論文結論的可信度。一個臨床數據庫在各方面都普通,卻包含大量的樣本,也是非常有價值的數據庫;3)系統地保留血液、組織等樣本。物以稀為貴,組織、血液等樣本在臨床上是珍貴、不易得的,包含這些樣本的臨床數據庫自然就是珍貴的。即時或者未來對樣本的檢測都可以為我們了解疾病提供重要的信息;4)特色的研究人群。不同的人群可能是不同的民族,有不同的生活習慣或對某疾病的具有不同的易感性的人群,不同人群的臨床研究為了解疾病提供了多樣的信息。

2. 確定需要收集的變量。需要收集變量也分為三類:1)結局變量(集),以多個變量從多個角度來全面評價一個臨床事件結局,這些變量被稱作“核心結局變量集”,其內容是相對固定的、標准化的;2)預測變量,這是有特色的,可以由研究者根據研究目的定制的部分;3)其它變量,包括與預測變量有關的變量,和與結局變量有關的變量。收集這類變量的目的是為了從中篩選出混雜變量,從而在多因素分析過程中排除混雜變量的影響而得出預測變量對結局變量的相對“獨立”作用。

確定這三類變量的方法一般是通過專家共識,文獻查詢,參考模板,依照標准四個途徑。前三個途徑照字面的含義,而“依照標准”的含義是參考“臨床數據交換標准協會(CDISC)”制定的標准來設計需要收集的變量的種類[3]。原則上,收集的變量不能過多,會消耗大量的人力和物力;變量不能過少,會遺漏重要數據,要在這兩者之間取得平衡。變量的收集的種類最終歸納在臨床研究病例報告表(CRF)中。

3. 確定納入的人群。建立數據庫之初,要在一定程度上明確今后要進行的臨床研究形式(診斷研究、病因研究或預后研究)進而確定納入標准和排除標准,因為這關系到對照組人群的納入。例如,預后研究是研究治療方案的有效性,可以只納入患者,預后好的與預后不好的患者互相作為對照;在診斷研究中要研究與診斷相關的因素,則要納入病種或綜合征相似的、需要鑒別診斷的病例作為對照;病因研究中還要納入沒有患病的人群作為對照。納排標准的確定根據以下原則:1)納入標准有四個根據,分別是:臨床特征、時間特征、地理特征和人口學特征[4];2)排除標准:原則上為了增加外推性,盡可能不設排除標准,但是容易失訪,有潛在不良反應,無法提供數據,可以列為排除標准[4]。

三、形式上標准化

1. 變量名的標准化:需要遵循的幾個原則:盡量長使其具有自明性,盡量短而方便輸入;避免使用空格和特殊字符。例如,SubjectID、FName、ExamDate、WghtKg、HghtCm、LabID[4]。個人手工建立的,小型的數據庫可以借鑒舉例進行變量命名。此外,目前數據庫建設領域有個“公共數據元”的概念,是“臨床數據交換標准協會(CDSIC)”提出的,已經被業界普遍接受的概念,其主張同領域的數據庫用統一的變量類別、名稱、格式、單位等來建立數據庫,其目的是方便臨床數據的交換和重復利用[5]。CDSIC建議的命名更系統,但是其自明性略差,一般是電子數據采集系統在采用。

2.數據庫軟件: 軟件是數據的載體,同時起着對數據進行管理、查詢,甚至統計分析等作用。根據其特點分為三類:1)本地平台:Microsoft EXCEL和ACCESS等,其優點是可在本地運行,容易上手,定制程度高;2)雲數據平台:臨床研究平台2.0(MedSci)、Revman(中國臨床試驗注冊中心)等,該類型對臨床數據的存儲和采集有不同程度的優化,通過網路進行數據存儲,數據安全性更高;3)商用EDC:linklab,易侕EDC等,其特點是收費,針對臨床數據的存儲和采集有相當程度的優化,有專業團隊進行指導數據庫的建設。

3.數據表格的標准化:計算機數據庫包含一個或多個數據表格,其中“行(Row)”對應個體記錄,“列(Column)”對應變量。標准化的數據庫是“多表格關系型數據庫”[6],其特點為受試者特征、既往病史、伴隨用葯、實驗室檢查結果等為單獨的表,受試者具有唯一的研究對象識別編號進行標識,可以通過“查詢” 功能進行不同表格之間的數據的連接。

總之,建立臨床數據庫的准備工作,一是形成一個臨床研究病例報告表,二是形成一個可靠、易用的數據載體,這需要多種背景的人員共同參與。值得一提的是,數據庫的建立不是一簇而就的。首先建立的是“采集型數據庫”,其目的是為了全面地記錄試驗的信息;其特點是采用“縱向數據結構”,多用文字描述來記錄信息,沒有進行“數字化”,不能直接進行統計分析;接着建立的是“分析型數據庫”,其目的是為了統計分析;其特點是數據結構有“縱向數據”和“水平數據”兩種,其中變量直接或衍生自“采集型數據庫”且經過“數字化”而歸納成“二分類變量”,“多分類變量”,“有序分類變量”,“連續變量”等可分析的形式。

 

參考文獻:

[1]趙一鳴, 曾琳, 李楠,等. 臨床注冊研究可持續發展的科學基礎:多目標多任務研究方案[J]. 中華醫學雜志, 2013, 093(046):3649-3651.

[2]邱瑞瑾, 李敏, 韓松潔,等. Interpretation of the COMET handbook (version 1.0) and its insight for developing core outcome sets in clinical trials of traditional Chinese medicine[J]. 中國循證醫學雜志, 2017, 017(012):1482-1488.

[3] 王雅倩, 楊悅. CDISC標准與臨床試驗數據標准化[J]. 中國醫葯指南, 2016, 14(12):296-297.

[4]Stephen B.Hully,Steven R. Cummings, Warren S. Browner等. 臨床研究設計(第4版)[M]. 北京大學醫學出版社, 2017.

[5] 林玲. 中醫臨床護理信息數據元標准體系構建[D]. 湖北中醫葯大學, 2014.

[6] 張永亮, 侯俊. 關系型數據庫的規范化方法研究[J]. 通化師范學院學報, 2013, 034(006):31-32.

發布於 08-05


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM