MIMIC-III Clinical Database
原文地址
Alistair Johnson , Tom Pollard , Roger Mark
Published: Sept. 4, 2016. Version: 1.4
在雲平台上使用 MIMIC-III (2019.09.30 14:28)
MIMIC-III數據庫現在可以在兩個主要的雲平台上使用:谷歌雲平台(GCP)和Amazon Web Services (AWS)。要訪問雲上的數據,只需將相關的雲標識符添加到您的物理網絡配置文件中即可。更多的說明可以在MIMIC-III website上找到。
使用教程: MIMIC-III with BigQuery (GCP) , MIMIC-III with Athena (AWS)
引用要求
When using this resource, please cite:
Johnson, A., Pollard, T., Mark, R. (2016). MIMIC-III Clinical Database. PhysioNet. doi:10.13026/C2XW26
Additionally, please cite the original publication:
Johnson, A. E. W., Pollard, T. J., Shen, L., Lehman, L. H., Feng, M., Ghassemi, M., Moody, B., Szolovits, P., Celi, L. A., & Mark, R. G. (2016). MIMIC-III, a freely accessible critical care database. Scientific Data, 3, 160035.
Please include the standard citation for PhysioNet:
Goldberger AL, Amaral LAN, Glass L, Hausdorff JM, Ivanov PCh, Mark RG, Mietus JE, Moody GB, Peng C-K, Stanley HE. PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals (2003). Circulation. 101(23):e215-e220.
數據集概述
MIMIC-III 是一個大型的、可自由獲取的數據庫,包括2001年至2012年間貝斯以色列女執事醫療中心(Beth Israel Deaconess Medical Center)重症監護病房4萬多名患者的健康相關數據。
該數據庫包括人口統計數據、在床邊進行的生命體征測量(每小時約1個數據點)、實驗室檢測結果、程序、葯物、護理人員記錄、影像報告和死亡率(包括出院后)等信息。
MIMIC支持多種分析研究,包括流行病學、臨床決策規則改進和電子工具開發, 該數據集有三個特點:
- 全世界的研究人員都可以免費獲得
- 它包含了一個多樣化和非常大的ICU患者群體
- 它包含高度粒度的數據,包括實驗室結果、生命體征、葯物等
背景
- 近年來,有一個協調一致的行動,在醫院采用數字健康記錄系統。以美國為例,在2008年至2014年的7年間,擁有基本數字系統的非聯邦急症護理醫院數量從9.4%增至75.5%。[1]
- 盡管有了這些進展,數字系統的互操作性仍然是一個開放的問題,導致了數據集成方面的挑戰。因此,醫院數據在理解和改善護理方面的潛力尚未完全實現。與此同時,科學界也因為研究的可重復性不足而受到越來越多的批評。[2]
方法
MIMIC-III整合貝斯以色列女執事醫療中心(位於美國馬薩諸塞州波士頓市)的病人的臨床資料,使國際上的研究人員可以根據數據使用協議廣泛獲取這些資料。數據的開放性使臨床研究得以復制和改進,否則是不可能的。
MIMIC-III數據庫填充了在常規醫院護理期間獲得的數據,因此對護理人員沒有相關的負擔,也不會干擾他們的工作流程。數據從幾個來源下載,包括:
- 來自重症監護信息系統的檔案。
- 醫院電子健康檔案數據庫。
- 社會保障局死亡主文件。
在數據收集期間,有兩個不同的危重症信息系統:Philips CareVue臨床信息系統(型號M2331A和M1215A;飛利浦醫療,Andover, MA)和iMDsoft MetaVision ICU (iMDsoft, Needham, MA)。這些系統是臨床數據的來源,如:
- 有時間標記的護士驗證的生理測量(例如,每小時記錄的心率、動脈血壓或呼吸頻率);
- 護理人員的護理進展記錄;
- 持續靜脈滴注葯物和液體平衡。
除了與液體攝入有關的數據(CareVue和MetaVision系統之間在結構上存在顯著差異)之外,在構建數據庫表時對數據進行了合並。不能合並的數據用后綴表示數據源。例如,使用護理系統監控的患者的輸入存儲在INPUTEVENTS_CV中,而使用Metavision系統監控的患者的輸入存儲在INPUTEVENTS_MV中。從醫院和實驗室健康記錄系統收集的其他信息包括: - 病人統計資料和住院死亡率。
- 實驗室測試結果(例如,血液學、化學和微生物學結果)。
- 出院總結和心電圖及影像學研究報告。
- 與計費相關的信息,如國際疾病分類、第9版(ICD-9)規范、診斷相關組(DRG)規范和當前程序術語(CPT)規范。
- 使用社會保障局死亡主文件獲得院外死亡日期。
在數據被納入MIMIC-III數據庫之前,它首先根據《健康保險可移植性與責任法案》(HIPAA)標准使用結構化數據清理和數據轉移進行身份驗證。結構化數據的識別過程需要刪除HIPAA中列出的所有18個識別數據元素,包括患者姓名、電話號碼、地址和日期等字段。特別是,通過對每個病人以一致的方式進行隨機偏移以保留時間間隔,將日期移至未來,結果在2100年至2200年之間的某個時間點發生停留。日時、周時和近似的季節性在日期轉換中被保留。89歲以上患者的出生日期被更改,以掩蓋他們的真實年齡,並符合HIPAA規定:這些患者在數據庫中出現的年齡超過300歲。
受保護的健康信息被從免費的文本字段中刪除,比如診斷報告和醫生筆記,使用基於廣泛的字典查詢和正則表達式模式匹配的嚴格評估的鑒定系統。隨着新數據的獲取,該識別系統的組成部分不斷擴展。
該項目由貝斯以色列女執事醫療中心(波士頓,馬薩諸塞州)和麻省理工學院(劍橋,馬薩諸塞州)的機構審查委員會批准。由於該項目不影響臨床護理,且所有受保護的健康信息已被識別,因此病人個人同意的要求被放棄。
數據描述 (重要)
MIMIC-III是一個由26個表組成的關系數據庫。表由通常以“ID”為后綴的標識符連接。例如,
SUBJECT_ID指的是唯一的病人,
HADM_ID指的是唯一的入院到醫院,
而ICUSTAY_ID指的是唯一的入院到重症監護病房。
圖表記錄的事件,如筆記、實驗室測試和流體平衡,被存儲在一系列的“事件”表中。例如,OUTPUTEVENTS表包含與給定病人的輸出相關的所有度量,而LABEVENTS表包含病人的實驗室測試結果。
以'D_'為前綴的表是字典表,提供了標識符的定義。例如,CHARTEVENTS的每一行都與單個ITEMID相關聯,ITEMID表示測量的概念,但是它不包含測量的實際名稱。通過連接ITEMID上的CHARTEVENTS和D_ITEMS,可以識別由給定ITEMID表示的概念。
開發MIMIC數據模型涉及到在解釋的簡單性和接近事實之間取得平衡。因此,模型是底層數據源的反映,根據模擬數據庫的迭代修改以響應用戶的反饋。在進行轉換時,要小心避免對底層數據做出假設,所以MIMIC-III緊密地代表了原始的醫院數據。
一般來說,有5個表用於定義和跟蹤病人的住院時間: ADMISSIONS; PATIENTS; ICUSTAYS; SERVICES; and TRANSFERS
另外5個表是針對各自定義的交叉引用代碼的字典: D_CPT; D_ICD_DIAGNOSES; D_ICD_PROCEDURES; D_ITEMS; and D_LABITEMS。
其余的表包含與患者護理相關的數據,如生理測量、護理人員觀察和賬單信息。
在某些情況下,可以合並表—例如,D_ICD_PROCEDURES和CPTEVENTS表都包含與過程相關的詳細信息,並且可以合並—但是,為了清晰起見,我們的方法是保持表獨立,因為數據源有很大的不同。我們建議研究人員開發適當的數據庫視圖和轉換,而不是在MIMIC數據模型中組合表。
使用注意事項
MIMIC-III作為逗號分隔值(CSV)文件的集合提供,以及幫助將數據導入數據庫系統(包括PostreSQL、MySQL和MonetDB)的腳本。由於該數據庫包含有關患者臨床護理的詳細信息,因此必須以適當的護理和尊重對待它。研究人員需要通過MIMIC website上記錄的流程正式請求訪問。在授予訪問權限之前,必須完成兩個關鍵步驟:
- 研究人員必須完成一個公認的保護人類研究參與者的課程,其中包括健康保險可攜性和責任法案(HIPAA)的要求。
- 研究人員必須簽署一份數據使用協議,該協議概述了適當的數據使用和安全標准,並禁止識別個別患者。
批准至少需要一周時間。一旦申請被批准,研究人員將收到包含從PhysioNetWorks下載數據庫指令的電子郵件。