摘要
回顾性收集的医疗数据蕴含着通过知识发现和算法开发来改善患者护理的潜力。广泛地复用医疗数据能最大限度地惠及公众,但数据共享过程必须严格保护患者隐私。为此,我们正式推出重症监护医疗信息库 MIMIC-IV。这是一个大型脱敏数据集,包含了美国马萨诸塞州波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)急诊科和重症监护病房收治的患者信息。
MIMIC-IV 整合了最新的临床数据,其数据组织采用模块化设计,清晰标注了数据来源,便于用户对单一或组合数据源进行独立分析。该数据集涵盖了超过 65,000 名 ICU 住院患者和 200,000 余名急诊就诊患者的信息。
MIMIC-IV 旨在延续 MIMIC-III 的成功,为医疗保健领域的广泛应用提供有力支持。
背景
近年来,医院界已形成共识,积极推行数字化病历系统。在美国,截至2015年,已有近96%的医院采用了电子健康记录系统(EHR)[1]。回顾性收集的医疗数据在流行病学研究和预测模型构建中的应用也日益广泛。后者部分得益于大数据建模方法的有效性[2]。尽管取得了这些进展,获取医疗数据以改善患者护理仍是一大挑战。医疗数据共享受限的原因是多方面的,但患者隐私问题被视为最关键因素之一。虽然患者研究显示,大家几乎一致认同应使用去标识化的医疗数据来改进医疗实践,但领域专家们仍在持续探讨其最优的实现机制。独特的是,MIMIC-III数据库采用了一种开放性授权机制,使得数据能被广泛复用[3]。这一机制非常成功,促进了MIMIC-III在各种研究中的广泛应用,范围从特定患者群体的治疗效果评估到关键患者结局(如死亡率)的预测。MIMIC-IV的目标是延续MIMIC-III的成功,并做出多项改进以提升数据的易用性,支持更多的研究应用。
数据构建方法
MIMIC-IV的数据来源于医院内部的两个数据库系统:一个是全院通用的定制化EHR系统,另一个是重症监护室(ICU)专用的临床信息系统。MIMIC-IV的构建过程分为三个关键步骤:
数据提取(Acquisition)
从医院各相应数据库中提取曾入住贝斯以色列女执事医疗中心(BIDMC)急诊科或任一重症监护室(ICU)的患者数据。首先创建一个患者总列表,包含了2008年至2022年间所有入住过ICU或急诊科的患者的病历号(medical record numbers)。随后,从源数据表中筛选出仅与总列表中患者相关的数据行。
数据结构优化(Preparation):对数据进行重组,以更好地服务于回顾性数据分析。具体操作包括:
数据库表的反规范化(Denormalization)
移除审计追踪记录(Audit Trails)
将数据整合到数量更少的表中
该过程的目标是简化对数据库的回顾性分析操作。重要提示:此阶段不进行数据清洗步骤,以确保数据真实反映临床实践中的原始面貌。
去标识化处理(Deidentify)
- 严格遵循美国《健康保险流通与责任法案》(HIPAA)要求,移除患者身份标识信息。
- 使用随机密钥替换敏感标识符,为患者、住院记录及ICU住院记录生成去标识化的整数ID。
- 对结构化数据,采用“查找表”和“允许列表”进行过滤筛查。
对必要的自由文本(如医生笔记),应用专用算法移除其中可能包含的受保护健康信息(PHI)。 - 时间偏移处理(关键步骤):为了进一步保护隐私,将所有日期和时间点随机向前偏移一定天数。此偏移量是以“天”为单位随机生成的。
偏移量的分配规则:每个患者(subject_id)分配且仅分配一个固定的偏移量。
重要效果:对于同一患者,其内部所有时间关系均保持绝对一致。例如,原始数据中两次测量若间隔4小时,在MIMIC-IV中计算出的时间差也必定是4小时。
但对于不同患者,其记录的时间不具有可比性。例如,数据库中显示两个患者都在2130年入院,绝不代表他们在现实世界中是在同一年住进医院的(时间被整体随机平移了)。
完成以上三个步骤后,最终将数据库导出为以逗号分隔的文本格式(即常见的CSV格式)。