MIMIC-Ext-MIMIC-CXR-VQA:一个针对胸部X光图像的复杂、多样且大规模的视觉问答数据集

MIMIC-BR:巴西版 ICU 临床数据库正式发布,AI 医疗研究迎来拉美数据新突破

近日,PhysioNet 发布了全新的重症医学数据库 —— MIMIC-BR(Medical Information Mart for Intensive Care Brazil)。这是首个大规模、公开可申请访问、基于巴西医院真实电子病历(EHR)的 ICU 临床数据集,标志着拉丁美洲在医疗 AI 与开放医学数据领域迈出了关键一步。

MIMIC-BR 延续了经典 MIMIC-IV 数据库的设计理念,但数据来源于巴西医院体系,能够更好地反映拉丁美洲患者群体特征。这对于解决现有 AI 医疗模型在不同种族、地区之间存在的数据偏差问题具有重要意义。

MIMIC-Ext-MIMIC-CXR-VQA

什么是 MIMIC-BR?

MIMIC-BR 是一个经过匿名化处理的大规模 ICU 与住院临床数据库,由巴西医院真实临床数据构建,并按照国际通用的 OMOP Common Data Model(OMOP-CDM)标准进行组织。

数据库主要特点包括:

  • 30,599 名成年患者
  • 37,978 次住院记录
  • ICU 与普通病房联合数据
  • 覆盖实验室检查、药物、生命体征、诊断、手术等
  • 数据时间跨度为近十年中的连续三年
  • 完全匿名化处理,符合巴西 LGPD 隐私法规

该数据库来源于巴西著名医院体系,目标是推动:

  • 医疗 AI 模型训练
  • ICU 风险预测
  • 疾病诊断研究
  • 医疗 NLP
  • 多模态医学大模型
  • 拉丁美洲医疗研究基础设施建设

数据规模与核心表结构

MIMIC-BR 采用标准化关系数据库结构,主要包含以下核心表:

数据表内容数据量
person患者基础信息30,599
visit_occurrence住院与 ICU 记录37,978
condition_occurrenceICD-10 诊断信息125,570
procedure_occurrence手术与医疗操作181,608
drug_exposure用药记录853,730
measurement化验与生命体征1,337,890
observation临床观察数据640,612
visit_detailICU/病房转移细节118,115

其中 measurement 表尤为重要,包含:

  • 心率
  • 血压
  • 血氧
  • 体温
  • 实验室检查结果

这类高频时序数据非常适合:

  • ICU 预警模型
  • 时间序列 AI
  • 多变量生理预测
  • 医疗大模型训练

为什么 MIMIC-BR 很重要?

过去,全球医疗 AI 研究高度依赖欧美数据集,例如:

  • MIMIC-III
  • MIMIC-IV
  • eICU
  • UK Biobank

但这些数据主要来自欧美人群。

对于:

  • 巴西
  • 拉美
  • 南美
  • 发展中国家

患者而言,疾病谱、种族结构、医疗体系、药物使用习惯都存在明显差异。

因此:

使用欧美数据训练的 AI 医疗模型,在拉美地区可能存在泛化能力不足的问题。

MIMIC-BR 的出现,有助于:

  • 降低 AI 医疗模型偏差
  • 提升拉美人群适配性
  • 构建更公平的全球医疗 AI
  • 推动跨国医学研究

对 AI 大模型意味着什么?

对于当前热门的:

  • 医疗大语言模型(Medical LLM)
  • 多模态医疗模型(VLM)
  • ICU 智能诊断系统
  • Clinical NLP
  • 医疗 Agent

MIMIC-BR 提供了新的训练数据来源。

尤其适用于:

1. ICU 风险预测

例如:

  • 死亡风险预测
  • 脓毒症预警
  • 再入院预测
  • 呼吸衰竭预警

2. 医疗报告生成

结合:

  • 化验数据
  • 生命体征
  • 药物记录
  • ICD 诊断

可以训练 AI 自动生成:

  • ICU 报告
  • 出院总结
  • 临床诊断建议

3. 医疗 NLP

虽然当前版本未开放自由文本病历(Notes),但结构化数据依然非常适合:

  • Clinical BERT
  • EHR Transformer
  • 时序医疗模型

后续版本存在进一步扩展的可能。

发表回复