MIMIC-BR:巴西版 ICU 临床数据库正式发布,AI 医疗研究迎来拉美数据新突破
近日,PhysioNet 发布了全新的重症医学数据库 —— MIMIC-BR(Medical Information Mart for Intensive Care Brazil)。这是首个大规模、公开可申请访问、基于巴西医院真实电子病历(EHR)的 ICU 临床数据集,标志着拉丁美洲在医疗 AI 与开放医学数据领域迈出了关键一步。
MIMIC-BR 延续了经典 MIMIC-IV 数据库的设计理念,但数据来源于巴西医院体系,能够更好地反映拉丁美洲患者群体特征。这对于解决现有 AI 医疗模型在不同种族、地区之间存在的数据偏差问题具有重要意义。

MIMIC-Ext-MIMIC-CXR-VQA
什么是 MIMIC-BR?
MIMIC-BR 是一个经过匿名化处理的大规模 ICU 与住院临床数据库,由巴西医院真实临床数据构建,并按照国际通用的 OMOP Common Data Model(OMOP-CDM)标准进行组织。
数据库主要特点包括:
- 30,599 名成年患者
- 37,978 次住院记录
- ICU 与普通病房联合数据
- 覆盖实验室检查、药物、生命体征、诊断、手术等
- 数据时间跨度为近十年中的连续三年
- 完全匿名化处理,符合巴西 LGPD 隐私法规
该数据库来源于巴西著名医院体系,目标是推动:
- 医疗 AI 模型训练
- ICU 风险预测
- 疾病诊断研究
- 医疗 NLP
- 多模态医学大模型
- 拉丁美洲医疗研究基础设施建设

数据规模与核心表结构
MIMIC-BR 采用标准化关系数据库结构,主要包含以下核心表:
| 数据表 | 内容 | 数据量 |
|---|---|---|
| person | 患者基础信息 | 30,599 |
| visit_occurrence | 住院与 ICU 记录 | 37,978 |
| condition_occurrence | ICD-10 诊断信息 | 125,570 |
| procedure_occurrence | 手术与医疗操作 | 181,608 |
| drug_exposure | 用药记录 | 853,730 |
| measurement | 化验与生命体征 | 1,337,890 |
| observation | 临床观察数据 | 640,612 |
| visit_detail | ICU/病房转移细节 | 118,115 |
其中 measurement 表尤为重要,包含:
- 心率
- 血压
- 血氧
- 体温
- 实验室检查结果
这类高频时序数据非常适合:
- ICU 预警模型
- 时间序列 AI
- 多变量生理预测
- 医疗大模型训练

为什么 MIMIC-BR 很重要?
过去,全球医疗 AI 研究高度依赖欧美数据集,例如:
- MIMIC-III
- MIMIC-IV
- eICU
- UK Biobank
但这些数据主要来自欧美人群。
对于:
- 巴西
- 拉美
- 南美
- 发展中国家
患者而言,疾病谱、种族结构、医疗体系、药物使用习惯都存在明显差异。
因此:
使用欧美数据训练的 AI 医疗模型,在拉美地区可能存在泛化能力不足的问题。
MIMIC-BR 的出现,有助于:
- 降低 AI 医疗模型偏差
- 提升拉美人群适配性
- 构建更公平的全球医疗 AI
- 推动跨国医学研究

对 AI 大模型意味着什么?
对于当前热门的:
- 医疗大语言模型(Medical LLM)
- 多模态医疗模型(VLM)
- ICU 智能诊断系统
- Clinical NLP
- 医疗 Agent
MIMIC-BR 提供了新的训练数据来源。
尤其适用于:
1. ICU 风险预测
例如:
- 死亡风险预测
- 脓毒症预警
- 再入院预测
- 呼吸衰竭预警
2. 医疗报告生成
结合:
- 化验数据
- 生命体征
- 药物记录
- ICD 诊断
可以训练 AI 自动生成:
- ICU 报告
- 出院总结
- 临床诊断建议
3. 医疗 NLP
虽然当前版本未开放自由文本病历(Notes),但结构化数据依然非常适合:
- Clinical BERT
- EHR Transformer
- 时序医疗模型
后续版本存在进一步扩展的可能。