BIDSleep数据集:一个包含脑电图睡眠阶段标签的多夜即时心率和加速度计数据集

A Multi-Night Instantaneous Heart Rate and Accelerometry Dataset with EEG Sleep Stage Labels

一、数据集概述

BIDSleep Dataset 是一个多夜间睡眠生理数据集,旨在支持基于可穿戴设备的睡眠分期建模与算法研究。

该数据集由 47名健康成人受试者组成,每人佩戴可穿戴设备进行最长 7个夜晚连续睡眠记录,最终形成约 253个完整夜间样本。数据通过多模态方式采集,核心目标是将消费级可穿戴设备数据与 EEG 金标准睡眠分期对齐,用于机器学习建模与验证。

二、数据来源与实验设计

研究采用双设备同步采集方案:

  • Apple Watch(消费级设备)
    • 记录瞬时心率(Instantaneous Heart Rate, IHR)
    • 记录三轴加速度(x/y/z motion)
    • 通过 iPhone 同步时间戳
  • Dreem 2 EEG Headband(研究级设备)
    • 提供 EEG 基础睡眠阶段标注
    • 按 AASM 标准分期:
      • Wake(清醒)
      • N1(浅睡1期)
      • N2(浅睡2期)
      • N3(深睡)
      • REM(快速眼动睡眠)

所有数据均在居家环境中采集,而非实验室 PSG 环境。

BIDSleep数据集:一个包含脑电图睡眠阶段标签的多夜即时心率和加速度计数据集

三、数据结构

数据按 **“受试者 → 夜晚”**组织,共 47 个受试者文件夹。

每个夜晚包含三类核心文件:

1. motion.csv

  • 三轴加速度(x, y, z)
  • Apple Watch 采集
  • 带时间戳(Unix time)

2. hr.csv

  • Instantaneous Heart Rate(bpm)
  • 来自 PPG 信号(Apple Watch HealthKit)
  • 采样率约 0.2 Hz

3. labels.mat

包含睡眠标签与元信息:

  • recStart:记录起始时间
  • dreem_label:
    • 0 = Wake
    • 1 = N1
    • 2 = N2
    • 3 = N3
    • 4 = REM
    • 5 = Unknown

同时包含:

  • 自动标注结果
  • 专家修正后的睡眠分期(基于 AASM 规则)

四、数据规模

  • 受试者:47人
  • 夜晚记录:约253晚
  • 总数据量:约 27.9 GB
  • 信号类型:
    • 心率(PPG派生)
    • 加速度(运动)
    • EEG标签(参考标准)

五、数据标注与质量控制

睡眠分期来自 Dreem EEG,并经过以下流程处理:

  1. 自动睡眠分期(算法生成)
  2. 专家逐 epoch 审核(30秒窗口)
  3. 修正异常或不合理阶段
  4. 保留原始 + 修正版本标签

特点:

  • 单专家校正(无多评分者一致性统计)
  • 强调连续性逻辑检查(避免不合理跳变)

六、研究价值与应用场景

该数据集主要用于以下研究方向:

1. 可穿戴睡眠分期模型

  • 使用心率 + 加速度预测睡眠阶段
  • 替代或补充 EEG/PSG

2. 多模态时间序列建模

  • HR + motion 融合建模
  • 深度学习序列模型(CNN / LSTM / Transformer)

3. 多夜间个体建模

  • 分析个体夜间差异
  • 研究跨夜泛化能力

4. 可穿戴设备验证

  • Apple Watch vs EEG 对齐分析
  • 消费级设备可靠性评估

七、使用建议(重要)

官方建议:

  • 按受试者划分训练/测试
    • 避免跨夜数据泄漏
  • 优先做 subject-level cross-validation
  • 注意:
    • Dreem EEG ≠ 完整 PSG(仍存在一定误差)
    • 转换期(transition epochs)可能存在标签模糊

八、总结

BIDSleep Dataset 是一个典型的“可穿戴设备 + EEG标签对齐”的多夜间睡眠数据集,其核心价值在于:

  • 将消费级设备数据(Apple Watch)与 EEG 标注对齐
  • 支持大规模睡眠分期机器学习
  • 提供真实世界、多夜间、跨天的连续睡眠行为数据

对于睡眠分析、医疗AI、时间序列建模都具有较高研究价值。

发表回复