A Multi-Night Instantaneous Heart Rate and Accelerometry Dataset with EEG Sleep Stage Labels
一、数据集概述
BIDSleep Dataset 是一个多夜间睡眠生理数据集,旨在支持基于可穿戴设备的睡眠分期建模与算法研究。
该数据集由 47名健康成人受试者组成,每人佩戴可穿戴设备进行最长 7个夜晚连续睡眠记录,最终形成约 253个完整夜间样本。数据通过多模态方式采集,核心目标是将消费级可穿戴设备数据与 EEG 金标准睡眠分期对齐,用于机器学习建模与验证。
二、数据来源与实验设计
研究采用双设备同步采集方案:
- Apple Watch(消费级设备)
- 记录瞬时心率(Instantaneous Heart Rate, IHR)
- 记录三轴加速度(x/y/z motion)
- 通过 iPhone 同步时间戳
- Dreem 2 EEG Headband(研究级设备)
- 提供 EEG 基础睡眠阶段标注
- 按 AASM 标准分期:
- Wake(清醒)
- N1(浅睡1期)
- N2(浅睡2期)
- N3(深睡)
- REM(快速眼动睡眠)
所有数据均在居家环境中采集,而非实验室 PSG 环境。

BIDSleep数据集:一个包含脑电图睡眠阶段标签的多夜即时心率和加速度计数据集
三、数据结构
数据按 **“受试者 → 夜晚”**组织,共 47 个受试者文件夹。
每个夜晚包含三类核心文件:
1. motion.csv
- 三轴加速度(x, y, z)
- Apple Watch 采集
- 带时间戳(Unix time)
2. hr.csv
- Instantaneous Heart Rate(bpm)
- 来自 PPG 信号(Apple Watch HealthKit)
- 采样率约 0.2 Hz
3. labels.mat
包含睡眠标签与元信息:
- recStart:记录起始时间
- dreem_label:
- 0 = Wake
- 1 = N1
- 2 = N2
- 3 = N3
- 4 = REM
- 5 = Unknown
同时包含:
- 自动标注结果
- 专家修正后的睡眠分期(基于 AASM 规则)
四、数据规模
- 受试者:47人
- 夜晚记录:约253晚
- 总数据量:约 27.9 GB
- 信号类型:
- 心率(PPG派生)
- 加速度(运动)
- EEG标签(参考标准)
五、数据标注与质量控制
睡眠分期来自 Dreem EEG,并经过以下流程处理:
- 自动睡眠分期(算法生成)
- 专家逐 epoch 审核(30秒窗口)
- 修正异常或不合理阶段
- 保留原始 + 修正版本标签
特点:
- 单专家校正(无多评分者一致性统计)
- 强调连续性逻辑检查(避免不合理跳变)
六、研究价值与应用场景
该数据集主要用于以下研究方向:
1. 可穿戴睡眠分期模型
- 使用心率 + 加速度预测睡眠阶段
- 替代或补充 EEG/PSG
2. 多模态时间序列建模
- HR + motion 融合建模
- 深度学习序列模型(CNN / LSTM / Transformer)
3. 多夜间个体建模
- 分析个体夜间差异
- 研究跨夜泛化能力
4. 可穿戴设备验证
- Apple Watch vs EEG 对齐分析
- 消费级设备可靠性评估
七、使用建议(重要)
官方建议:
- 按受试者划分训练/测试
- 避免跨夜数据泄漏
- 优先做 subject-level cross-validation
- 注意:
- Dreem EEG ≠ 完整 PSG(仍存在一定误差)
- 转换期(transition epochs)可能存在标签模糊
八、总结
BIDSleep Dataset 是一个典型的“可穿戴设备 + EEG标签对齐”的多夜间睡眠数据集,其核心价值在于:
- 将消费级设备数据(Apple Watch)与 EEG 标注对齐
- 支持大规模睡眠分期机器学习
- 提供真实世界、多夜间、跨天的连续睡眠行为数据
对于睡眠分析、医疗AI、时间序列建模都具有较高研究价值。