当前位置：首页 > article >正文

用Python从零处理SEED脑电数据集：一份给深度学习新手的保姆级数据加载与特征解析指南

article 2026/3/23 22:11:58

用Python从零处理SEED脑电数据集一份给深度学习新手的保姆级数据加载与特征解析指南当你第一次拿到SEED脑电数据集时那些.mat文件、复杂的特征文件夹和陌生的术语可能会让你感到无从下手。作为EEG情感识别领域最常用的基准数据集之一SEED包含了15名受试者的脑电信号和眼动数据是学习脑电处理的绝佳起点。本文将带你用Python一步步解开这个数据集的神秘面纱。1. 环境准备与数据概览在开始之前确保你的Python环境已经安装了以下核心库pip install numpy pandas matplotlib scipy scikit-learnSEED数据集主要包含两部分SEED_EEG15名受试者的预处理脑电数据SEED_Multimodal12名受试者的多模态数据脑电眼动数据集的文件结构通常如下SEED/ ├── Preprocessed_EEG/ # 预处理后的原始EEG信号(.mat) ├── Extracted_Features/ # 提取好的特征(DE, DASM, RASM) └── SEED_Multimodal/ ├── Chinese/ # 中文实验数据 │ ├── 01-EEG-raw/ # 原始EEG信号(.cnt) │ ├── 02-EEG-DE-feature/ # DE特征 │ └── 03-Eye-tracking/ # 眼动数据 └── code/ # 示例代码提示下载数据集后建议先用文本编辑器查看README文件了解数据集的版本和基本结构。2. 加载预处理EEG数据SEED的预处理数据存储在MATLAB的.mat文件中我们可以使用scipy.io模块来加载import scipy.io as sio # 加载单个受试者的数据 eeg_data sio.loadmat(Preprocessed_EEG/1_20131027.mat) # 查看文件中的变量 print(eeg_data.keys()) # 通常包含eeg_1到eeg_15和对应标签每个.mat文件包含16个数组15个EEG片段eeg_1到eeg_151个标签数组labelsEEG数据的典型维度是[通道数×时间点]。SEED使用62个电极通道采样率为200Hz因此4分钟的电影片段大约有48,000个时间点。数据结构解析表变量名数据类型维度描述eeg_1float3262×N第一个片段的EEG数据............eeg_15float3262×N第15个片段的EEG数据labelsint815情感标签(-1,0,1)3. 理解与处理提取的特征SEED提供了三种预提取的特征DE微分熵反映脑电信号在不同频带的能量分布DASM微分不对称左右半球对应通道DE的差值RASM有理不对称左右半球DE的比值加载特征数据的Python示例import numpy as np # 加载DE特征 de_features sio.loadmat(Extracted_Features/1_20131027.mat) print(de_features.keys()) # 通常包含de_1到de_15 # 查看单个片段的DE特征 de_sample de_features[de_1] print(fDE特征形状{de_sample.shape}) # 通常为[5频带×62通道]特征维度详解DE特征通常包含5个频带Delta (1-3Hz)Theta (4-7Hz)Alpha (8-13Hz)Beta (14-30Hz)Gamma (31-50Hz)对于DASM和RASM特征数据集已经计算了27对半球不对称电极4. 数据可视化与验证加载数据后验证数据是否正确非常重要。我们可以绘制一些基本图形import matplotlib.pyplot as plt # 绘制原始EEG信号第一个通道 plt.figure(figsize(12,4)) plt.plot(eeg_data[eeg_1][0,:500]) # 只绘制前500个采样点 plt.title(原始EEG信号通道1) plt.xlabel(时间点) plt.ylabel(幅值(μV)) plt.show() # 绘制DE特征热图 plt.figure(figsize(10,6)) plt.imshow(de_features[de_1], aspectauto, cmapjet) plt.colorbar(labelDE值) plt.title(DE特征5频带×62通道) plt.xlabel(通道编号) plt.ylabel(频带) plt.show()注意在绘制原始EEG时由于数据量很大建议只绘制部分时间段否则图形会过于密集难以观察。5. 构建基础数据处理管道为了便于后续的深度学习建模我们可以创建一个简单的数据处理类class SEEDLoader: def __init__(self, data_path): self.data_path data_path self.channels 62 self.bands [delta, theta, alpha, beta, gamma] def load_subject(self, subject_id): 加载单个受试者的所有数据 eeg_file f{self.data_path}/Preprocessed_EEG/{subject_id}_*.mat de_file f{self.data_path}/Extracted_Features/{subject_id}_*.mat # 实际实现中需要处理文件匹配和错误检查 eeg_data sio.loadmat(eeg_file) de_data sio.loadmat(de_file) return { raw_eeg: [eeg_data[feeg_{i}] for i in range(1,16)], de_features: [de_data[fde_{i}] for i in range(1,16)], labels: eeg_data[labels].flatten() } def get_feature_matrix(self, subject_data, feature_typede): 将特征转换为机器学习友好的矩阵 if feature_type de: features subject_data[de_features] # 将15个试次的5×62特征展平为15×(5×62) return np.array([f.flatten() for f in features]) # 可以扩展其他特征类型...6. 处理多模态数据EEG眼动对于SEED_Multimodal部分眼动数据通常以Excel或pickle格式存储import pandas as pd # 加载眼动数据Excel格式 eye_data pd.read_excel(SEED_Multimodal/Chinese/03-Eye-tracking/1.xlsx) # 眼动数据通常包含以下列 # Timestamp, GazeX, GazeY, PupilSize, Fixation等 print(eye_data.head()) # 时间对齐是关键 - EEG和眼动的采样率不同 eeg_rate 200 # Hz eye_rate 60 # Hz (典型值)多模态数据同步策略时间戳对齐两种数据源都有时间戳时可以精确匹配降采样对齐将高采样率数据降采样到低采样率事件标记对齐利用实验中的事件标记如电影开始/结束7. 特征工程与数据增强虽然SEED已经提供了很好的特征但你还可以进一步处理from sklearn.preprocessing import StandardScaler # 特征标准化 scaler StandardScaler() de_features loader.get_feature_matrix(subject_data) scaled_features scaler.fit_transform(de_features) # 时频特征增强 def extract_time_freq_features(eeg_signal, fs200): 从原始EEG中提取时频特征 import pywt # 需要安装PyWavelets # 小波变换示例 coeffs pywt.wavedec(eeg_signal, db4, level6) # 可以计算各层的统计量作为特征... return features # 滑动窗口处理 def sliding_window(features, window_size10, step5): 将长序列分割为多个窗口 windows [] for i in range(0, len(features)-window_size, step): windows.append(features[i:iwindow_size]) return np.array(windows)8. 构建完整的数据加载流程将以上步骤整合为一个完整的数据加载流程数据检查验证文件完整性和基本统计特征选择决定使用原始EEG还是预提取特征数据分割按受试者或试次划分训练/测试集批处理为深度学习准备数据生成器# 示例批处理生成器 def data_generator(subject_ids, batch_size32, shuffleTrue): while True: if shuffle: np.random.shuffle(subject_ids) for i in range(0, len(subject_ids), batch_size): batch_ids subject_ids[i:ibatch_size] X, y [], [] for sid in batch_ids: data loader.load_subject(sid) features loader.get_feature_matrix(data) X.append(features) y.append(data[labels]) yield np.concatenate(X), np.concatenate(y)在实际项目中你可能需要处理不同受试者之间的数据差异、平衡不同类别的样本数量或者实现更复杂的数据增强策略。记住脑电数据通常噪声较多因此鲁棒的数据处理流程比复杂的模型架构更重要。

用Python从零处理SEED脑电数据集：一份给深度学习新手的保姆级数据加载与特征解析指南

相关文章：

用Python从零处理SEED脑电数据集：一份给深度学习新手的保姆级数据加载与特征解析指南

图解HGT：用Attention机制处理异构图数据的保姆级教程（含GNN对比）

OpenWebUI与Dify无缝集成实战：5分钟搞定ChatFlow应用部署

Qt串口示波器开发实战：从数据解析到动态波形展示

A7core项目实战：如何正确处理SDC时钟约束与MMMC多角分析

bin文件详解

Ubuntu 22.04 下 Fcitx5 输入法配置全攻略：从安装到美化（附常见问题解决）

xHCI1.1架构解析：从寄存器到数据传输的完整流程

QT组件管理避坑指南：MaintenanceTool.exe添加QtCharts时为什么只显示已安装组件？

为什么OTFS信道估计与OFDM如此不同？深度解析时延多普勒域的3大特殊挑战

2024北京Python岗位趋势报告：用爬虫+Boss直聘数据告诉你哪些技能最吃香

量子计算机 vs 经典计算机：为什么你的下一台电脑可能还是经典的？

嵌入式按键驱动库：抗抖动、低功耗的轻量级按钮管理方案

不止是调用大模型：LangChain 如何构建真正的 Agent？

全志T113-i开发板G2D硬件加速实战：YUV转RGB性能对比与避坑指南

实测对比：不同品牌X7R/X5R陶瓷电容在Buck电路中的纹波抑制效果

不会还有电商老板没试过客服外包吧？

避开这些坑！单片机驱动电路设计中最容易犯的3个错误（附正确接法示意图）

从Windows Server迁移到Azure：如何利用混合云优势节省50%成本？

老王-真正的残酷是你活成了可替代品

基于UNIAPP与JAVA的竞彩足球APP比分开发实战解析

ChatGPT Play实战指南：如何构建高可用AI对话服务

西门子S7-300PLC与组态王技术结合的混凝土搅拌站智能配料系统研究

基于ROS与OpenCV的二维码视觉伺服定位系统实战

WinForm数据展示进阶：用NPOI实现Excel文件预览+DataGridView样式优化技巧

西门子 S7-200PLC 和组态王组态工业锅炉温度控制系统

避开这3个坑：用ArcGIS Pro制作POI热力图时90%人会犯的致命错误

智慧工地工作人员安全帽防护服防护手套防护靴检测数据集VOC+YOLO格式1427张7类别

STM32F103 CAN总线硬件滤波实战：如何精准过滤设备ID降低CPU负载

时间序列算法实战指南：从基础模型到深度学习的选型与应用