当前位置: 首页 > article >正文

用Python从零处理SEED脑电数据集:一份给深度学习新手的保姆级数据加载与特征解析指南

用Python从零处理SEED脑电数据集一份给深度学习新手的保姆级数据加载与特征解析指南当你第一次拿到SEED脑电数据集时那些.mat文件、复杂的特征文件夹和陌生的术语可能会让你感到无从下手。作为EEG情感识别领域最常用的基准数据集之一SEED包含了15名受试者的脑电信号和眼动数据是学习脑电处理的绝佳起点。本文将带你用Python一步步解开这个数据集的神秘面纱。1. 环境准备与数据概览在开始之前确保你的Python环境已经安装了以下核心库pip install numpy pandas matplotlib scipy scikit-learnSEED数据集主要包含两部分SEED_EEG15名受试者的预处理脑电数据SEED_Multimodal12名受试者的多模态数据脑电眼动数据集的文件结构通常如下SEED/ ├── Preprocessed_EEG/ # 预处理后的原始EEG信号(.mat) ├── Extracted_Features/ # 提取好的特征(DE, DASM, RASM) └── SEED_Multimodal/ ├── Chinese/ # 中文实验数据 │ ├── 01-EEG-raw/ # 原始EEG信号(.cnt) │ ├── 02-EEG-DE-feature/ # DE特征 │ └── 03-Eye-tracking/ # 眼动数据 └── code/ # 示例代码提示下载数据集后建议先用文本编辑器查看README文件了解数据集的版本和基本结构。2. 加载预处理EEG数据SEED的预处理数据存储在MATLAB的.mat文件中我们可以使用scipy.io模块来加载import scipy.io as sio # 加载单个受试者的数据 eeg_data sio.loadmat(Preprocessed_EEG/1_20131027.mat) # 查看文件中的变量 print(eeg_data.keys()) # 通常包含eeg_1到eeg_15和对应标签每个.mat文件包含16个数组15个EEG片段eeg_1到eeg_151个标签数组labelsEEG数据的典型维度是[通道数×时间点]。SEED使用62个电极通道采样率为200Hz因此4分钟的电影片段大约有48,000个时间点。数据结构解析表变量名数据类型维度描述eeg_1float3262×N第一个片段的EEG数据............eeg_15float3262×N第15个片段的EEG数据labelsint815情感标签(-1,0,1)3. 理解与处理提取的特征SEED提供了三种预提取的特征DE微分熵反映脑电信号在不同频带的能量分布DASM微分不对称左右半球对应通道DE的差值RASM有理不对称左右半球DE的比值加载特征数据的Python示例import numpy as np # 加载DE特征 de_features sio.loadmat(Extracted_Features/1_20131027.mat) print(de_features.keys()) # 通常包含de_1到de_15 # 查看单个片段的DE特征 de_sample de_features[de_1] print(fDE特征形状{de_sample.shape}) # 通常为[5频带×62通道]特征维度详解DE特征通常包含5个频带Delta (1-3Hz)Theta (4-7Hz)Alpha (8-13Hz)Beta (14-30Hz)Gamma (31-50Hz)对于DASM和RASM特征数据集已经计算了27对半球不对称电极4. 数据可视化与验证加载数据后验证数据是否正确非常重要。我们可以绘制一些基本图形import matplotlib.pyplot as plt # 绘制原始EEG信号第一个通道 plt.figure(figsize(12,4)) plt.plot(eeg_data[eeg_1][0,:500]) # 只绘制前500个采样点 plt.title(原始EEG信号通道1) plt.xlabel(时间点) plt.ylabel(幅值(μV)) plt.show() # 绘制DE特征热图 plt.figure(figsize(10,6)) plt.imshow(de_features[de_1], aspectauto, cmapjet) plt.colorbar(labelDE值) plt.title(DE特征5频带×62通道) plt.xlabel(通道编号) plt.ylabel(频带) plt.show()注意在绘制原始EEG时由于数据量很大建议只绘制部分时间段否则图形会过于密集难以观察。5. 构建基础数据处理管道为了便于后续的深度学习建模我们可以创建一个简单的数据处理类class SEEDLoader: def __init__(self, data_path): self.data_path data_path self.channels 62 self.bands [delta, theta, alpha, beta, gamma] def load_subject(self, subject_id): 加载单个受试者的所有数据 eeg_file f{self.data_path}/Preprocessed_EEG/{subject_id}_*.mat de_file f{self.data_path}/Extracted_Features/{subject_id}_*.mat # 实际实现中需要处理文件匹配和错误检查 eeg_data sio.loadmat(eeg_file) de_data sio.loadmat(de_file) return { raw_eeg: [eeg_data[feeg_{i}] for i in range(1,16)], de_features: [de_data[fde_{i}] for i in range(1,16)], labels: eeg_data[labels].flatten() } def get_feature_matrix(self, subject_data, feature_typede): 将特征转换为机器学习友好的矩阵 if feature_type de: features subject_data[de_features] # 将15个试次的5×62特征展平为15×(5×62) return np.array([f.flatten() for f in features]) # 可以扩展其他特征类型...6. 处理多模态数据EEG眼动对于SEED_Multimodal部分眼动数据通常以Excel或pickle格式存储import pandas as pd # 加载眼动数据Excel格式 eye_data pd.read_excel(SEED_Multimodal/Chinese/03-Eye-tracking/1.xlsx) # 眼动数据通常包含以下列 # Timestamp, GazeX, GazeY, PupilSize, Fixation等 print(eye_data.head()) # 时间对齐是关键 - EEG和眼动的采样率不同 eeg_rate 200 # Hz eye_rate 60 # Hz (典型值)多模态数据同步策略时间戳对齐两种数据源都有时间戳时可以精确匹配降采样对齐将高采样率数据降采样到低采样率事件标记对齐利用实验中的事件标记如电影开始/结束7. 特征工程与数据增强虽然SEED已经提供了很好的特征但你还可以进一步处理from sklearn.preprocessing import StandardScaler # 特征标准化 scaler StandardScaler() de_features loader.get_feature_matrix(subject_data) scaled_features scaler.fit_transform(de_features) # 时频特征增强 def extract_time_freq_features(eeg_signal, fs200): 从原始EEG中提取时频特征 import pywt # 需要安装PyWavelets # 小波变换示例 coeffs pywt.wavedec(eeg_signal, db4, level6) # 可以计算各层的统计量作为特征... return features # 滑动窗口处理 def sliding_window(features, window_size10, step5): 将长序列分割为多个窗口 windows [] for i in range(0, len(features)-window_size, step): windows.append(features[i:iwindow_size]) return np.array(windows)8. 构建完整的数据加载流程将以上步骤整合为一个完整的数据加载流程数据检查验证文件完整性和基本统计特征选择决定使用原始EEG还是预提取特征数据分割按受试者或试次划分训练/测试集批处理为深度学习准备数据生成器# 示例批处理生成器 def data_generator(subject_ids, batch_size32, shuffleTrue): while True: if shuffle: np.random.shuffle(subject_ids) for i in range(0, len(subject_ids), batch_size): batch_ids subject_ids[i:ibatch_size] X, y [], [] for sid in batch_ids: data loader.load_subject(sid) features loader.get_feature_matrix(data) X.append(features) y.append(data[labels]) yield np.concatenate(X), np.concatenate(y)在实际项目中你可能需要处理不同受试者之间的数据差异、平衡不同类别的样本数量或者实现更复杂的数据增强策略。记住脑电数据通常噪声较多因此鲁棒的数据处理流程比复杂的模型架构更重要。

相关文章:

用Python从零处理SEED脑电数据集:一份给深度学习新手的保姆级数据加载与特征解析指南

用Python从零处理SEED脑电数据集:一份给深度学习新手的保姆级数据加载与特征解析指南 当你第一次拿到SEED脑电数据集时,那些.mat文件、复杂的特征文件夹和陌生的术语可能会让你感到无从下手。作为EEG情感识别领域最常用的基准数据集之一,SEED…...

图解HGT:用Attention机制处理异构图数据的保姆级教程(含GNN对比)

从零构建HGT模型:异构图注意力机制实战指南 在学术合作网络中,我们常常需要分析教授、学生、论文、机构等不同类型实体间的复杂关系。传统图神经网络(GNN)如GCN、GAT假设所有节点和边属于同种类型,难以捕捉这种异构性。…...

OpenWebUI与Dify无缝集成实战:5分钟搞定ChatFlow应用部署

OpenWebUI与Dify深度整合指南:从零构建智能对话工作流 在AI应用开发领域,快速搭建高效的工作流系统已成为开发者提升生产力的关键。本文将带您深入探索OpenWebUI与Dify平台的整合之道,通过实战演示如何将两个强大工具无缝衔接,构建…...

Qt串口示波器开发实战:从数据解析到动态波形展示

1. Qt串口示波器开发概述 在嵌入式开发中,实时监控传感器数据是常见需求。传统示波器价格昂贵且不便携,而基于Qt开发的串口示波器不仅能实现数据可视化,还能保存历史数据供后续分析。我去年在开发智能硬件项目时,就遇到过需要实时…...

A7core项目实战:如何正确处理SDC时钟约束与MMMC多角分析

A7core项目实战:SDC时钟约束与MMMC多角分析深度解析 在数字芯片设计领域,时序约束和多模多角分析是后端工程师必须掌握的核心技能。A7core作为一款高性能处理器核,其设计复杂度对时序收敛提出了严峻挑战。本文将深入探讨如何通过精准的SDC时钟…...

bin文件详解

bin 文件是 STM32 开发中最核心的裸机二进制可执行文件,也是最终烧录到芯片 Flash 里的文件格式。bin文件对比hex文件更简单,没有地址信息,所以烧录bin文件需要指定Flash的地址。bin 文件的内容,就是按字节顺序,原封不…...

Ubuntu 22.04 下 Fcitx5 输入法配置全攻略:从安装到美化(附常见问题解决)

Ubuntu 22.04 下 Fcitx5 输入法深度配置与美学优化指南 对于刚从 Windows 迁移到 Ubuntu 的用户来说,中文输入法的配置往往是第一个需要跨越的技术门槛。Fcitx5 作为新一代输入法框架,不仅解决了传统 Linux 输入法响应迟缓、候选词不跟光标等问题&#x…...

xHCI1.1架构解析:从寄存器到数据传输的完整流程

1. xHCI1.1架构全景概览 第一次拆开USB3.0移动硬盘盒时,我盯着主控芯片上"xHCI"的标识发愣——这个藏在硬件深处的控制器,到底是如何让数据在电脑和设备间流畅穿梭的?经过多年在嵌入式系统领域的实战,终于摸清了xHCI1.1…...

QT组件管理避坑指南:MaintenanceTool.exe添加QtCharts时为什么只显示已安装组件?

QT组件管理避坑指南:MaintenanceTool.exe添加QtCharts时为什么只显示已安装组件? 当你兴冲冲地打开MaintenanceTool.exe准备为QT安装QtCharts组件时,却发现界面只显示已安装的组件列表,这感觉就像走进一家自助餐厅却发现所有餐盘都…...

为什么OTFS信道估计与OFDM如此不同?深度解析时延多普勒域的3大特殊挑战

为什么OTFS信道估计与OFDM如此不同?深度解析时延多普勒域的3大特殊挑战 在无线通信领域,信道估计始终是系统性能优化的核心环节。当我们将视线从传统的OFDM(正交频分复用)转向新兴的OTFS(正交时频空间)调制…...

2024北京Python岗位趋势报告:用爬虫+Boss直聘数据告诉你哪些技能最吃香

2024北京Python开发者就业全景:技能图谱与高薪赛道解密 Python作为当前最受欢迎的编程语言之一,在北京这座科技创新中心持续释放着强大的就业吸引力。不同于简单的数据爬取教程,我们将从市场供需两端切入,为开发者呈现一份立体的职…...

量子计算机 vs 经典计算机:为什么你的下一台电脑可能还是经典的?

量子计算机 vs 经典计算机:为什么你的下一台电脑可能还是经典的? 当科技媒体铺天盖地报道"量子霸权"时,普通用户更关心一个实际问题:这台神秘设备能否取代我桌上的电脑?让我们先看一个真实场景:某…...

嵌入式按键驱动库:抗抖动、低功耗的轻量级按钮管理方案

1. 按键驱动库(Buttons)深度解析:面向嵌入式系统的抗抖动、低功耗按键管理方案在嵌入式系统开发中,按键(Button)是最基础却最易被低估的输入外设。看似简单的机械开关,在真实硬件环境中却面临多…...

不止是调用大模型:LangChain 如何构建真正的 Agent?

Langchain 大模型很强,但它本质上只是“会说话”。当我们希望模型查天气、写文件、调用接口、跨步骤决策时,就需要一个能够编排模型与工具的框架。LangChain 正是为此而生——它让大模型不只是回答问题,而是成为一个可以思考、决策、调用工具…...

全志T113-i开发板G2D硬件加速实战:YUV转RGB性能对比与避坑指南

全志T113-i开发板G2D硬件加速实战:YUV转RGB性能对比与避坑指南 在嵌入式图像处理领域,YUV到RGB的色彩空间转换是最基础也是最耗时的操作之一。全志T113-i开发板搭载的G2D硬件加速引擎为这一关键操作提供了硬件级解决方案。本文将深入探讨三种实现方案&am…...

实测对比:不同品牌X7R/X5R陶瓷电容在Buck电路中的纹波抑制效果

实测对比:TDK、Murata、国巨X7R/X5R陶瓷电容在2MHz Buck电路中的纹波抑制表现 当你在设计一款紧凑型消费电子产品的电源模块时,输入电容的选择往往决定了整个系统的稳定性和效率。特别是在2MHz这样的高频Buck电路中,陶瓷电容的选型更是一门需…...

不会还有电商老板没试过客服外包吧?

天天盯客服累到秃头?😩 回不过来消息、转化率低、活动期间手忙脚乱… 你是不是也正在经历这些❓ 小声说🤫很多电商老板早就悄悄用了客服外包 把自己解放出来,专注选品和运营,业绩反而蹭蹭涨📈 作为深耕电商…...

避开这些坑!单片机驱动电路设计中最容易犯的3个错误(附正确接法示意图)

避开这些坑!单片机驱动电路设计中最容易犯的3个错误(附正确接法示意图) 在单片机驱动电路设计中,即使是经验丰富的工程师也难免会踩到一些"坑"。这些错误轻则导致电路性能下降,重则可能烧毁元器件&#xff0…...

从Windows Server迁移到Azure:如何利用混合云优势节省50%成本?

从Windows Server迁移到Azure:如何利用混合云优势节省50%成本? 当企业IT基础设施面临升级换代时,云迁移往往成为最受关注的选项之一。但传统观念认为"上云等于高成本"的误区,让许多企业决策者踌躇不前。事实上&#xff…...

老王-真正的残酷是你活成了可替代品

真正的残酷 ——你活成了可替代品“真正的残酷, 不是起点低, 而是—— 你花了多年努力, 却活成了随时能被替换的零件。”⚠️ 人不可能从“可替代”中获得安全感。🕳️ 一、可替代 永远发虚 你的工作,别人学两天就能上…...

基于UNIAPP与JAVA的竞彩足球APP比分开发实战解析

1. 竞彩足球APP开发概述 最近在做一个竞彩足球APP的项目,发现市面上相关资料比较少,索性把开发过程整理出来。这个项目主要用UNIAPP做前端,JAVA写后端API,实现足球比分实时展示、赛事列表、历史记录查询等功能。对于想入门跨平台开…...

ChatGPT Play实战指南:如何构建高可用AI对话服务

ChatGPT Play实战指南:如何构建高可用AI对话服务 在AI应用遍地开花的今天,为产品集成一个智能对话能力似乎已不再是难事。然而,当你的服务从Demo走向生产,面对真实的用户流量时,一系列棘手的问题便会接踵而至&#xf…...

西门子S7-300PLC与组态王技术结合的混凝土搅拌站智能配料系统研究

110#西门子S7-300PLC和组态王的混凝土搅拌站配料系统老司机带你拆解混凝土搅拌站的自动化配料系统,今天咱们聊聊西门子S7-300PLC和组态王的黄金组合。这个系统就像混凝土界的米其林大厨,精确到克的配方控制才是核心竞争力。先看PLC这边的硬核操作。配料皮…...

基于ROS与OpenCV的二维码视觉伺服定位系统实战

1. 从零搭建ROS与OpenCV二维码识别环境 第一次接触二维码视觉定位时,我被各种专业术语搞得晕头转向。后来发现,只要把环境搭建好,后面的工作就会顺利很多。这里分享我踩过坑的配置方案,适合刚入门ROS的小伙伴。 硬件选择其实很有讲…...

WinForm数据展示进阶:用NPOI实现Excel文件预览+DataGridView样式优化技巧

WinForm数据展示进阶:用NPOI实现Excel文件预览DataGridView样式优化技巧 在桌面应用开发中,数据展示的友好程度直接影响用户体验。当我们需要在WinForm中处理Excel数据时,简单的表格呈现往往难以满足专业需求。本文将带你突破基础读取功能&am…...

西门子 S7-200PLC 和组态王组态工业锅炉温度控制系统

西门子S7-200PLC和组态王组态工业锅炉温度控制系统最近搞了个工业锅炉温度控制系统,用的是西门子 S7-200PLC 和组态王组态软件,感觉还挺有意思的,来跟大家分享一下。 系统概述 这个系统主要就是为了实现对工业锅炉温度的精确控制。通过西门子…...

避开这3个坑:用ArcGIS Pro制作POI热力图时90%人会犯的致命错误

避开这3个坑:用ArcGIS Pro制作POI热力图时90%人会犯的致命错误 在空间数据分析领域,热力图因其直观呈现空间分布特征的能力而广受欢迎。然而,许多用户在ArcGIS Pro中制作POI热力图时,往往陷入几个常见的技术陷阱,导致最…...

智慧工地工作人员安全帽防护服防护手套防护靴检测数据集VOC+YOLO格式1427张7类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):1427标注数量(xml文件个数):1427标注数量(txt文件个数):1427标注类别…...

STM32F103 CAN总线硬件滤波实战:如何精准过滤设备ID降低CPU负载

STM32F103 CAN总线硬件滤波实战:如何精准过滤设备ID降低CPU负载 在多设备CAN总线通信系统中,每个节点都会收到总线上所有的数据帧。如果不对这些数据进行过滤,CPU将不得不处理大量无关的中断请求,导致资源被严重消耗。STM32F103系…...

时间序列算法实战指南:从基础模型到深度学习的选型与应用

1. 时间序列算法入门:从业务需求到模型选型 第一次接触时间序列预测时,我被各种算法名词搞得晕头转向。直到在电商公司做销量预测项目时,才真正理解选对算法有多重要。当时用ARIMA模型预测节日销量,结果完全没考虑到促销因素&…...