2025 年“泰迪杯”数据挖掘挑战赛B题——基于穿戴装备的身体活动监测问题分析
摘要
本文聚焦于基于穿戴设备采集的加速度计数据,深入研究志愿者在日常活动中的行为特征,构建了多个数学建模框架,实现从身体活动监测、能耗预测、睡眠阶段识别到久坐预警等多个目标。我们依托于多源数据融合与机器学习模型,对人体活动状态进行识别与分析,为健康管理、行为干预和个性化医疗提供理论支持和模型工具。
针对问题一:问题一旨在通过加速度数据对志愿者的行为类型进行分类统计,建立活动识别与时间累计模型。我们首先依据MET(代谢当量)值的分级标准,将原始标注信息映射为五类活动状态,并统计每位志愿者在各类活动下的累计时长。通过正则表达式提取有效信息、异常数据过滤与时间累积计算,构建了行为分类与时间统计模型。结果显示,志愿者在各活动状态上的时间分布具有明显个体差异,为后续健康分析提供了初步依据。
针对问题二:问题二围绕MET值的实时预测展开,构建了以滑动窗口为基础的机器学习回归模型。我们融合统计学特征提取与个体属性信息(性别、年龄),使用随机森林回归与梯度提升树(GBDT)对窗口级活动强度进行建模与预测。模型评估中,GBDT表现出更高的预测精度,特别是在低强度(睡眠/静态)阶段的拟合效果上优于RF。预测结果被用于活动强度分类,并统计20位志愿者的运动结构,验证了模型在实际应用中的有效性与泛化能力。
针对问题三:问题三为无监督聚类建模,旨在识别志愿者夜间的睡眠阶段分布。我们提取睡眠相关加速度特征,如静止率、合加速度能量等,结合滑动窗口策略,使用K-Means与DBSCAN聚类算法对睡眠状态进行分层划分。K-Means能够初步划分清晰阶段,而DBSCAN在识别异常段和过渡状态方面更具优势。最终统计每位志愿者的深度睡眠、浅睡眠与觉醒时长,展示其夜间睡眠结构,为评估个体睡眠质量与节律提供模型基础。
针对问题四:问题四聚焦于久坐行为的识别与健康预警机制构建。基于预测得到的MET值与静态加速度特征,我们通过构建滑窗级“静态行为”标签序列,识别并合并符合30分钟以上标准的“久坐段”。进一步依据累积时长与单段时长判断健康风险等级,划分“安全”“一般提醒”“高风险”三级预警输出,并对20位志愿者的数据进行应用分析。结果显示,多数志愿者存在高风险久坐行为,模型能够有效识别潜在健康隐患。
综上所述,本文围绕加速度数据在健康行为建模中的多维应用,提出了完整的行为识别、能耗预测、睡眠划分与久坐预警模型。我们综合运用了正则匹配、统计特征提取、随机森林、GBDT、K-Means、DBSCAN等算法与方法,全面展示了穿戴设备数据在人体健康建模领域的应用潜力。这些模型不仅揭示了个体间的行为差异,也为智能健康管理系统的设计提供了理论依据与实证支撑。
关键词:MET(代谢当量)值;随机森林;GBDT;K-Means;DBSCAN
一、 引言
在可穿戴健康监测研究领域[1] ,加速度计作为便捷的生理数据采集手段,其在个体活动识别与健康风险预警中的应用价值日益凸显[2] 。本文旨在基于穿戴设备采集的三轴加速度数据,综合构建多种行为识别与预测模型,从多个维度评估个体身体活动、能耗水平及其潜在健康风险。为此,我们系统引入了统计分析、监督学习、无监督聚类和行为规则识别等多种建模思路,对原始加速度数据进行深度挖掘。
首先,我们依据国际公认的MET分级标准,对志愿者数据进行分类,并通过时序累积模型计算各类活动状态的时长,实现了对志愿者运动结构的全面统计与对比。其次,采用滑动窗口特征提取与回归建模策略,构建了基于随机森林(Random Forest)与梯度提升树(GBDT)的能耗预测模型,成功实现对时间片段内MET值的高精度估计[3] 。随后,在无监督场景下,我们应用K-Means[4] 与DBSCAN聚类[5] 方法,识别出夜间睡眠数据中的深度睡眠、浅睡眠与觉醒状态,展示了不同志愿者的睡眠结构差异与模式。最后,针对久坐风险识别问题,本文基于规则模型与滑窗统计方法,构建了“持续性静态行为”检测机制,并提出健康预警等级分类体系,实现了对20位志愿者的风险筛查。
综上所述,本文综合运用多种算法模型与行为分析机制,对穿戴加速度数据中的活动识别、能耗预测、睡眠分期和久坐预警问题进行了系统建模与实证分析,不仅揭示了个体行为的结构性特征,也为智能健康干预系统的构建提供了理论与数据支持[6] 。
1.1 问题背景
随着可穿戴技术的不断发展,智能手环、智能手表等设备已广泛应用于日常生活中。这些设备不仅能够实时采集用户的生理信号和运动状态,还能为个体健康管理提供便捷手段。在国家提倡“主动健康”和“精准医疗”理念的背景下,如何从海量的原始传感数据中挖掘出对个体行为模式、健康风险和生活习惯具有解释力的信息,成为一个多学科交叉的研究热点。
特别是在现代生活节奏加快、慢性病发病率上升的趋势下,诸如久坐行为、睡眠障碍、体力活动不足等“隐性危险因素”日益受到重视。这类行为往往难以通过传统问卷调查等方式进行准确识别,而可穿戴设备所提供的加速度计、心率计等多维数据,为其自动识别和长期跟踪提供了新的解决方案。
同时,针对不同人群(如学生、办公人群、老年群体)设计个性化健康干预策略,需要对行为状态进行科学划分与动态监测。这对数据的连续性、分类的准确性以及结果的解释性提出了更高要求。因此,从原始加速度数据中识别出个体的活动水平、睡眠结构、以及潜在的高风险行为,对于提升公共健康水平、辅助临床干预以及完善城市健康管理体系具有重要的理论意义和现实价值。
1.2 问题提出
考虑到问题陈述中确定的背景信息和限制条件,我们需要解决以下问题:
问题 1:基于穿戴设备采集的加速度数据和已有的MET值标注信息,对每位志愿者的日常活动进行分类,并统计各类活动下的累计时长。
问题 2:利用加速度计数据和个体属性信息,构建一个能够预测MET值的机器学习模型,并据此统计志愿者在不同活动强度等级下的时间分布。
问题 3:在无标签数据的前提下,基于夜间加速度数据,识别志愿者的睡眠阶段分布,并统计每一阶段的持续时间。
问题 4:通过分析志愿者的加速度数据,识别出符合“久坐行为”定义的连续静态状态,并据此判断其健康风险等级,输出预警提示。
二、 问题分析
问题一:本问题的核心是根据志愿者佩戴设备采集到的三轴加速度数据以及包含 MET 值的标注信息,识别其所处的活动状态,并统计在不同状态下的总时长。关键在于如何从 annotation 字段中提取 MET 值,并基于国际标准进行活动分类。需特别关注时间戳的准确性和数据间隔的合理性,以确保统计计算的时长精度。同时,为保证统计结果的可靠性,还需要在数据预处理阶段识别并剔除异常值与无效数据。
问题二:本问题旨在基于加速度计的连续信号数据与个体属性,构建一个监督学习模型用于预测 MET 值。为此需将原始时间序列划分为滑动窗口,并从每个窗口中提取特征变量,如加速度的均值、方差、能量等指标。模型应能够对不同个体、不同活动状态下的 MET 值做出稳定预测,并对高、低强度活动进行有效区分。此外,问题要求模型能处理大规模样本,具备良好的泛化能力,最终输出分类后的活动时长统计结果。
问题三:问题三是一个典型的无监督聚类任务,需要在缺乏标签的情况下,基于夜间加速度数据识别志愿者的睡眠阶段。由于加速度信号在不同睡眠阶段表现出显著差异,需设计合理的滑动窗口特征提取策略,并依据合加速度变化、静止率、微动频率等指标进行聚类分析。还需解决聚类结果中阶段切换不连续的问题,因此阶段平滑机制的构建也是关键步骤之一,最终目标是输出每位志愿者的阶段时长分布情况。
问题四:该问题聚焦于“久坐行为”的识别与风险预警。需要从滑窗级别的加速度特征中判定是否为静态状态,并依据时间连续性进行“久坐段”的合并识别。判断标准需满足 MET 值低、静止率高且持续时长超过 30 分钟等条件。此外,为了使结果具备实际意义,还需引入合理的风险分级机制,对不同个体的久坐行为进行预警提示,从而为健康管理提供依据。
三、 模型假设与符号说明
3.1 模型基本假设
1.加速度数据真实可靠假设
假设所有穿戴设备采集的三轴加速度数据准确反映了志愿者的实际活动状态,未受设备硬件故障或佩戴不当的影响。
2.时间戳等间隔假设
假设加速度数据在采样过程中时间间隔相对均匀,若存在微小波动或缺失,通过滑动窗口策略可以有效平滑处理,不影响整体趋势识别。
3.MET 值标注合理假设
在训练或统计中使用的 MET 值标签真实反映了志愿者在相应时间段内的活动强度,误标或缺失数据已在预处理阶段剔除。
4.个体属性稳定假设
假设每位志愿者的年龄与性别等个体属性不随时间变化,并在样本构建中保持恒定,可用于与加速度特征融合建模。
5.活动分级标准统一假设
活动强度的划分标准(如 MET < 1.0 为睡眠,MET ≥ 6.0 为高强度等)适用于所有样本,具备普适性。
6.特征窗口代表性假设
滑动窗口提取的加速度统计特征可以充分代表该时间段的活动状态,窗口长度和步长设置合理,不会掩盖重要行为变化。
7.志愿者行为具有可分性假设
假设不同活动状态(如深睡眠、久坐、高强度运动)在特征空间中具有一定的可区分性,使得聚类、分类或回归模型能够有效识别。
8.静态状态与久坐行为一致假设
在问题四中,假设满足低 MET 且连续静止状态的时间段可视为“久坐行为”,并与健康风险等级存在显著关联。
9.样本间独立性假设
构建回归或聚类模型时,假设各个滑窗样本之间在建模过程中互不影响,且不存在明显的时间或空间依赖关系。
10.特征与输出稳定映射假设
在监督学习任务中,假设加速度特征与 MET 值之间存在稳定可学习的非线性映射关系,能够被随机森林或 GBDT 等模型捕捉。
四、 基于加速度数据的志愿者活动统计建模
4.1 问题重述与建模目标
本题旨在根据穿戴式设备采集的加速度计数据,结合已有的 MET 值标注信息,对每位志愿者的日常活动进行分类,并计算其在不同活动类型下的累计时长。具体目标是输出每位志愿者的如下信息:
记录总时长(小时)
睡眠总时长(MET < 1.0)
静态活动总时长(1.0≤MET<1.6)
低强度活动总时长(1.6≤MET<3.0)
中等强度活动总时长(3.0≤MET<6.0)
高等强度活动总时长(MET≥ 6.0 )
4.2 数据说明与预处理
每位志愿者对应一个.csv数据文件,格式如下表1:

4.3 MET 值提取与分类规则
从annotation字符串中使用正则表达式提取 MET 值,并依据以下区间划分活动类型:
该规则参考了国际公认的能量消耗分级标准(Compen
相关文章:
2025 年“泰迪杯”数据挖掘挑战赛B题——基于穿戴装备的身体活动监测问题分析
摘要 本文聚焦于基于穿戴设备采集的加速度计数据,深入研究志愿者在日常活动中的行为特征,构建了多个数学建模框架,实现从身体活动监测、能耗预测、睡眠阶段识别到久坐预警等多个目标。我们依托于多源数据融合与机器学习模型,对人体活动状态进行识别与分析,为健康管理、行…...
Vivado版本升级后AXI4-Stream Data FIFO端口变化
Vivado 2017.4版本中异步AXI4-Stream Data FIFO升级到Vivado 2018.3后,IP管脚会发生变化,2018.3版中没有m_axis_aresetn和axis_data_count。 async_axis_fifo_8_1024 async_axis_fifo_8_1024 ( .s_axis_aresetn (I_do0_rstn ), // input wire…...
Linux424 chage密码信息 gpasswd 附属组
https://chat.deepseek.com/a/chat/s/e55a5e85-de97-450d-a19e-2c48f6669234...
Git 恢复误删除的文件
由于一些操作,把项目中的大量文件删除了,还以为之前敲得代码都付之东流了,突然想起,我的项目使用git进行的版本管理,且一些更改都暂存在本地的仓库的,因此可以使用git来恢复存入仓库的文件 首先࿰…...
自定义指令简介及用法(vue3)
一介绍 防抖与节流,应用场景有很多,例如:禁止重复提交数据的场景、搜索框输入搜索条件,待输入停止后再开始搜索。 防抖 点击button按钮,设置定时器,在规定的时间内再次点击会重置定时器重新计时…...
关于Qt对Html/CSS的支持
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、原生控件二、QtWebEngine总结 前言 最近遇到了一些问题需要使用Qt加载Html发现一些特性不能使用,估计很多人也和我一样遇到这种情况。需要说明…...
海量数据笔试题--Top K 高频词汇统计
问题描述: 假设你有一个非常大的文本文件(例如,100GB),文件内容是按行存储的单词(或其他字符串,如 URL、搜索查询词等),单词之间可能由空格或换行符分隔。由于文件巨大&…...
Python函数与模块
简介 在Python编程中,函数和模块是实现代码复用、提高开发效率的核心机制。本文将结合理论与实例,解析Python函数与模块的核心知识点,帮助开发者打下基础。 一、函数 函数是一段可重复调用的代码块,通过参数传递实现灵活的逻辑…...
位运算题目:解码异或后的排列
文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:解码异或后的排列 出处:1734. 解码异或后的排列 难度 6 级 题目描述 要求 有一个整数数组 perm \texttt{perm} perm,是前…...
【Spring Boot】深入解析:#{} 和 ${}
1.#{} 和 ${}的使用 1.1数据准备 1.1.1.MySQL数据准备 (1)创建数据库: CREATE DATABASE mybatis_study DEFAULT CHARACTER SET utf8mb4;(2)使用数据库 -- 使⽤数据数据 USE mybatis_study;(3ÿ…...
linux:启动后,ubuntu屏幕变成红色了
屏幕启动后变成 红色背景 通常说明 显卡驱动出了问题,或者是 图形界面加载失败 使用了 fallback 模式。这种现象在 NVIDIA 驱动安装失败或显卡与驱动不兼容时常见。 🎯 先给你几个快速修复选项 ✅ 1. 进入 TTY 命令行界面 按下:Ctrl Alt …...
从实验室到产业端:解码 GPU 服务器的八大核心应用场景
一、深度学习与人工智能的基石 在深度学习领域,GPU 服务器的并行计算架构成为训练大规模模型的核心引擎 —— 传统 CPU 集群训练千亿参数模型需数月,而基于某国际知名芯片厂商 H100 的 GPU 服务器可将周期缩短至数周,国内科技巨头 910B 芯…...
java—12 kafka
目录 一、消息队列的优缺点 二、常用MQ 1. Kafka 2. RocketMQ 3. RabbitMQ 4. ActiveMQ 5. ZeroMQ 6. MQ选型对比 适用场景——从公司基础建设力量角度出发 适用场景——从业务场景角度出发 四、基本概念和操作 1. kafka常用术语 2. kafka常用指令 3. 单播消息&a…...
YOLOv8 涨点新方案:SlideLoss FocalLoss 优化,小目标检测效果炸裂!
YOLOv8优化秘籍:用SlideLoss和FocalLoss提升小目标检测精度(附代码实战) 📌 核心问题:YOLOv8在检测小物体时效果不够好? YOLOv8虽然是强大的目标检测模型,但在处理小物体或类别不平…...
数据库-数据类型、约束 和 DQL语言
标题目录 数据类型数字类型INT 型BIGINT 型DOUBLE 类型 字符类型定长字符串变长字符串 日期类型 约束主键约束非空约束唯一性约束检查约束外键约束 DQL 语言WHERE 子句连接多个条件IN (列表)NOT IN (列表)BETWEEN...AND...DISTINCT多字段去重 模糊查询NULL 值判断排序ÿ…...
verilog和system verilog常用数据类型以及常量汇总
int和unsigned 在 Verilog-2001 中,没有 int 和 unsigned 这样的数据类型。这些关键字是 SystemVerilog 的特性,而不是 Verilog-2001 的一部分。 Verilog-2001 的数据类型 在 Verilog-2001 中,支持的数据类型主要包括以下几种: …...
Dify升级-linux环境下使用zip离线安装方式部署升级
Dify安装时Linux服务器到github网络不好,git clone拉去不下来代码。使用本地windows电脑下载zip包形式上传进行了安装。但是随着dfiy版本升级,本地使用最新版本的,也需要进行下升级。参考升级指导以及自己环境情况,升级步骤如下。…...
容器修仙传 我的灵根是Pod 第9章 时空禁术(Job与CronJob)
第三卷:上古遗迹元婴篇 第9章 时空禁术(Job与CronJob) 极北冰渊深处,万丈冰层下封印着上古禁术「轮回溯光阵」。 林衍的混沌灵根突然结出冰霜——这不是寒冷所致,而是阵法中逸散的时空乱流。冰壁上刻满血色符文&…...
Web3.0的认知补充(去中心化)
涉及开发技术: Vue Web3.js Solidity 基本认知 Web3.0含义: 新一代互联网思想:去中心化及用户为中心的互联网 数据:可读可写可授权 核心技术:区块链、NFT 应用:互联网上应用 NFT &…...
【Python网络爬虫实战指南】从数据采集到反反爬策略
目录 前言技术背景与价值当前技术痛点解决方案概述目标读者说明 一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明技术选型对比 二、实战演示环境配置要求核心代码实现案例1:静态页面抓取(电商价格)案例2:动态页面抓取&…...
Atlas 800I A2 离线部署 DeepSeek-R1-Distill-Llama-70B
一、环境信息 1.1、硬件信息 Atlas 800I A2 1.2、环境信息 注意:这里驱动固件最好用商业版,我这里用的社区版有点小问题 操作系统:openEuler 22.03 LTS NPU驱动:Ascend-hdk-910b-npu-driver_24.1.rc3_linux-aarch64.run NPU固…...
基于SpringBoot+Vue的影视系统(源码+lw+部署文档+讲解),源码可白嫖!
摘要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,影视推荐系统当然不能排除在外。影视系统是在实际应用和软件工程的开发原理之上,运用Java语言以及Spring Boot、VUE框架进行开…...
搭建Stable Diffusion图像生成系统实现通过网址访问(Ngrok+Flask实现项目系统公网测试,轻量易部署)
目录 前言 背景与需求 🎯 需求分析 核心功能 网络优化 方案确认 1. 安装 Flask 和 Ngrok 2. 构建 Flask 应用 3. 使用 Ngrok 实现内网穿透 4. 测试图像生成接口 技术栈 实现流程 优化目标 实现细节 1. 迁移到Flask 2. 持久化提示词 3. 图像下载功能 …...
Java 21 的“无类主”特性:简化编程的第一步
在Java编程中,编写一个简单的“Hello, World!”程序通常需要以下代码: public class HelloWorld {public static void main(String[] args) {System.out.println("Hello, World!");} }这种结构包含了许多对初学者来说难以理解的概念ÿ…...
AI | 最近比较火的几个生成式对话 AI
关注:CodingTechWork 引言 生成式对话 AI 正在迅速改变我们与机器交互的方式,从智能助手到内容创作,其应用范围广泛且深远。本文将深入探讨几款当前热门的生成式对话 AI 模型,包括 Kimi、DeepSeek、ChatGPT、文心一言、通义千问和…...
差分信号抗噪声原理:
差分信号抗噪声原理: 差分信号除了能很好地解决发送和接收参考点电位不同的问题外,差分信号的另一个重要优势就是在一定条件下其抗干扰能力比单端信号更强。对于单端信号传输,外界对它的干扰噪声直接叠加在信号上,接收端直接检测输…...
6 种AI实用的方法,快速修复模糊照片
照片是我们记录生活的重要方式。但有时,由于各种原因,照片会变得模糊,无法展现出我们想要的效果。幸运的是,随着人工智能(AI)技术的发展,现在有多种方法可以利用 AI 修复模糊照片,让…...
JavaScript 的“积木”:函数入门与实践
引言:告别重复,拥抱模块化 想象一下,你在写代码时发现,有几段逻辑几乎一模一样,需要在不同的地方反复使用。你是选择每次都复制粘贴,还是希望能像搭积木一样,把这段逻辑封装起来,需…...
从入门到精通【MySQL】视图与用户权限管理
文章目录 📕1. 视图✏️1.1 视图的基本概念✏️1.2 试图的基本操作🔖1.2.1 创建视图🔖1.2.2 使用视图🔖1.2.3 修改数据🔖1.2.4 删除视图 ✏️1.3 视图的优点 📕2. 用户与权限管理✏️2.1 用户🔖…...
C++中的next_permutation全排列函数
目录 什么是全排列用法实现原理自定义比较函数 注意事项相关题目1.AB Problem2.P1088 火星人 什么是全排列 全排列是指从一组元素中按照一定顺序(按字典序排列)取出所有元素进行排列的所有可能情况。 例如,对于集合{1,2,3},它的全排列包括&a…...
