当前位置：首页 > article >正文

2025 年“泰迪杯”数据挖掘挑战赛B题——基于穿戴装备的身体活动监测问题分析

article 2026/2/8 4:40:01

摘要

本文聚焦于基于穿戴设备采集的加速度计数据，深入研究志愿者在日常活动中的行为特征，构建了多个数学建模框架，实现从身体活动监测、能耗预测、睡眠阶段识别到久坐预警等多个目标。我们依托于多源数据融合与机器学习模型，对人体活动状态进行识别与分析，为健康管理、行为干预和个性化医疗提供理论支持和模型工具。
针对问题一：问题一旨在通过加速度数据对志愿者的行为类型进行分类统计，建立活动识别与时间累计模型。我们首先依据MET（代谢当量）值的分级标准，将原始标注信息映射为五类活动状态，并统计每位志愿者在各类活动下的累计时长。通过正则表达式提取有效信息、异常数据过滤与时间累积计算，构建了行为分类与时间统计模型。结果显示，志愿者在各活动状态上的时间分布具有明显个体差异，为后续健康分析提供了初步依据。
针对问题二：问题二围绕MET值的实时预测展开，构建了以滑动窗口为基础的机器学习回归模型。我们融合统计学特征提取与个体属性信息（性别、年龄），使用随机森林回归与梯度提升树（GBDT）对窗口级活动强度进行建模与预测。模型评估中，GBDT表现出更高的预测精度，特别是在低强度（睡眠/静态）阶段的拟合效果上优于RF。预测结果被用于活动强度分类，并统计20位志愿者的运动结构，验证了模型在实际应用中的有效性与泛化能力。
针对问题三：问题三为无监督聚类建模，旨在识别志愿者夜间的睡眠阶段分布。我们提取睡眠相关加速度特征，如静止率、合加速度能量等，结合滑动窗口策略，使用K-Means与DBSCAN聚类算法对睡眠状态进行分层划分。K-Means能够初步划分清晰阶段，而DBSCAN在识别异常段和过渡状态方面更具优势。最终统计每位志愿者的深度睡眠、浅睡眠与觉醒时长，展示其夜间睡眠结构，为评估个体睡眠质量与节律提供模型基础。
针对问题四：问题四聚焦于久坐行为的识别与健康预警机制构建。基于预测得到的MET值与静态加速度特征，我们通过构建滑窗级“静态行为”标签序列，识别并合并符合30分钟以上标准的“久坐段”。进一步依据累积时长与单段时长判断健康风险等级，划分“安全”“一般提醒”“高风险”三级预警输出，并对20位志愿者的数据进行应用分析。结果显示，多数志愿者存在高风险久坐行为，模型能够有效识别潜在健康隐患。
综上所述，本文围绕加速度数据在健康行为建模中的多维应用，提出了完整的行为识别、能耗预测、睡眠划分与久坐预警模型。我们综合运用了正则匹配、统计特征提取、随机森林、GBDT、K-Means、DBSCAN等算法与方法，全面展示了穿戴设备数据在人体健康建模领域的应用潜力。这些模型不仅揭示了个体间的行为差异，也为智能健康管理系统的设计提供了理论依据与实证支撑。
关键词：MET（代谢当量）值；随机森林；GBDT；K-Means；DBSCAN

一、引言

在可穿戴健康监测研究领域[1] ，加速度计作为便捷的生理数据采集手段，其在个体活动识别与健康风险预警中的应用价值日益凸显[2] 。本文旨在基于穿戴设备采集的三轴加速度数据，综合构建多种行为识别与预测模型，从多个维度评估个体身体活动、能耗水平及其潜在健康风险。为此，我们系统引入了统计分析、监督学习、无监督聚类和行为规则识别等多种建模思路，对原始加速度数据进行深度挖掘。

首先，我们依据国际公认的MET分级标准，对志愿者数据进行分类，并通过时序累积模型计算各类活动状态的时长，实现了对志愿者运动结构的全面统计与对比。其次，采用滑动窗口特征提取与回归建模策略，构建了基于随机森林（Random Forest）与梯度提升树（GBDT）的能耗预测模型，成功实现对时间片段内MET值的高精度估计[3] 。随后，在无监督场景下，我们应用K-Means[4] 与DBSCAN聚类[5] 方法，识别出夜间睡眠数据中的深度睡眠、浅睡眠与觉醒状态，展示了不同志愿者的睡眠结构差异与模式。最后，针对久坐风险识别问题，本文基于规则模型与滑窗统计方法，构建了“持续性静态行为”检测机制，并提出健康预警等级分类体系，实现了对20位志愿者的风险筛查。

综上所述，本文综合运用多种算法模型与行为分析机制，对穿戴加速度数据中的活动识别、能耗预测、睡眠分期和久坐预警问题进行了系统建模与实证分析，不仅揭示了个体行为的结构性特征，也为智能健康干预系统的构建提供了理论与数据支持[6] 。

1.1 问题背景

随着可穿戴技术的不断发展，智能手环、智能手表等设备已广泛应用于日常生活中。这些设备不仅能够实时采集用户的生理信号和运动状态，还能为个体健康管理提供便捷手段。在国家提倡“主动健康”和“精准医疗”理念的背景下，如何从海量的原始传感数据中挖掘出对个体行为模式、健康风险和生活习惯具有解释力的信息，成为一个多学科交叉的研究热点。

特别是在现代生活节奏加快、慢性病发病率上升的趋势下，诸如久坐行为、睡眠障碍、体力活动不足等“隐性危险因素”日益受到重视。这类行为往往难以通过传统问卷调查等方式进行准确识别，而可穿戴设备所提供的加速度计、心率计等多维数据，为其自动识别和长期跟踪提供了新的解决方案。

同时，针对不同人群（如学生、办公人群、老年群体）设计个性化健康干预策略，需要对行为状态进行科学划分与动态监测。这对数据的连续性、分类的准确性以及结果的解释性提出了更高要求。因此，从原始加速度数据中识别出个体的活动水平、睡眠结构、以及潜在的高风险行为，对于提升公共健康水平、辅助临床干预以及完善城市健康管理体系具有重要的理论意义和现实价值。

1.2 问题提出

考虑到问题陈述中确定的背景信息和限制条件，我们需要解决以下问题：

问题 1：基于穿戴设备采集的加速度数据和已有的MET值标注信息，对每位志愿者的日常活动进行分类，并统计各类活动下的累计时长。

问题 2：利用加速度计数据和个体属性信息，构建一个能够预测MET值的机器学习模型，并据此统计志愿者在不同活动强度等级下的时间分布。

问题 3：在无标签数据的前提下，基于夜间加速度数据，识别志愿者的睡眠阶段分布，并统计每一阶段的持续时间。

问题 4：通过分析志愿者的加速度数据，识别出符合“久坐行为”定义的连续静态状态，并据此判断其健康风险等级，输出预警提示。

二、问题分析

问题一：本问题的核心是根据志愿者佩戴设备采集到的三轴加速度数据以及包含 MET 值的标注信息，识别其所处的活动状态，并统计在不同状态下的总时长。关键在于如何从 annotation 字段中提取 MET 值，并基于国际标准进行活动分类。需特别关注时间戳的准确性和数据间隔的合理性，以确保统计计算的时长精度。同时，为保证统计结果的可靠性，还需要在数据预处理阶段识别并剔除异常值与无效数据。

问题二：本问题旨在基于加速度计的连续信号数据与个体属性，构建一个监督学习模型用于预测 MET 值。为此需将原始时间序列划分为滑动窗口，并从每个窗口中提取特征变量，如加速度的均值、方差、能量等指标。模型应能够对不同个体、不同活动状态下的 MET 值做出稳定预测，并对高、低强度活动进行有效区分。此外，问题要求模型能处理大规模样本，具备良好的泛化能力，最终输出分类后的活动时长统计结果。

问题三：问题三是一个典型的无监督聚类任务，需要在缺乏标签的情况下，基于夜间加速度数据识别志愿者的睡眠阶段。由于加速度信号在不同睡眠阶段表现出显著差异，需设计合理的滑动窗口特征提取策略，并依据合加速度变化、静止率、微动频率等指标进行聚类分析。还需解决聚类结果中阶段切换不连续的问题，因此阶段平滑机制的构建也是关键步骤之一，最终目标是输出每位志愿者的阶段时长分布情况。

问题四：该问题聚焦于“久坐行为”的识别与风险预警。需要从滑窗级别的加速度特征中判定是否为静态状态，并依据时间连续性进行“久坐段”的合并识别。判断标准需满足 MET 值低、静止率高且持续时长超过 30 分钟等条件。此外，为了使结果具备实际意义，还需引入合理的风险分级机制，对不同个体的久坐行为进行预警提示，从而为健康管理提供依据。

三、模型假设与符号说明

3.1 模型基本假设

1.加速度数据真实可靠假设

假设所有穿戴设备采集的三轴加速度数据准确反映了志愿者的实际活动状态，未受设备硬件故障或佩戴不当的影响。

2.时间戳等间隔假设

假设加速度数据在采样过程中时间间隔相对均匀，若存在微小波动或缺失，通过滑动窗口策略可以有效平滑处理，不影响整体趋势识别。

3.MET 值标注合理假设

在训练或统计中使用的 MET 值标签真实反映了志愿者在相应时间段内的活动强度，误标或缺失数据已在预处理阶段剔除。

4.个体属性稳定假设

假设每位志愿者的年龄与性别等个体属性不随时间变化，并在样本构建中保持恒定，可用于与加速度特征融合建模。

5.活动分级标准统一假设

活动强度的划分标准（如 MET < 1.0 为睡眠，MET ≥ 6.0 为高强度等）适用于所有样本，具备普适性。

6.特征窗口代表性假设

滑动窗口提取的加速度统计特征可以充分代表该时间段的活动状态，窗口长度和步长设置合理，不会掩盖重要行为变化。

7.志愿者行为具有可分性假设

假设不同活动状态（如深睡眠、久坐、高强度运动）在特征空间中具有一定的可区分性，使得聚类、分类或回归模型能够有效识别。

8.静态状态与久坐行为一致假设

在问题四中，假设满足低 MET 且连续静止状态的时间段可视为“久坐行为”，并与健康风险等级存在显著关联。

9.样本间独立性假设

构建回归或聚类模型时，假设各个滑窗样本之间在建模过程中互不影响，且不存在明显的时间或空间依赖关系。

10.特征与输出稳定映射假设

在监督学习任务中，假设加速度特征与 MET 值之间存在稳定可学习的非线性映射关系，能够被随机森林或 GBDT 等模型捕捉。

四、基于加速度数据的志愿者活动统计建模

4.1 问题重述与建模目标

本题旨在根据穿戴式设备采集的加速度计数据，结合已有的 MET 值标注信息，对每位志愿者的日常活动进行分类，并计算其在不同活动类型下的累计时长。具体目标是输出每位志愿者的如下信息：

记录总时长（小时）

睡眠总时长（MET < 1.0）

静态活动总时长（1.0≤MET<1.6）

低强度活动总时长（1.6≤MET<3.0）

中等强度活动总时长（3.0≤MET<6.0）

高等强度活动总时长（MET≥ 6.0 ）

4.2 数据说明与预处理

每位志愿者对应一个.csv数据文件，格式如下表1：

4.3 MET 值提取与分类规则

从annotation字符串中使用正则表达式提取 MET 值，并依据以下区间划分活动类型：

该规则参考了国际公认的能量消耗分级标准（Compen