ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测
阿尔兹海默病(Alzheimer's Disease, AD)是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病,及早发现对于其干预和治疗至关重要。近期,清华大学语音与音频技术实验室(SATLab)提出了一种将停顿信息进行编码,并与语言模型中的文本嵌入融合的方法,可以有效提升基于自发语音的AD检测效果。该论文已发表于ICASSP 2025。
论文链接:https://arxiv.org/abs/2501.06727
背景介绍
阿尔兹海默病(Alzheimer's Disease, AD)是一种神经退行性疾病。患上阿尔兹海默病后,患者的大脑会发生病理变化,导致认知能力下降、表达能力退化等现象。临床研究表明,早期治疗可以有效延缓阿尔兹海默病的恶化。因此,AD检测方法的开发对于该疾病的及早诊治至关重要。
阿尔兹海默病对患者自发语音内容的影响促使人们探索自然语言处理技术,以实现可靠的AD检测。而AD检测中另一个关键指标是语音中的停顿,而通过语音停顿检测阿尔兹海默病在最近的文献中得到了广泛关注。
虽然目前已有一些将停顿信息与语言特征相结合的尝试,但还没有一种方法能将停顿信息深度融合到语言模型中。在本文中,我们提出了一种方法,在语言模型的编码阶段将停顿与文本内容相结合,以捕捉语音中的语义和副语言特征,从而提高 AD 检测的性能。
工作原理
在我们的方法中,我们利用预训练的 BERT 模型作为基础模型来捕捉语义信息。而停顿信息在被编码后与现有的词嵌入一起集成到 BERT 模型架构中。我们采用可学习的嵌入映射方法, 将每一个单词的持续时间和停顿时间分别编码为嵌入。然后,将这两个嵌入在特征维度上拼接起来,并将其添加到词嵌入中,从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。
在停顿信息的编码过程中,我们引入了一种将时间特征编码到嵌入中的新方法。使用WhisperX语音识别模型转录自发语音后,我们提取转录文本中每个单词的持续时间和停顿时间,将它们结合为一个停顿标记,并在一定区间内进行均匀量化,得到一个停顿标记的码本,之后对其进行可学习的嵌入映射。
实验结果
在ADReSS数据集上,所提出的模型取得了81.2%的准确率,优于之前结合停顿与文本特征的模型BERT3p;在ADReSSo数据集上,所提出的模型展现了更好的泛化性,83.1%的准确率优于BERT3p及其他使用停顿特征的模型。该结果证明了所提出方法的有效性。
结 论
本文研究表明,将停顿信息融入语言模型能够有效提升阿尔兹海默病的检测性能。通过捕捉自发语音中的时间特征,模型在区分AD患者与健康个体方面表现出更强的判别能力,验证了停顿作为潜在生物标志物在AD早期检测中的应用价值。本研究为构建更精准、非侵入性、低成本的AD检测手段提供了新思路,对推动神经退行性疾病的早期诊断和治疗具有重要意义。
学生作者信息
蒲钰,清华大学电子系二年级硕士生,研究方向为阿尔兹海默病检测和端到端语音交互。
点击下面【阅读原文】跳转arXiv获取全文:
相关文章:

ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测
阿尔兹海默病(Alzheimers Disease, AD)是一种以认知能力下降和记忆丧失为特征的渐进性神经退行性疾病,及早发现对于其干预和治疗至关重要。近期,清华大学语音与音频技术实验室(SATLab)提出了一种将停顿信息…...
[蓝桥杯]春晚魔术【算法赛】
目录 输入格式 输出格式 样例输入 样例输出 运行限制 解决思路 代码说明 复杂度分析 问题描述 在蓝桥卫视春晚的直播现场,魔术师小蓝表演了一个红包魔术。只见他拿出了三个红包,里边分别装有 A、B 和 C 个金币。而后,他挥动魔术棒&a…...
LeetCode - 965. 单值二叉树
目录 题目 深度优先搜索方法 正确的写法 题目 965. 单值二叉树 - 力扣(LeetCode) 深度优先搜索方法 什么是深度优先搜索:深度优先搜索(DFS)是一种图或树的遍历算法,它从起始节点开始,尽可能深地沿着一条路径探索&…...

LabVIEW杂草识别与精准喷洒
基于LabVIEW构建了一套集成机器视觉、智能决策与精准控制的农业杂草识别系统。通过高分辨率视觉传感器采集作物图像,利用 LabVIEW 的 NI Vision 模块实现图像颜色匹配与特征分析,结合 Arduino 兼容的工业级控制硬件,实现杂草定位与除草剂精准…...
分布式不同数据的一致性模型
1. 强一致性(Strong Consistency) 定义:所有节点在任何时间点看到的数据完全一致,读操作总是返回最近的写操作结果。特点: 写操作完成后,所有后续读操作都能立即看到更新。通常需要同步机制(如…...
“application/json“,“text/plain“ 分别表示什么
这两个字符串:“application/json” 和 “text/plain” 是 MIME 类型(媒体类型),用于告诉接收方消息内容的格式,它们出现在 ContentType 字段中。 它告诉系统或程序:“这段数据是什么格式?” 格…...
SQL: 窗口滑动(Sliding Window)
目录 什么是“窗口”? 什么是“滑动”? 🔍 滑动窗口的核心: 🕒 什么是时间窗口?(Time Window) 时间窗口的基本结构 时间窗口的三种常见形式 📊 什么是行窗口&…...

学习日记-day20-6.1
完成目标: 知识点: 1.集合_Collections集合工具类 方法:static <T> boolean addAll(Collection<? super T> c, T... elements)->批量添加元素 static void shuffle(List<?> list) ->将集合中的元素顺序打乱static <T>…...

【音视频】 FFmpeg 解码H265
一、概述 实现了使用FFmpeg读取对应H265文件,并且保存为对应的yuv文件 二、实现流程 读取文件 将H265/H264文件放在build路径下,然后指定输出为yuv格式 在main函数中读取外部参数 if (argc < 2){fprintf(stderr, "Usage: %s <input file&…...
Linux 系统 Docker Compose 安装
个人博客地址:Linux 系统 Docker Compose 安装 | 一张假钞的真实世界 本文方法是直接下载 GitHub 项目的 release 版本。项目地址:GitHub - docker/compose: Define and run multi-container applications with Docker。 执行以下命令将发布程序加载至…...

软件测试|FIT故障注入测试工具——ISO 26262合规下的智能汽车安全验证引擎
FIT(Fault Injection Tester)是SURESOFT专为汽车电子与工业控制设计的自动化故障注入测试工具,基于ISO 26262等国际安全标准开发,旨在解决传统测试中效率低、成本高、安全隐患难以复现的问题,其核心功能包括…...

3D拟合测量水杯半径
1,目的。 测量水杯的半径 如图所示: 2,原理。 对 3D 点云对象 进行圆柱体拟合,获取拟合后的半径。 3,注意事项。 在Halcon中使用fit_primitives_object_model_3d进行圆柱体拟合时,输出的primitive_para…...
(21)量子计算对密码学的影响
文章目录 2️⃣1️⃣ 量子计算对密码学的影响 🌌🔍 TL;DR🚀 量子计算:密码学的终结者?⚡ 量子计算的破坏力 🔐 Java密码学体系面临的量子威胁🔥 受影响最严重的Java安全组件 🛡️ 后…...

Python训练打卡Day38
Dataset和Dataloader类 知识点回顾: Dataset类的__getitem__和__len__方法(本质是python的特殊方法)Dataloader类minist手写数据集的了解 在遇到大规模数据集时,显存常常无法一次性存储所有数据,所以需要使用分批训练的…...

Selenium基础操作方法详解
Selenium基础操作方法详解:从零开始编写自动化脚本(附完整代码) 引言 Selenium是自动化测试和网页操作的利器,但对于新手来说,掌握基础操作是成功的第一步。本文将手把手教你使用Selenium完成浏览器初始化、元素定位、…...
Kali Linux从入门到实战:系统详解与工具指南
一、Kali Linux简介 Kali Linux是一款基于Debian的Linux发行版,专为渗透测试和网络安全审计设计,由Offensive Security团队维护。其前身是BackTrack,目前集成了超过600款安全工具,覆盖渗透测试全流程,是网络安全领域…...
【大模型】Bert变种
1. RoBERTa(Robustly optimized BERT approach) 核心改动 取消 NSP(Next Sentence Prediction)任务,研究发现 NSP 对多数下游任务贡献有限。动态遮蔽(dynamic masking):每个 epoch …...
vue-09(使用自定义事件和作用域插槽构建可重用组件)
实践练习:使用自定义事件和作用域插槽构建可重用组件 构建可重用的组件是高效 Vue.js 开发的基石。本课重点介绍如何通过自定义事件和范围插槽来增强组件的可重用性,从而实现更灵活和动态的组件交互。我们将探索如何定义和发出自定义事件,使…...

简单三步FastAdmin 开源框架的安装
简单三步FastAdmin 开源框架的安装 第一步:新建站点1,在宝塔面板中,创建一个新的站点,并填写项目域名。 第二步:上传框架1,框架下载2,上传解压缩 第三步:配置并安装1,进入…...

RISC-V 开发板 MUSE Pi Pro 搭建 Spacengine AI模型部署环境
视频讲解: RISC-V 开发板 MUSE Pi Pro 搭建 Spacengine AI模型部署环境 Spacengine 是由 进迭时空 研发的一套 AI 算法模型部署工具,可以方便的帮助用户部署自己的模型在端侧, 环境部署的方式,官方提供了两种方式: do…...
C++面试5——对象存储区域详解
C++对象存储区域详解 核心观点:内存是程序员的战场,存储区域决定对象的生杀大权!栈对象自动赴死,堆对象生死由你,全局对象永生不死,常量区对象只读不灭。 一、四大地域生死簿 栈区(Stack) • 特点:自动分配释放,速度极快(类似高铁进出站) • 生存期:函数大括号{}就…...

【Unity】AudioSource超过MaxDistance还是能听见
unity版本:2022.3.51f1c1 将SpatialBlend拉到1即可 或者这里改到0 Hearing audio outside max distance - #11 by wderstine - Questions & Answers - Unity Discussions...
基于 51 单片机的智能饮水机控制系统设计与实现
一、引言 随着物联网技术的发展,传统家电的智能化升级成为趋势。本文提出一种基于 51 单片机的智能饮水机设计方案,实现水温精准控制、水位监测、人机交互等功能,具有成本低、稳定性高的特点,适用于家庭和小型办公场景。 二、硬件设计 2.1 核心芯片选型 单片机:选用STC…...

Qt 读取和写入 INI 格式的配置文件
Qt 读取和写入 INI 格式的配置文件 前言:INI 配置文件在 Qt 开发中的重要性基础夯实:INI 文件结构与 QSettings 核心概念1. INI 文件的基本结构2. QSettings 类概述3. 初始化 QSettings 对象4. 基本读写操作5. 高级操作技巧5.1 处理数组和列表5.2 检查键…...
互联网大厂Java求职面试:AI与云原生架构实战解析
互联网大厂Java求职面试:AI与云原生架构实战解析 面试背景设定 场景:某互联网头部企业技术总监办公室,窗外是城市夜景,室内灯光柔和。面试官是一位经验丰富的技术总监,面前摆着一杯黑咖啡和候选人的简历。 候选人&a…...

Spring:从青铜到王者,你的Java修炼手册
一、Spring家族宇宙:原来你是这样的框架(青铜段位) 1.1 Spring的"前世今生":从泡面到满汉全席 2002年的泡面哲学:Rod Johnson在厨房煮泡面时突然顿悟:"Java开发为什么不能像泡面一…...
React和原生事件的区别
一、核心差异对比表 维度原生事件React 事件绑定语法HTML 属性(onclick)或 DOM API(addEventListener)JSX 中使用驼峰式属性(onClick)绑定位置直接绑定到具体 DOM 元素统一委托到根节点(React …...

Qt creator 设计页面控件认识与了解
记录一下 Qt 中的认识与了解: 在 Qt 中,这些功能属于 Qt Designer 的组件过滤系统,旨在帮助开发者在对象浏览器中快速定位和使用不同类型的控件和组件。以下是每个功能的详细讲解: Layouts(布局)&…...
命象架构法 02|你的系统有“用神”吗?
命理中说:“八字无用神,是虚命。” 系统架构中说:“模块无主线,是垃圾桶。” 你设计了无数类,却不知道哪个是核心。 那么你的系统,很可能是没有“用神”的。 01|什么是“用神”?不是你以为的“最好” 命理中,“用神”不是“最强的”,而是对命主最有帮助的。 比如一…...

NVIDIA Mellanox BlueField-2 DPU(Data Processing Unit)智能网卡的调试和使用
专有名词 OOB: BMC: BFB: EMMC: 关键词解释eMMCEmbedded Multi-Media Card——把 NAND 闪存颗粒与控制器封装在一起的板载存储件,类似手机里的“内置储存” .deb:文件是Debian软件包格式的专…...