当前位置：首页 > news >正文

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

news 2026/2/8 18:53:11

文章目录

- 引言
- 正文
- - Abstract
  - - - 模型基本结构
        模型效果汇总
  - Introduction介绍
  - - - 跨语言任务的独特性
        思路启发和变化
        如何使用预定义好的音频特征
        如何使用预定义好的语言模型——语言模型中获取韵律信息
        结果说明
  - Dataset数据集
  - Mthods方法
  - - 使用设计好的特征进行AD检测
    - - 使用的特征
      - 分类和训练方法
    - 3.2 微调预训练的语言模型实习AD检测
  - Submission description and results
  - Conclusion
  - - 问题
- 总结
- 引用

引言

这篇文章在整个排名中，位列第三，是少有的性能比baseline效果要好的，需要好好阅读一下。

正文

Abstract

模型基本结构

这篇文章是介绍根据自发语音实现多语种AD检测，我们的方法主要有两部分构成：
- 使用不同的音频特征和静音相关的信息，进行AD检测和MMSE预测
- 调整wav2vec2.0语言识别模型，将之应用在不同的频段上

模型效果汇总

整体性能是好于baseline模型的，主要分两个方面进行介绍
AD检测方面，准确率是73.9%，通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
MMSE回归阶段，RMSE的值为4.610，主要是融合eGeMAPS和静音特征。

Introduction介绍

跨语言任务的独特性

目前根本没有任何研究是探索有哪些语音特征，能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的，提出了一个基于自发语音的多语言AD检测比赛。
这个比赛主要分为两类，分别是分类任务和MMSE回归任务，都是在英语上进行训练，然后使用希腊语进行训练的。

思路启发和变化

《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了，对于单模态AD检测而言，语言不流利和预训练的语言模型是十分有效的。
基于此，为了应对这个挑战，我们尝试了两种方法：
- 使用预先定义好的音频特征
- 使用预训练的大语言模型

如何使用预定义好的音频特征

第一种方式是使用设计好的音频特征，进行AD检测。静音相关的音频特征和语言是独立的，并且适合别的特征进了融合，在这里，我们是用XGBoost进行Ad分类，使用SVR和XGBoost进行MMSE回归任务。
XGBoost
SVR

如何使用预定义好的语言模型——语言模型中获取韵律信息

第二种方法是微调预训练的语言模型，用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型，然后使用低通滤波处理语音信号，保留语言通用韵律信息，这些信息是低频的，然后过滤那些高频的信息，比如说特定于语言的音素信息。

结果说明

通过对预训练的wav2vec模型进行微调，使之适应0-1000hz频段的语音，模型在Ad分类的准确率上达到了73.9%
通过将静音特征和eGeMAPS信息进行融合，对于MMSE的回归任务的RMSE分数达到了4.610

Dataset数据集

数据集使用的是ADReSS-M，包括了希腊语和英语两种语言的语音录音。
- 训练集：237段英语样例，8段希腊语样例
- 测试集：46段希腊语样例
训练过程中，37段英语数据作为验证集，200段音频作为训练集
8段希腊语作为我们希腊语的验证数据集
然后希腊语和英语的验证集会被同时用来进行训练

Mthods方法

使用设计好的特征进行AD检测

使用的特征

为了获取跨语言的音频表示，基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**，我们设计了10种静音特征，具体构成如下
- 每秒钟的静音次数
- 静音时间和语音持续时间的比率
- 静音和语音持续时间的统计特征（最大值、最小值、平均值和标准偏差）
使用两个声音活动检测工具来定位静音段落的位置，具体使用的工具如下
- pyannote的递归神经网络
- 查询概率结束分类器：Improved end-of-query detection for streaming speech recognition

其他声音特征

使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS（eGM）作为低频语音特征

其他语言特征

使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
然后还有其他的人口统计特征

分类和训练方法

这里使用XGBoost作为AD检测任务，然后使用SVR和XGBoost进行组合，实现MMSE的回归任务
将基于单个特征的分类模型任务进行集成学习，提高模型额准确率。
对于特征分类，这里使用了集成学习策略，包括了早期融合、特征拼接还有后期融合，甚至还有权重投票等多种方式进行测试
对于MMSE的回归任务，这里是平均多个预测回归模型输出，然后将平均结果作为最终的输出，这些效果要好于特征融合和权重投票的方式

3.2 微调预训练的语言模型实习AD检测

看了这个不禁开始感叹，这是什么条件，我靠！他用了8张A100GPU来训练600,000次。
为了能够尽快提高跨语言音频表示的学习，我们预训练了一个基于希腊语和英语的双语wav2vec-base模型，主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练，英语和希腊语各50个小时
现有的（“facebook/wav2vec2-large-xlsr-53”）和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调（平均汇集输出上具有 Sigmoid 激活函数的线性层）。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到，对于大多数频率 epoch 配置，我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后，采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。
这里没有使用facebook公开的XSLR进行训练，而是自己进行微调的wav2vec模型进行训练

Submission description and results

对于AD检测和MMSE回归任务，分别提交了5次。Ad检测是ID从1到5，MMSE回归任务是ID从6到10.
关于Ad检测任务的结果如下
最终ID5的结果最好，说明基于平衡的双语数据的预训练模型效果最好，能够有效实现跨语言检测。

在这里插入图片描述

回归任务这里就不细看了，又没有相关的数据集，不值得。

Conclusion

通过微调我们预训练的双语模型wav2vec2.0，在0-1000Hz波段的音频数据，我们在分类人中的准确率到达了73.9%，最终的结果表明，使用平衡过后的多语言数据集，并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
回归任务使用了eGeMAPS和静音特征，效果比基本的模型要好，说明这两个指标的效果很好。

问题

总结

引用

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录引言正文Abstract模型基本结构模型效果汇总 Introduction介绍跨语言任务的独特性思路启发和变化如何使用预定义好的音频特征如何使用预定义好的语言模型——语言模型中获取韵律信息结果说明 Dataset数据集Mthods方法使用设计好的特征进行AD检测使用的特征分类和训练方…...

编程日记 2023/11/16 23:04:25

第一百七十五回如何创建放射形状渐变背景

文章目录 1. 概念介绍2. 实现方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结我们在上一章回中介绍了"如何创建扇形渐变背景"相关的内容，本章回中将介绍" 如何创建放射形状渐变背景"。闲话休提，让我们一起Talk Flutter吧…...

编程日记 2023/11/16 23:03:24

vue实现调用手机拍照、录像功能

目录前言准备工作在这个示例中，我们将使用Vue.js框架来实现我们的目标。如果你还不熟悉Vue.js，推荐先学习一下Vue.js的基础知识。接下来，我们需要创建一个基于Vue.js的项目。你可以使用Vue CLI来创建一个全新的Vue项目：# 安…...

编程日记 2023/11/16 23:02:23

WPF播放视频

在WPF中，你可以使用MediaElement来播放本地视频。下面是一个简单的例子： <Window x:Class"WPFVideoPlayer.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsof…...

编程日记 2023/11/16 22:59:20

交换机如何配置BGP协议

环境： 华为交换机华三交换机问题描述： 交换机如何配置BGP协议解决方案： 华三交换机上配置案例 1.配置BGP协议，可以按照以下步骤进行： 登录交换机：使用SSH、Telnet或控制台等方式登录到华三交换…...

编程日记 2023/11/16 22:57:19

精通Nginx（14）-配置HTTPS

HTTPS是在 HTTP 协议的基础上使用 TLS/SSL 加密，其主要目标是提高数据传输的安全性。从HTTP2.0开始，HTTPS已经是网站的标准协议，很多开放平台非HTTPS不能访问。Nginx为HTTPS提供了强大的支持，且对应用服务器是完全透明的。目录 SSL/TLS基础发展历史 TLS握手过程加密…...

编程日记 2023/11/16 22:56:18

封装一个简单的table组件

子组件 <template> <el-table :data"tableData" :headers"tableHeaders" style"width: 100%"> <el-table-column v-for"header in tableHeaders" :key"header.prop" :label"header.label" :pro…...

编程日记 2023/11/16 22:53:14

Avalonia UI框架介绍

Avalonia UI是一个跨平台的UI框架，它允许开发者使用XAML和C#语言创建可在多个平台上运行的应用程序，包括Windows、Linux、macOS等。Avalonia UI与WPF非常相似，但是它是开源的，并且更加灵活。下面是一个简单的Avalonia UI应用程序…...

编程日记 2023/11/16 22:51:12

【入门篇】1.3 redis客户端之 jedis 高级使用示例

文章目录 0.前言1. 发布和订阅消息2. 事务操作3. 管道操作4. jedis 支持哨兵模式5. jedis 支持集群模式5. 参考链接 0.前言 Jedis是Redis的Java客户端，它支持所有的Redis原生命令，使用方便，且可以与Java项目无缝集成。该库的最新版本支持Re…...

编程日记 2023/11/16 22:49:09

使用CXF调用WSDL（二）

简介本篇文章主要解决了上篇文章中遗留的对象嵌套问题，要想全面解析无限极的对象嵌套需要使用递归去解决上文链接： 使用CXF调用WSDL（一） 上文回顾上文使用了单方法“ call() ”解决了List和基本类型（含String&…...

编程日记 2023/11/16 22:48:08

直接去看原文原文链接:List的toArray()方法_list.toarray-CSDN博客 -------------------------------------------------------------------------------------------------------------------------------- toArray()介绍 toArray()方法是List接口中提供的方法&#xff…...

编程日记 2023/11/16 22:47:06

2013年11月10日 Go生态洞察：Go语言四周年回顾

🌷🍁 博主猫头虎（🐅🐾）带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

编程日记 2023/11/16 22:46:05

Ubuntu上使用SSH连接到CentOS系统

确保CentOS系统上的SSH服务器已安装并正在运行： 在CentOS上，默认情况下，SSH服务器（sshd）应该已安装并正在运行。如果不确定，可以通过以下方式检查： sudo systemctl status sshd如果未安装&…...

编程日记 2023/11/16 22:44:03

【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记

A Survey of Knowledge-Enhanced Pre-trained Language Models Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, Senior Member, IEEE and Juanzi Li 2023年8月的一篇关于知识增强预训练模型的文献综述论文思维导图思维导图网页上看不清的话，可以存…...

编程日记 2023/11/16 22:42:00

shell脚本之函数

快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解（如有不正确的地方欢迎各位小伙伴在评论区提意见，博主会及时修改） 函数一，什么是函数函数是一段功能代码,用来解决shell编程中冗余代码[重复且不连续出现的功能…...

编程日记 2023/11/16 22:40:59

订水商城实战教程10-宫格导航

上一篇我们介绍了跑马灯的功能，这一篇就进入到我们的主体部分开发。在订水商城业务中可以按照分类查询商品信息，这就涉及到数据源的拆分。我们在数据源的设计中区分为主子表，主表呢存储唯一的记录，子表的记录可以重复&#xff0…...

编程日记 2023/11/16 22:39:57

【C++11】lambda表达式 | 包装器

文章目录一、 lambda表达式lambda表达式的引入lambda表达式的语法lambda表达式与函数对象lambda表达式的捕捉列表二、包装器function包装器bind包装器一、 lambda表达式 lambda表达式的引入在C98中，为了替代函数指针，C设计出了仿函数，也…...

编程日记 2023/11/16 22:38:56

网络安全准入技术之MAC VLAN

网络准入控制作为主要保障企业网络基础设施的安全的措施，特别是对于中大型企业来说，终端类型多样数量激增、终端管理任务重难度大、成本高。在这样的一个大背景下，拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…...

编程日记 2023/11/16 22:36:54

MyBatis 操作数据库

文章目录 1. 什么是MyBatis？2. 入门MyBatis2.1 准备工作2.2.1 创建springboot项目2.2.2 数据准备 2.2 配置数据库连接2.3 写持久层代码2.4 单元测试2.4.1 web测试2.4.2 自动测试 1. 什么是MyBatis？ MyBatis是一种持久层框架，用于简化JDBC的开…...

编程日记 2023/11/16 22:35:52

设计模式 -- 建造者模式（Builder Pattern）

这个模式以前也义Android-kotlin的场景下讲过 Android 用建造者模式模式写一个Dialog-CSDN博客不过用的是变种的建造者模式建造者模式： 属于创建型模式提供了一种创建对象的最佳方式， 使用多个简单的对象一步一步构建成一个复杂的对象。介绍意图…...

编程日记 2023/11/16 22:34:50

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2026/2/4 16:06:56

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

使用rpicam-app通过网络流式传输视频使用 rpicam-app 通过网络流式传输视频UDPTCPRTSPlibavGStreamerRTPlibcamerasrc GStreamer 元素文章来源： http://raspberry.dns8844.cn/documentation 原文网址使用 rpicam-app 通过网络流式传输视频本节介绍来自 rpica…...

编程新知 2025/11/5 13:03:58

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/1/30 20:05:06

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2026/1/31 17:09:43

Spring AI与Spring Modulith核心技术解析

Spring AI核心架构解析 Spring AI（https://spring.io/projects/spring-ai）作为Spring生态中的AI集成框架，其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似，但特别为多语…...

编程新知 2025/12/14 17:38:21

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/12/6 10:54:35

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56

uniapp 字符包含的相关方法

在uniapp中，如果你想检查一个字符串是否包含另一个子字符串，你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的，但它们在处理方式和返回值上有所不同。使用includes()方法 includes()方法用于判断一个字…...

编程新知 2025/9/28 19:00:18