论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE
文章目录
- 引言
- 正文
- Abstract
- 模型基本结构
- 模型效果汇总
- Introduction介绍
- 跨语言任务的独特性
- 思路启发和变化
- 如何使用预定义好的音频特征
- 如何使用预定义好的语言模型——语言模型中获取韵律信息
- 结果说明
- Dataset数据集
- Mthods方法
- 使用设计好的特征进行AD检测
- 使用的特征
- 分类和训练方法
- 3.2 微调预训练的语言模型实习AD检测
- Submission description and results
- Conclusion
- 问题
- 总结
- 引用
引言
- 这篇文章在整个排名中,位列第三,是少有的性能比baseline效果要好的,需要好好阅读一下。
正文
Abstract
模型基本结构
- 这篇文章是介绍根据自发语音实现多语种AD检测,我们的方法主要有两部分构成:
- 使用不同的音频特征和静音相关的信息,进行AD检测和MMSE预测
- 调整wav2vec2.0语言识别模型,将之应用在不同的频段上
模型效果汇总
- 整体性能是好于baseline模型的,主要分两个方面进行介绍
- AD检测方面,准确率是73.9%,通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
- MMSE回归阶段,RMSE的值为4.610,主要是融合eGeMAPS和静音特征。
Introduction介绍
跨语言任务的独特性
- 目前根本没有任何研究是探索有哪些语音特征,能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的,提出了一个基于自发语音的多语言AD检测比赛。
- 这个比赛主要分为两类,分别是分类任务和MMSE回归任务,都是在英语上进行训练,然后使用希腊语进行训练的。
思路启发和变化
- 《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了,对于单模态AD检测而言,语言不流利和预训练的语言模型是十分有效的。
- 基于此,为了应对这个挑战,我们尝试了两种方法:
- 使用预先定义好的音频特征
- 使用预训练的大语言模型
如何使用预定义好的音频特征
- 第一种方式是使用设计好的音频特征,进行AD检测。静音相关的音频特征和语言是独立的,并且适合别的特征进了融合,在这里,我们是用XGBoost进行Ad分类,使用SVR和XGBoost进行MMSE回归任务。
- XGBoost
- SVR
如何使用预定义好的语言模型——语言模型中获取韵律信息
- 第二种方法是微调预训练的语言模型,用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型,然后使用低通滤波处理语音信号,保留语言通用韵律信息,这些信息是低频的,然后过滤那些高频的信息,比如说特定于语言的音素信息。
结果说明
- 通过对预训练的wav2vec模型进行微调,使之适应0-1000hz频段的语音,模型在Ad分类的准确率上达到了73.9%
- 通过将静音特征和eGeMAPS信息进行融合,对于MMSE的回归任务的RMSE分数达到了4.610
Dataset数据集
- 数据集使用的是ADReSS-M,包括了希腊语和英语两种语言的语音录音。
- 训练集:237段英语样例,8段希腊语样例
- 测试集:46段希腊语样例
- 训练过程中,37段英语数据作为验证集,200段音频作为训练集
- 8段希腊语作为我们希腊语的验证数据集
- 然后希腊语和英语的验证集会被同时用来进行训练
Mthods方法
使用设计好的特征进行AD检测
使用的特征
-
为了获取跨语言的音频表示,基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**,我们设计了10种静音特征,具体构成如下
- 每秒钟的静音次数
- 静音时间和语音持续时间的比率
- 静音和语音持续时间的统计特征(最大值、最小值、平均值和标准偏差)
-
使用两个声音活动检测工具来定位静音段落的位置,具体使用的工具如下
- pyannote的递归神经网络
- 查询概率结束分类器:Improved end-of-query detection for streaming speech recognition
其他声音特征
- 使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS(eGM)作为低频语音特征
其他语言特征
- 使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
- 然后还有其他的人口统计特征
分类和训练方法
- 这里使用XGBoost作为AD检测任务,然后使用SVR和XGBoost进行组合,实现MMSE的回归任务
- 将基于单个特征的分类模型任务进行集成学习,提高模型额准确率。
- 对于特征分类,这里使用了集成学习策略,包括了早期融合、特征拼接还有后期融合,甚至还有权重投票等多种方式进行测试
- 对于MMSE的回归任务,这里是平均多个预测回归模型输出,然后将平均结果作为最终的输出,这些效果要好于特征融合和权重投票的方式
3.2 微调预训练的语言模型实习AD检测
-
看了这个不禁开始感叹,这是什么条件,我靠!他用了8张A100GPU来训练600,000次。
-
为了能够尽快提高跨语言音频表示的学习,我们预训练了一个基于希腊语和英语的双语wav2vec-base模型,主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练,英语和希腊语各50个小时
-
现有的(“facebook/wav2vec2-large-xlsr-53”)和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调(平均汇集输出上具有 Sigmoid 激活函数的线性层)。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到,对于大多数频率 epoch 配置,我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后,采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。
-
这里没有使用facebook公开的XSLR进行训练,而是自己进行微调的wav2vec模型进行训练
Submission description and results
-
对于AD检测和MMSE回归任务,分别提交了5次。Ad检测是ID从1到5,MMSE回归任务是ID从6到10.
-
关于Ad检测任务的结果如下
-
最终ID5的结果最好,说明基于平衡的双语数据的预训练模型效果最好,能够有效实现跨语言检测。
- 回归任务这里就不细看了,又没有相关的数据集,不值得。
Conclusion
- 通过微调我们预训练的双语模型wav2vec2.0,在0-1000Hz波段的音频数据,我们在分类人中的准确率到达了73.9%,最终的结果表明,使用平衡过后的多语言数据集,并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
- 回归任务使用了eGeMAPS和静音特征,效果比基本的模型要好,说明这两个指标的效果很好。
问题
总结
引用
相关文章:

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE
文章目录 引言正文Abstract模型基本结构模型效果汇总 Introduction介绍跨语言任务的独特性思路启发和变化如何使用预定义好的音频特征如何使用预定义好的语言模型——语言模型中获取韵律信息结果说明 Dataset数据集Mthods方法使用设计好的特征进行AD检测使用的特征分类和训练方…...

第一百七十五回 如何创建放射形状渐变背景
文章目录 1. 概念介绍2. 实现方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 我们在 上一章回中介绍了"如何创建扇形渐变背景"相关的内容,本章回中将介绍" 如何创建放射形状渐变背景"。闲话休提,让我们一起Talk Flutter吧…...
vue实现调用手机拍照、录像功能
目录 前言 准备工作 在这个示例中,我们将使用Vue.js框架来实现我们的目标。如果你还不熟悉Vue.js,推荐先学习一下Vue.js的基础知识。 接下来,我们需要创建一个基于Vue.js的项目。你可以使用Vue CLI来创建一个全新的Vue项目:# 安…...
WPF播放视频
在WPF中,你可以使用MediaElement来播放本地视频。下面是一个简单的例子: <Window x:Class"WPFVideoPlayer.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsof…...

交换机如何配置BGP协议
环境: 华为交换机 华三交换机 问题描述: 交换机如何配置BGP协议 解决方案: 华三交换机上配置案例 1.配置BGP协议,可以按照以下步骤进行: 登录交换机:使用SSH、Telnet或控制台等方式登录到华三交换…...
精通Nginx(14)-配置HTTPS
HTTPS是在 HTTP 协议的基础上使用 TLS/SSL 加密,其主要目标是提高数据传输的安全性。从HTTP2.0开始,HTTPS已经是网站的标准协议,很多开放平台非HTTPS不能访问。Nginx为HTTPS提供了强大的支持,且对应用服务器是完全透明的。 目录 SSL/TLS基础 发展历史 TLS握手过程 加密…...
封装一个简单的table组件
子组件 <template> <el-table :data"tableData" :headers"tableHeaders" style"width: 100%"> <el-table-column v-for"header in tableHeaders" :key"header.prop" :label"header.label" :pro…...
Avalonia UI框架介绍
Avalonia UI是一个跨平台的UI框架,它允许开发者使用XAML和C#语言创建可在多个平台上运行的应用程序,包括Windows、Linux、macOS等。Avalonia UI与WPF非常相似,但是它是开源的,并且更加灵活。 下面是一个简单的Avalonia UI应用程序…...

【入门篇】1.3 redis客户端之 jedis 高级使用示例
文章目录 0.前言1. 发布和订阅消息2. 事务操作3. 管道操作4. jedis 支持哨兵模式5. jedis 支持集群模式5. 参考链接 0.前言 Jedis是Redis的Java客户端,它支持所有的Redis原生命令,使用方便,且可以与Java项目无缝集成。 该库的最新版本支持Re…...

使用CXF调用WSDL(二)
简介 本篇文章主要解决了上篇文章中遗留的对象嵌套问题,要想全面解析无限极的对象嵌套需要使用递归去解决 上文链接: 使用CXF调用WSDL(一) 上文回顾 上文使用了单方法“ call() ”解决了List和基本类型(含String&…...
list.toArray
直接去看原文 原文链接:List的toArray()方法_list.toarray-CSDN博客 -------------------------------------------------------------------------------------------------------------------------------- toArray()介绍 toArray()方法是List接口中提供的方法ÿ…...

2013年11月10日 Go生态洞察:Go语言四周年回顾
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...
Ubuntu上使用SSH连接到CentOS系统
确保CentOS系统上的SSH服务器已安装并正在运行: 在CentOS上,默认情况下,SSH服务器(sshd)应该已安装并正在运行。如果不确定,可以通过以下方式检查: sudo systemctl status sshd如果未安装&…...

【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记
A Survey of Knowledge-Enhanced Pre-trained Language Models Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, Senior Member, IEEE and Juanzi Li 2023年8月的一篇关于知识增强预训练模型的文献综述 论文思维导图 思维导图网页上看不清的话,可以存…...
shell脚本之函数
快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解(如有不正确的地方欢迎各位小伙伴在评论区提意见,博主会及时修改) 函数 一,什么是函数 函数是一段功能代码,用来解决shell编程中冗余代码[重复且不连续出现的功能…...

订水商城实战教程10-宫格导航
上一篇我们介绍了跑马灯的功能,这一篇就进入到我们的主体部分开发。在订水商城业务中可以按照分类查询商品信息,这就涉及到数据源的拆分。 我们在数据源的设计中区分为主子表,主表呢存储唯一的记录,子表的记录可以重复࿰…...

【C++11】lambda表达式 | 包装器
文章目录 一、 lambda表达式lambda表达式的引入lambda表达式的语法lambda表达式与函数对象lambda表达式的捕捉列表 二、包装器function包装器bind包装器 一、 lambda表达式 lambda表达式的引入 在C98中,为了替代函数指针,C设计出了仿函数,也…...

网络安全准入技术之MAC VLAN
网络准入控制作为主要保障企业网络基础设施的安全的措施,特别是对于中大型企业来说,终端类型多样数量激增、终端管理任务重难度大、成本高。 在这样的一个大背景下,拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…...

MyBatis 操作数据库
文章目录 1. 什么是MyBatis?2. 入门MyBatis2.1 准备工作2.2.1 创建springboot项目2.2.2 数据准备 2.2 配置数据库连接2.3 写持久层代码2.4 单元测试2.4.1 web测试2.4.2 自动测试 1. 什么是MyBatis? MyBatis是一种持久层框架,用于简化JDBC的开…...
设计模式 -- 建造者模式(Builder Pattern)
这个模式以前也义Android-kotlin的场景下讲过 Android 用建造者模式模式写一个Dialog-CSDN博客 不过用的是 变种的建造者模式 建造者模式: 属于创建型模式 提供了一种创建对象的最佳方式, 使用多个简单的对象一步一步构建成一个复杂的对象 。 介绍 意图…...

多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度
一、引言:多云环境的技术复杂性本质 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时,基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套:跨云网络构建数据…...

C++_核心编程_多态案例二-制作饮品
#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为:煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例,提供抽象制作饮品基类,提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...
从零实现富文本编辑器#5-编辑器选区模型的状态结构表达
先前我们总结了浏览器选区模型的交互策略,并且实现了基本的选区操作,还调研了自绘选区的实现。那么相对的,我们还需要设计编辑器的选区表达,也可以称为模型选区。编辑器中应用变更时的操作范围,就是以模型选区为基准来…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
服务器硬防的应用场景都有哪些?
服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式,避免服务器受到各种恶意攻击和网络威胁,那么,服务器硬防通常都会应用在哪些场景当中呢? 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

最新SpringBoot+SpringCloud+Nacos微服务框架分享
文章目录 前言一、服务规划二、架构核心1.cloud的pom2.gateway的异常handler3.gateway的filter4、admin的pom5、admin的登录核心 三、code-helper分享总结 前言 最近有个活蛮赶的,根据Excel列的需求预估的工时直接打骨折,不要问我为什么,主要…...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...

MySQL 8.0 OCP 英文题库解析(十三)
Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...
Caliper 配置文件解析:config.yaml
Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...