当前位置: 首页 > news >正文

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录

    • 引言
    • 正文
      • Abstract
            • 模型基本结构
            • 模型效果汇总
      • Introduction介绍
            • 跨语言任务的独特性
            • 思路启发和变化
            • 如何使用预定义好的音频特征
            • 如何使用预定义好的语言模型——语言模型中获取韵律信息
            • 结果说明
      • Dataset数据集
      • Mthods方法
        • 使用设计好的特征进行AD检测
          • 使用的特征
          • 分类和训练方法
        • 3.2 微调预训练的语言模型实习AD检测
      • Submission description and results
      • Conclusion
        • 问题
    • 总结
    • 引用

引言

  • 这篇文章在整个排名中,位列第三,是少有的性能比baseline效果要好的,需要好好阅读一下。

正文

Abstract

模型基本结构
  • 这篇文章是介绍根据自发语音实现多语种AD检测,我们的方法主要有两部分构成:
    • 使用不同的音频特征和静音相关的信息,进行AD检测和MMSE预测
    • 调整wav2vec2.0语言识别模型,将之应用在不同的频段上
模型效果汇总
  • 整体性能是好于baseline模型的,主要分两个方面进行介绍
  • AD检测方面,准确率是73.9%,通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
  • MMSE回归阶段,RMSE的值为4.610,主要是融合eGeMAPS和静音特征

Introduction介绍

跨语言任务的独特性
  • 目前根本没有任何研究是探索有哪些语音特征,能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的,提出了一个基于自发语音的多语言AD检测比赛。
  • 这个比赛主要分为两类,分别是分类任务和MMSE回归任务,都是在英语上进行训练,然后使用希腊语进行训练的。
思路启发和变化
  • 《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了,对于单模态AD检测而言,语言不流利和预训练的语言模型是十分有效的。
  • 基于此,为了应对这个挑战,我们尝试了两种方法:
    • 使用预先定义好的音频特征
    • 使用预训练的大语言模型
如何使用预定义好的音频特征
  • 第一种方式是使用设计好的音频特征,进行AD检测。静音相关的音频特征和语言是独立的,并且适合别的特征进了融合,在这里,我们是用XGBoost进行Ad分类,使用SVR和XGBoost进行MMSE回归任务。
  • XGBoost
  • SVR
如何使用预定义好的语言模型——语言模型中获取韵律信息
  • 第二种方法是微调预训练的语言模型,用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型,然后使用低通滤波处理语音信号,保留语言通用韵律信息,这些信息是低频的,然后过滤那些高频的信息,比如说特定于语言的音素信息
结果说明
  • 通过对预训练的wav2vec模型进行微调,使之适应0-1000hz频段的语音,模型在Ad分类的准确率上达到了73.9%
  • 通过将静音特征和eGeMAPS信息进行融合,对于MMSE的回归任务的RMSE分数达到了4.610

Dataset数据集

  • 数据集使用的是ADReSS-M,包括了希腊语和英语两种语言的语音录音。
    • 训练集:237段英语样例,8段希腊语样例
    • 测试集:46段希腊语样例
  • 训练过程中,37段英语数据作为验证集,200段音频作为训练集
  • 8段希腊语作为我们希腊语的验证数据集
  • 然后希腊语和英语的验证集会被同时用来进行训练

Mthods方法

使用设计好的特征进行AD检测
使用的特征
  • 为了获取跨语言的音频表示,基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**,我们设计了10种静音特征,具体构成如下

    • 每秒钟的静音次数
    • 静音时间和语音持续时间的比率
    • 静音和语音持续时间的统计特征(最大值、最小值、平均值和标准偏差
  • 使用两个声音活动检测工具来定位静音段落的位置,具体使用的工具如下

    • pyannote的递归神经网络
    • 查询概率结束分类器:Improved end-of-query detection for streaming speech recognition

其他声音特征

  • 使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS(eGM)作为低频语音特征

其他语言特征

  • 使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
  • 然后还有其他的人口统计特征
分类和训练方法
  • 这里使用XGBoost作为AD检测任务,然后使用SVR和XGBoost进行组合,实现MMSE的回归任务
  • 将基于单个特征的分类模型任务进行集成学习,提高模型额准确率。
  • 对于特征分类,这里使用了集成学习策略,包括了早期融合、特征拼接还有后期融合,甚至还有权重投票等多种方式进行测试
  • 对于MMSE的回归任务,这里是平均多个预测回归模型输出,然后将平均结果作为最终的输出,这些效果要好于特征融合和权重投票的方式
3.2 微调预训练的语言模型实习AD检测
  • 看了这个不禁开始感叹,这是什么条件,我靠!他用了8张A100GPU来训练600,000次。

  • 为了能够尽快提高跨语言音频表示的学习,我们预训练了一个基于希腊语和英语的双语wav2vec-base模型,主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练,英语和希腊语各50个小时

  • 现有的(“facebook/wav2vec2-large-xlsr-53”)和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调(平均汇集输出上具有 Sigmoid 激活函数的线性层)。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到,对于大多数频率 epoch 配置,我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后,采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。

  • 这里没有使用facebook公开的XSLR进行训练,而是自己进行微调的wav2vec模型进行训练

Submission description and results

  • 对于AD检测和MMSE回归任务,分别提交了5次。Ad检测是ID从1到5,MMSE回归任务是ID从6到10.

  • 关于Ad检测任务的结果如下

  • 最终ID5的结果最好,说明基于平衡的双语数据的预训练模型效果最好,能够有效实现跨语言检测。

在这里插入图片描述

  • 回归任务这里就不细看了,又没有相关的数据集,不值得。

Conclusion

  • 通过微调我们预训练的双语模型wav2vec2.0,在0-1000Hz波段的音频数据,我们在分类人中的准确率到达了73.9%,最终的结果表明,使用平衡过后的多语言数据集,并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
  • 回归任务使用了eGeMAPS和静音特征,效果比基本的模型要好,说明这两个指标的效果很好。
问题

总结

引用

相关文章:

论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录 引言正文Abstract模型基本结构模型效果汇总 Introduction介绍跨语言任务的独特性思路启发和变化如何使用预定义好的音频特征如何使用预定义好的语言模型——语言模型中获取韵律信息结果说明 Dataset数据集Mthods方法使用设计好的特征进行AD检测使用的特征分类和训练方…...

第一百七十五回 如何创建放射形状渐变背景

文章目录 1. 概念介绍2. 实现方法3. 代码与效果3.1 示例代码3.2 运行效果 4. 内容总结 我们在 上一章回中介绍了"如何创建扇形渐变背景"相关的内容,本章回中将介绍" 如何创建放射形状渐变背景"。闲话休提,让我们一起Talk Flutter吧…...

vue实现调用手机拍照、录像功能

目录 前言 准备工作 在这个示例中,我们将使用Vue.js框架来实现我们的目标。如果你还不熟悉Vue.js,推荐先学习一下Vue.js的基础知识。 接下来,我们需要创建一个基于Vue.js的项目。你可以使用Vue CLI来创建一个全新的Vue项目:# 安…...

WPF播放视频

在WPF中&#xff0c;你可以使用MediaElement来播放本地视频。下面是一个简单的例子&#xff1a; <Window x:Class"WPFVideoPlayer.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsof…...

交换机如何配置BGP协议

环境&#xff1a; 华为交换机 华三交换机 问题描述&#xff1a; 交换机如何配置BGP协议 解决方案&#xff1a; 华三交换机上配置案例 1.配置BGP协议&#xff0c;可以按照以下步骤进行&#xff1a; 登录交换机&#xff1a;使用SSH、Telnet或控制台等方式登录到华三交换…...

精通Nginx(14)-配置HTTPS

HTTPS是在 HTTP 协议的基础上使用 TLS/SSL 加密,其主要目标是提高数据传输的安全性。从HTTP2.0开始,HTTPS已经是网站的标准协议,很多开放平台非HTTPS不能访问。Nginx为HTTPS提供了强大的支持,且对应用服务器是完全透明的。 目录 SSL/TLS基础 发展历史 TLS握手过程 加密…...

封装一个简单的table组件

子组件 <template> <el-table :data"tableData" :headers"tableHeaders" style"width: 100%"> <el-table-column v-for"header in tableHeaders" :key"header.prop" :label"header.label" :pro…...

Avalonia UI框架介绍

Avalonia UI是一个跨平台的UI框架&#xff0c;它允许开发者使用XAML和C#语言创建可在多个平台上运行的应用程序&#xff0c;包括Windows、Linux、macOS等。Avalonia UI与WPF非常相似&#xff0c;但是它是开源的&#xff0c;并且更加灵活。 下面是一个简单的Avalonia UI应用程序…...

【入门篇】1.3 redis客户端之 jedis 高级使用示例

文章目录 0.前言1. 发布和订阅消息2. 事务操作3. 管道操作4. jedis 支持哨兵模式5. jedis 支持集群模式5. 参考链接 0.前言 Jedis是Redis的Java客户端&#xff0c;它支持所有的Redis原生命令&#xff0c;使用方便&#xff0c;且可以与Java项目无缝集成。 该库的最新版本支持Re…...

使用CXF调用WSDL(二)

简介 本篇文章主要解决了上篇文章中遗留的对象嵌套问题&#xff0c;要想全面解析无限极的对象嵌套需要使用递归去解决 上文链接&#xff1a; 使用CXF调用WSDL&#xff08;一&#xff09; 上文回顾 上文使用了单方法“ call() ”解决了List和基本类型&#xff08;含String&…...

list.toArray

直接去看原文 原文链接:List的toArray()方法_list.toarray-CSDN博客 -------------------------------------------------------------------------------------------------------------------------------- toArray()介绍 toArray()方法是List接口中提供的方法&#xff…...

2013年11月10日 Go生态洞察:Go语言四周年回顾

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…...

Ubuntu上使用SSH连接到CentOS系统

确保CentOS系统上的SSH服务器已安装并正在运行&#xff1a; 在CentOS上&#xff0c;默认情况下&#xff0c;SSH服务器&#xff08;sshd&#xff09;应该已安装并正在运行。如果不确定&#xff0c;可以通过以下方式检查&#xff1a; sudo systemctl status sshd如果未安装&…...

【知识增强】A Survey of Knowledge-Enhanced Pre-trained LM 论文笔记

A Survey of Knowledge-Enhanced Pre-trained Language Models Linmei Hu, Zeyi Liu, Ziwang Zhao, Lei Hou, Liqiang Nie, Senior Member, IEEE and Juanzi Li 2023年8月的一篇关于知识增强预训练模型的文献综述 论文思维导图 思维导图网页上看不清的话&#xff0c;可以存…...

shell脚本之函数

快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解&#xff08;如有不正确的地方欢迎各位小伙伴在评论区提意见&#xff0c;博主会及时修改&#xff09; 函数 一&#xff0c;什么是函数 函数是一段功能代码,用来解决shell编程中冗余代码[重复且不连续出现的功能…...

订水商城实战教程10-宫格导航

上一篇我们介绍了跑马灯的功能&#xff0c;这一篇就进入到我们的主体部分开发。在订水商城业务中可以按照分类查询商品信息&#xff0c;这就涉及到数据源的拆分。 我们在数据源的设计中区分为主子表&#xff0c;主表呢存储唯一的记录&#xff0c;子表的记录可以重复&#xff0…...

【C++11】lambda表达式 | 包装器

文章目录 一、 lambda表达式lambda表达式的引入lambda表达式的语法lambda表达式与函数对象lambda表达式的捕捉列表 二、包装器function包装器bind包装器 一、 lambda表达式 lambda表达式的引入 在C98中&#xff0c;为了替代函数指针&#xff0c;C设计出了仿函数&#xff0c;也…...

网络安全准入技术之MAC VLAN

网络准入控制作为主要保障企业网络基础设施的安全的措施&#xff0c;特别是对于中大型企业来说&#xff0c;终端类型多样数量激增、终端管理任务重难度大、成本高。 在这样的一个大背景下&#xff0c;拥有更灵活的动态识别、认证、访问控制等成为了企业网络安全的最核心诉求之…...

MyBatis 操作数据库

文章目录 1. 什么是MyBatis&#xff1f;2. 入门MyBatis2.1 准备工作2.2.1 创建springboot项目2.2.2 数据准备 2.2 配置数据库连接2.3 写持久层代码2.4 单元测试2.4.1 web测试2.4.2 自动测试 1. 什么是MyBatis&#xff1f; MyBatis是一种持久层框架&#xff0c;用于简化JDBC的开…...

设计模式 -- 建造者模式(Builder Pattern)

这个模式以前也义Android-kotlin的场景下讲过 Android 用建造者模式模式写一个Dialog-CSDN博客 不过用的是 变种的建造者模式 建造者模式&#xff1a; 属于创建型模式 提供了一种创建对象的最佳方式&#xff0c; 使用多个简单的对象一步一步构建成一个复杂的对象 。 介绍 意图…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0&#xff1a;开发环境同步测试 cookie 至 localhost&#xff0c;便于本地请求服务携带 cookie 参考地址&#xff1a;https://juejin.cn/post/7139354571712757767 里面有源码下载下来&#xff0c;加在到扩展即可使用FeHelp…...

XCTF-web-easyupload

试了试php&#xff0c;php7&#xff0c;pht&#xff0c;phtml等&#xff0c;都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接&#xff0c;得到flag...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间&#xff0c; 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点&#xff0c;不需要开启数据库闪回。…...

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO&#xff1a;支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题&#xff1a;MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者&#xff1a;Yanyuan Chen, Dexuan Xu, Yu Hu…...

golang循环变量捕获问题​​

在 Go 语言中&#xff0c;当在循环中启动协程&#xff08;goroutine&#xff09;时&#xff0c;如果在协程闭包中直接引用循环变量&#xff0c;可能会遇到一个常见的陷阱 - ​​循环变量捕获问题​​。让我详细解释一下&#xff1a; 问题背景 看这个代码片段&#xff1a; fo…...

Appium+python自动化(十六)- ADB命令

简介 Android 调试桥(adb)是多种用途的工具&#xff0c;该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具&#xff0c;其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利&#xff0c;如安装和调试…...

前端倒计时误差!

提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 &#xff08;1&#xff09;设置网关 打开VMware虚拟机&#xff0c;点击编辑…...

leetcodeSQL解题:3564. 季节性销售分析

leetcodeSQL解题&#xff1a;3564. 季节性销售分析 题目&#xff1a; 表&#xff1a;sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...