当前位置: 首页 > news >正文

基于注意力机制的端到端合成语音检测

End-to-end Synthetic Speech Detection Based on Attention Mechanism
摘要:
·五种轻量级注意力模块改为适用于语音序列的 通道注意力机制一维空间注意力机制
·ASVspoof2019测试集的 等错误率最小串联检测代价函数都有所降低
·池化层之前嵌入CBAM、ECA的模型测试集EER最低且具有较强的泛化性(且统计性能较基线模型有显著提升)
结论:
·端到端合成语音检测系统 Inc-TSSDNet网络上引用 通道注意力机制和一维空间注意力机制。在 Inc-TSSDNet的合适位置(池化层前或后)嵌入注意力模块可以提升检测系统的性能
·ASVspoof2019测试集下的EER为3.28%,较基线模型降低了18.8%,且模型参数量增加较少,该模型还具有优秀的跨库性能,其最好结果在ASVspoof2015的验证集和测试集下的EER较基线模型分别降低了67.3%和36.8%;
·在池化层之前嵌入ECA模块的IncTSSDNet模型最好结果在ASVspoof2019测试集下的mint-DCF为0.0861,较基线模型降低了11.8%;
背景
·语音伪造技术——语音合成(TexttoSpeech,TTS)、语音转换(VoiceConversion,VC)、语音模仿(Impersonation)、重放攻击(ReplayAttack,RA)和对抗攻击(AdversarialAttack)
·随着深 度伪造技术的迅猛发展,合成语音的自然度越来越高
·合成语音检测系统一般由 前端特征提取器和后端二值分类器组成
· Xiao 等人研 究 了 高 维 幅 频 特 征 的 表 现 ,使 用 对 数 幅 度 谱(Log Magnitude Spectrum,LMS)与 残 差 对 数 幅 度 谱(Re⁃ sidual Log Magnitude Spectrum,RLMS)构 建 的 检 测 系 统 得 到 了 理 想 的 效 果;(XIAO Xiong,TIAN Xiaohai,DU S,et al. Spoofing speech detection using high dimensional magnitude and phase fea⁃ tures:The NTU approach for ASVspoof 2015 challenge [C]//Interspeech 2015. ISCA:ISCA,2015:2052-2056.)
·相 位 特 征 ,例 如 群 延 迟 (Group Delay,GD)、修 正 的 群 延 迟(Modified Group Delay,MGD)、相对相移(Relative Phase Shift,RPS)、 基带相位差(Baseband Phase Difference,BPD);
·倒谱系数特征,如线性频率倒谱系 数(Linear Frequency Cepstral Coefficients,LFCC)、梅 尔 频 率 倒 谱 系 数(Mel-Frequency Cepstral Coeffi⁃ cients,MFCC)、线 性 预 测 倒 谱 系 数(Linear Predic⁃ tion Cepstral Coefficients,LPCC)等;
·基于常数 Q 变换的倒谱特征 (Constant-Q Cepstral Coefficients,CQCC)常 被 用 作 竞赛中的基线特征
·基于深度神经网络模型的分类器
·注意力机制在计算机视觉越来越受到关注,然后调整 适用于语音序列的通道注意力和一维空间注意力
主要内容:
· 基于注意力机制的端到端合成语音检测网络 Inc-TSSDNet展开,详细介绍了注意力机制及其应用、五种常见轻量化注意力模块的原理和实现,以及改进后的 Inc-TSSDNet 网络结构设计。

1. 注意力机制概述

  • 核心思想:模拟人类对重要信息的关注方式,为模型提供选择性地聚焦于输入特征中关键部分的能力。
  • 分类
    • 软注意力:对输入不同部分赋予权重,适合神经网络的可微化需求。
    • 强注意力:硬性选择输入的某些部分。
  • 作用域
    • 通道域:强调特定特征通道的重要性。
    • 空间域:关注特定时间或空间位置。
    • 混合域:同时结合通道和空间信息。

2. 适用于一维语音序列的轻量级注意力模块

文中调整现有注意力模块,适配于一维语音数据,改进端到端语音检测性能:
2.1 SE模块(通道注意力机制)
  • 原理 :通过全局平均池化提取每个通道的全局特征,并用瓶颈结构建模通道间相关性。
  • 特点 :通过降维减少复杂度,权重控制每个通道对最终输出的贡献。
2.2 CBAM模块(通道+空间注意力)
  • 通道注意力 :结合全局平均池化和最大池化计算通道权重。
  • 空间注意力 :对每个时间点的特征分配权重。
2.3 scSE模块(通道和空间注意力并行)
  • 通道注意力 :与SE模块类似。
  • 空间注意力 :通过一维卷积生成权重矩阵,强调序列位置的重要性。
  • 创新点 :通道与空间注意力加权结果相加,综合考量两者作用。
2.4 ECA模块(轻量级通道注意力)
  • 特点 :利用一维卷积实现跨通道信息交互,避免降维,性能和效率兼顾。
  • 自适应卷积核大小 :根据通道数动态确定,提升适应性。
2.5 SA模块(结合分组和通道混洗的注意力)
  • 特点 :通过通道分组和混洗结合通道与空间注意力,结构轻量,适合高效计算。
  • 创新点 :通过ShuffleNet的通道混洗操作实现跨组信息交互。

3. 改进的 Inc-TSSDNet 网络

3.1 网络结构
  • 基于Inception模块,结合扩张卷积,提升感受野,控制复杂度。
  • 层级设计
    • 第一层:1×7卷积层。
    • 中间层:堆叠M个改进的Inception模块,每层后跟最大池化层。
    • 最后层:全局池化层+三层全连接层。
3.2 注意力模块嵌入
  • 在最大池化层前或后引入五种注意力模块(SE、CBAM、scSE、ECA、SA),优化特征提取。
  • 实验目的:验证不同注意力模块的检测性能与模型复杂度的平衡。

4. 优点与意义

  1. 针对性优化:模块设计考虑了一维语音序列的特点,使注意力机制适应语音检测任务。
  2. 性能提升:通过注意力机制增强特征表示能力,提高模型检测准确性。
  3. 轻量化设计:多个模块采用简化策略,降低模型复杂度,便于实际应用。
在 Inc-TSSDNet 的合适位 置嵌入注意力模块可以提升检测系统的性能,
在池化 层之前嵌入 CBAM 的 Inc-TSSDNet 模型最好结果在 ASVspoof2019 测试集下的 EER 为 3. 28%,较基线模型 降低了 18. 8%,且模型参数量增加较少,该模型还具 有优秀的跨库性能,其最好结果在ASVspoof2015 的验 证 集 和 测 试 集 下 的 EER 较 基 线 模 型 分 别 降 低 了 67. 3% 和 36. 8%;
在池化层之前嵌入ECA 模块的IncTSSDNet 模型最好结果在 ASVspoof2019 测试集下的 min t-DCF 为 0.0861,较基线模型降低了 11. 8%
贡献点:
调整并使用了五种注意力模块中的算法

相关文章:

基于注意力机制的端到端合成语音检测

End-to-end Synthetic Speech Detection Based on Attention Mechanism 摘要: 五种轻量级注意力模块改为适用于语音序列的 通道注意力机制和 一维空间注意力机制 ASVspoof2019测试集的 等错误率和 最小串联检测代价函数都有所降低 池化层之前嵌入CBAM、ECA的模型测试…...

MySQL NaviCat 安装及配置教程(Windows)【安装】

文章目录 一、 MySQL 下载 1. 官网下载2. 其它渠道 二、 MySQL 安装三、 MySQL 验证及配置四、 NaviCat 下载 1. 官网下载2. 其它渠道 五、 NaviCat 安装六、 NaviCat 逆向工程 软件 / 环境安装及配置目录 一、 MySQL 下载 1. 官网下载 安装地址:https://www.m…...

微信小程序:播放音频

在小程序开发中,音频播放是一个重要的功能。本文将详细介绍小程序音频播放的相关知识点,帮助开发者更好地掌握小程序音频播放的实现方法。 一、小程序音频播放的基本流程 在小程序中,音频播放的基本流程如下: 获取音频数据&#…...

Ubuntu安装K8S

第一步: 安装docker Install Docker #注意docker是早期的名称已经过时了,因此请使用如下命令,一步到位安装docker-ce。 第二步:设置K8S源: (大陆使用aliyun源,大陆外使用google源)…...

独立同分布时,联合概率密度函数等于边缘概率密度函数乘积

在概率论中,独立同分布(i.i.d.)指的是多个随机变量既独立又服从相同的概率分布。对于一组随机变量 (X_1, X_2, \dots, X_n),若它们是独立同分布的,那么它们的联合概率密度函数 (p(x_1, x_2, \dots, x_n)) 就可以表示为…...

半导体数据分析: 玩转WM-811K Wafermap 数据集(三) AI 机器学习

前面我们已经通过两篇文章,一起熟悉了WM-811K Wafermap 数据集,并对其中的一些数据进行了调用,生成了一些统计信息和图片。今天我们接着继续往前走。 半导体数据分析: 玩转WM-811K Wafermap 数据集(二) AI…...

【.net core】【sqlsugar】时间查询示例

1、时间包含查询示例 //model.TimeInterval为时间区间参数,参数格式为2024-01-01~2025-01-01 //query为当前查询的语句内容 //为当前查询语句增加创建时间模糊搜索查询条件 query query.Where(a > ((DateTime)a.F_CreatorTime).ToString("yyyy-MM-dd HH:m…...

Kotlin 协程基础十 —— 协作、互斥锁与共享变量

Kotlin 协程基础系列: Kotlin 协程基础一 —— 总体知识概述 Kotlin 协程基础二 —— 结构化并发(一) Kotlin 协程基础三 —— 结构化并发(二) Kotlin 协程基础四 —— CoroutineScope 与 CoroutineContext Kotlin 协程…...

Java中网络编程的学习

目录 网络编程概述 网络模型 网络通信三要素: IP 端口号 通信协议 IP地址(Internet Protocol Address) 端口号 网络通信协议 TCP 三次握手 四次挥手 UDP TCP编程 客户端Socket的工作过程包含以下四个基本的步骤: 服务器程序…...

[计算机网络]一. 计算机网络概论第一部分

作者申明&#xff1a;作者所有文章借助了各个渠道的图片视频以及资料&#xff0c;在此致谢。作者所有文章不用于盈利&#xff0c;只是用于个人学习。 1.0推荐动画 【网络】半小时看懂<计算机网络>_哔哩哔哩_bilibili 1.1计算机网络在信息时代的作用 在当今信息时代&…...

【0393】Postgres内核 checkpointer process ③ 构建 WAL records 工作缓存区

1. 初始化 ThisTimeLineID、RedoRecPtr 函数 InitXLOGAccess() 内部会初始化 ThisTimeLineID、wal_segment_size、doPageWrites 和 RedoRecPtr 等全局变量。 下面是这四个变量初始化前的值: (gdb) p ThisTimeLineID $125 = 0 (gdb) p wal_segment_size $126 = 16777216 (gdb…...

正则表达式基础知识及grep、sed、awk常用命令

文章目录 前言一、正则表达式元字符和特性1. 字符匹配2. 量词3. 字符类4. 边界匹配5. 分词和捕获6. 特殊字符7. 位置锚定 二、grep常用参数1. -n额外输出行号2. -v 排除匹配的行3. -E 支持扩展正则匹配4. -e进行多规则匹配搜索5. -R 递归匹配目录中的文件内容6. -r递归地搜索目…...

redhat安装docker 24.0.7

1、下载docker镜像包 wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.7.tgz 2、解压 tar -xvf docker-24.0.7.tgz 3、解压的docker文件夹全部移动至/usr/bin目录 cd docker cp -p docker/* /usr/bin 4、注册服务 vi /usr/lib/systemd/syste…...

【excel】VBA简介(Visual Basic for Applications)

文章目录 一、基本概念二、语法2.1 数据类型2.11 基本数据类型2.12 常量2.13 数组 2.2 控制语句2.21 条件语句2.22 循环语句2.23 错误处理&#xff1a;On Error2.24 逻辑运算 2.3 其它语句2.31 注释2.32 with语句 2.4 表达式2.41 常见表达式类型2.42 表达式的优先级 2.5 VBA 的…...

【大厂面试AI算法题中的知识点】方向涉及:ML/DL/CV/NLP/大数据...本篇介绍为什么self-attention可以堆叠多层,这有什么作用?

【大厂面试AI算法题中的知识点】方向涉及&#xff1a;ML/DL/CV/NLP/大数据…本篇介绍为什么self-attention可以堆叠多层&#xff0c;这有什么作用&#xff1f; 【大厂面试AI算法题中的知识点】方向涉及&#xff1a;ML/DL/CV/NLP/大数据…本篇介绍为什么self-attention可以堆叠…...

NanoKVM简单开箱测评和拆解,让普通电脑实现BMC/IPMI远程管理功能

Sipeed推出了NanoKVM&#xff0c;简直是没有BMC的台式机和工作站的福音。有了这个就可以轻松实现以往服务器才有的远程管理功能。 NanoKVM 简介 Lichee NanoKVM 是基于 LicheeRV Nano 的 IP-KVM 产品&#xff0c;继承了 LicheeRV Nano 的极致体积 和 强大功能。 NanoKVM 包含…...

【Idea】编译Spring源码 read timeout 问题

Idea现在是大家工作中用的比较多的开发工具&#xff0c;尤其是做java开发的&#xff0c;那么做java开发&#xff0c;了解spring框架源码是提高自己技能水平的一个方式&#xff0c;所以会从spring 官网下载源码&#xff0c;导入到 Idea 工具并编译&#xff0c;但是发现build的时…...

VSCode的配置与使用(C/C++)

从0开始教你在vscode调试一个C文件 一.首先是配置你的编译环境&#xff0c;添加到环境变量&#xff08;默认你是全新的电脑&#xff0c;没有安装vs2019之类的&#xff09; 原因&#xff1a;因为相比于vs2019&#xff0c;vscode只是个代码编辑器&#xff0c;相当于一个彩色的、…...

SpringMVC (1)

目录 1. 什么是Spring Web MVC 1.1 MVC的定义 1.2 什么是Spring MVC 1.3 Spring Boot 1.3.1 创建一个Spring Boot项目 1.3.2 Spring Boot和Spring MVC之间的关系 2. 学习Spring MVC 2.1 SpringBoot 启动类 2.2 建立连接 1. 什么是Spring Web MVC 1.1 MVC的定义 MVC 是…...

本地部署大模型—MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型

MiniCPM-V 2.0: 具备领先OCR和理解能力的高效端侧多模态大模型 简介 MiniCPM 系列的最新多模态版本 MiniCPM-V 2.0。该模型基于 [MiniCPM 2.4B和 SigLip-400M 构建,共拥有 2.8B 参数。MiniCPM-V 2.0 具有领先的光学字符识别(OCR)和多模态理解能力。该模型在综合性 OCR 能力…...

城通网盘限速破解:ctfileGet让下载效率提升10倍的技术革命

城通网盘限速破解&#xff1a;ctfileGet让下载效率提升10倍的技术革命 【免费下载链接】ctfileGet 获取城通网盘一次性直连地址 项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 在数字化协作日益频繁的今天&#xff0c;网盘已成为信息传递的重要枢纽。然而城通…...

实测Qwen3-4B:256K超长上下文,处理长文档、写长文真实案例

实测Qwen3-4B&#xff1a;256K超长上下文&#xff0c;处理长文档、写长文真实案例 1. 引言&#xff1a;为什么关注长上下文能力 在日常工作和创作中&#xff0c;我们经常遇到需要处理超长文档的场景&#xff1a;分析上百页的PDF报告、阅读整本电子书、编写长篇技术文档等。传…...

远程协助工具

# 详见&#xff1a;https://mp.weixin.qq.com/s/sY-KrOqpY3C1JUeiELEJNw # 来源&#xff1a;https://chat.qwen.ai/# ToDesk https://www.todesk.com/# 向日葵 https://sunlogin.oray.com/# TeamViewer https://www.teamviewer.com/# AnyDesk https://anydesk.com/ https://any…...

Ubuntu 虚拟机 Python3 + pip 完整安装教程

文章目录一、先检查系统是否自带 Python3二、安装 Python3 和 pip&#xff08;必装&#xff09;1. 更新软件源2. 安装 python3 和 pip3. 验证安装成功三、最简单的使用方法1. 运行 Python2. 用 pip 安装第三方库&#xff08;如 requests、numpy&#xff09;3. 运行 .py 文件四、…...

SEO_新手必看的SEO优化入门教程与常见误区

什么是SEO优化&#xff1f; SEO优化&#xff0c;全称搜索引擎优化&#xff0c;是指通过优化网站内容和结构&#xff0c;使其在搜索引擎&#xff08;如百度、谷歌&#xff09;中获得更高排名的一系列活动。SEO的目的是提高网站的自然流量&#xff0c;从而增加潜在客户和销售机会…...

ZGC停顿时间为何突然飙升?3个被90%团队忽略的配置雷区曝光

第一章&#xff1a;ZGC停顿时间为何突然飙升&#xff1f;3个被90%团队忽略的配置雷区曝光 ZGC&#xff08;Z Garbage Collector&#xff09;以亚毫秒级停顿著称&#xff0c;但生产环境中频繁出现 10–50ms 甚至更高停顿&#xff0c;往往并非内存压力所致&#xff0c;而是源于几…...

郑州大学生命科学学院生物与医药专业考研复试资料(2025届学姐整理)|电子版

温馨提示&#xff1a;文末有联系方式【权威整理】郑大生科院生物与医药方向考研复试精品资料包 本资料由郑州大学生命科学学院生物与医药专业2022年高分录取学姐牵头整合&#xff0c;汇集2022–2025连续四届成功上岸师兄师姐的实战复试经验与核心资料&#xff0c;内容系统、精准…...

FunASR Docker部署SSL配置的四个‘天坑’与避坑指南(附完整启动命令)

FunASR Docker部署SSL配置的四个‘天坑’与避坑指南&#xff08;附完整启动命令&#xff09; 在语音识别服务的安全部署中&#xff0c;SSL/TLS加密已成为行业标配。但当我们实际为FunASR配置HTTPS时&#xff0c;那些看似简单的步骤背后却暗藏玄机。本文将带您穿越四个最具迷惑性…...

AD5144A数字电位器I²C驱动库深度解析与工程实践

1. AD5144A数字电位器驱动库深度解析&#xff1a;面向嵌入式工程师的IC控制实践指南AD5144A是ADI公司推出的四通道非易失性数字电位器&#xff0c;属于AD51xx系列中功能完备、应用灵活的代表型号。该器件通过IC接口实现对四个独立通道的精确电阻调节&#xff0c;支持256级&…...

忍者像素绘卷参数详解:描绘步数/幻化精度/画幅比例三维度效果对照表

忍者像素绘卷参数详解&#xff1a;描绘步数/幻化精度/画幅比例三维度效果对照表 1. 像素艺术创作新纪元 忍者像素绘卷是基于Z-Image-Turbo深度优化的图像生成工作站&#xff0c;它将传统漫画创作与16-Bit复古游戏美学完美融合。这款工具采用明亮的"云端"视觉设计&a…...