当前位置：首页 > news >正文

神经串联式语音转换:对基于串联的单次语音转换方法的再思考论文笔记

news 2026/2/8 18:52:26

NEURAL CONCATENATIVE SINGING VOICE CONVERSION: RETHINKING CONCATENATION-BASED APPROACH FOR ONE-SHOT SINGING VOICE CONVERSION 笔记

发现问题：

在any-to-any的转换中,由于内容和说话人音色的解耦不足,导致源说话人的音色部分仍保留在转换后的音频中，影响了音频质量和转换效果。

解决问题：

1、提出了NeuCoSVC，参考了KNN-VC中的方法，用SSL表示代替语音单元，并使用声码器直接合成音频。在推理过程中，从目标音频中提取SSL表示以形成匹配池。然后将源表示的每一帧替换为匹配池中最近的邻居，以创建用于音频合成的预匹配表示。这种方法完全利用了来自目标扬声器的特征，可以潜在地消除音色泄漏。
2、kNN-VC中缺乏明确的音高建模，本文采用了FastSVC架构，通过特征线性调制(FiLM)有效地整合了音高和响度特征。

模型结构图

在这里插入图片描述

SSL表示提取器和匹配模块

在这里插入图片描述
这个模块包括两个模块：
（1）从音频中提取压缩特征:遵循KNN-VC的方法,采用预训练的WavLM-Large编码器从音频中提取SSL特征,研究发现, WavLM的第6层有效地将同一音素的声音片段在特征空间中映射得更近。并且,这一层还保留了说话人的音色信息
（2）将提取的源话语特征替换成参考话语特征：在匹配策略方面，我们采用kNN方法,在参考匹配池中搜索最接近的K个SSL特征，然后将这K个特征的均值用于替换源语音特征。为了提高匹配过程的准确性,我们采用WavLM-Large中最后5层的平均值进行匹配,同时利用第6层进行合成,这一决定的动机是，后5层包含更多的判别性内容信息，从而提高了匹配精度。匹配策略采用k = 4的k近邻法，以余弦相似度作为距离度量。

神经谐波信号生成器

谐波信号可以更准确的表示音高：音高信息通常用基频(f0)表示,但f0只是一个数字,无法完整地表示音高的变化和细微差别。谐波信号包含了多个频率成分，可以更准确地表示音高的变化和细微差别，从而生成更自然、更准确的歌声。
1、结构
(1)基频激励信号生成器：将帧级的f0特征上采样到音频级并生成基频激励信号 p[n]
在这里插入图片描述
p[n]：基频激励信号，它是 n 时刻的信号值。
K:谐波成分的数量,由公式(2)计算。
k：谐波成分的索引，kE {1,2,…,K}。
fo[i]：第i个帧的基频值。fs：音频采样率。n:时刻索引。
当fo[n] >0时, p[n]是一个由K个谐波成分组成的信号。每个谐波成分的频率是 fo[n] 的整数倍。谐波成分的幅度相等。当 fO[n] = 0 时，p[n] = 0，表示没有基频激励信号。
K：谐波成分的数量。
K 的值取决于fo[n]的值和音频采样率fs。当fo[n]越高时，K的值越小，谐波成分的数量越少。当fo[n]越低时，K的值越大，谐波成分的数量越多。
公式（1)和公式(2)用于生成基频激励信号p[n]，它包含了音高信息。公式（1）表示基频激励信号的生成过程，公式（2)表示谐波成分的数量K的计算方法。
（2）线性时变滤波器：对不同谐波分量的幅值进行调整
在这里插入图片描述
第一部分是h1[n] * p[n],它表示对基频激励信号p[n]进行滤波后的信号,其中h1[n]是LTV滤波器的系数。
第二部分是 h2[n] * z[n]，它表示对噪声信号 z[n] 进行滤波后的信号,其中h2[n]是LTV滤波器的系数。

（3）谐波信号拼接器：将原始正弦激励信号与滤波后的激励信号连接起来,形成神经谐波信号
在这里插入图片描述

音频合成器

在这里插入图片描述

音频合成器包括一个上采样流和两个下采样流。上采样流由5个上采样块组成,逐步将SSL特征转换为音频采样。两个下采样流分别将音调和响度信息下采样到每个块的相应尺度中，集成到上采样块中。
WavLM-Large模型每20ms的音频提取一次SSL特征,音高和响度特征每10ms提取一次。将每个SSL特征向量复制两次,使其时间间隔变为10ms,从而与音高和响度特征的时间间隔一致.

神经串联式语音转换:对基于串联的单次语音转换方法的再思考论文笔记

NEURAL CONCATENATIVE SINGING VOICE CONVERSION: RETHINKING CONCATENATION-BASED APPROACH FOR ONE-SHOT SINGING VOICE CONVERSION 笔记

发现问题：

解决问题：

模型结构图

SSL表示提取器和匹配模块

神经谐波信号生成器

音频合成器

相关文章：

神经串联式语音转换:对基于串联的单次语音转换方法的再思考论文笔记

机器学习（1）--数据可视化

docker部署Prometheus、Grafana

5.mysql多表查询

【前端面试】挖掘做过的nextJS项目（上）

【Unity-UGUI】UGUI知识汇总

JavaScript性能测试：策略、工具与实践

嵌入式软件开发学习一：软件安装（保姆级教程）

SpringMVC学习中遇到的不懂注解记录

Java面试题--分布式锁

一文讲清数据平台与数据中台的关系与区别

Android的Service和Thread的区别

经纬恒润亮相第四届焉知汽车年会，功能安全赋能域控

掌握JavaScript单元测试：最佳实践与技术指南

spring boot 古茶树管理系统---附源码19810

00067期 matlab中的asv文件

JMeter高效管理测试数据-参数化

python学习之writelines

STM32学习笔记13-FLASH闪存

UIButton的UIEdgeInsetsMake属性(setTitleEdgeInsets,setImageEdgeInsets)

使用VSCode开发Django指南

.Net框架，除了EF还有很多很多......

蓝桥杯 2024 15届国赛 A组儿童节快乐

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

在WSL2的Ubuntu镜像中安装Docker

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

Rapidio门铃消息FIFO溢出机制

【从零学习JVM|第三篇】类的生命周期(高频面试题)

Python 实现 Web 静态服务器（HTTP 协议）