当前位置：首页 > news >正文

VITS源码解读6-训练推理

news 2026/2/9 15:01:11

1. train.py

1.1 大体流程

执行main函数，调用多线程和run函数
执行run函数，加载日志、数据集、模型、模型优化器
for循环迭代数据batch，每次执行train_and_evaluate函数，训练模型

这里需要注意，源码中加载数据集用的分布式，单卡最好将其删除，用普通的data_loader即可。

1.2 train_and_evaluate函数

训练每次迭代的执行函数

g的输入和输出特别多，有2行，分布为：

y_hat, l_length, attn, ids_slice, x_mask, z_mask,\ 
(z, z_p, m_p, logs_p, m_q, logs_q) = net_g(x, x_lengths, spec, spec_lengths)

其中第二行为求kl所需值

d的输入和输出为：

y_d_hat_r, y_d_hat_g, fmap_r, fmap_g = net_d(y, y_hat)

损失函数计算

        loss_dur = torch.sum(l_length.float())loss_mel = F.l1_loss(y_mel, y_hat_mel) * hps.train.c_melloss_kl = kl_loss(z_p, logs_q, m_p, logs_p, z_mask) * hps.train.c_klloss_fm = feature_loss(fmap_r, fmap_g)loss_gen, losses_gen = generator_loss(y_d_hat_g)loss_gen_all = loss_gen + loss_fm + loss_mel + loss_dur + loss_kl

loss_disc, losses_disc_r, losses_disc_g = discriminator_loss(y_d_hat_r, y_d_hat_g)

1.3 evaluuate函数

这里主要是用到mel图的对比，通过可视化mel图判别生成效果。

来自数据集的spec

      mel = spec_to_mel_torch(spec, hps.data.filter_length, hps.data.n_mel_channels, hps.data.sampling_rate,hps.data.mel_fmin, hps.data.mel_fmax)

来自生成的音频y

      y_hat_mel = mel_spectrogram_torch(y_hat.squeeze(1).float(),hps.data.filter_length,hps.data.n_mel_channels,hps.data.sampling_rate,hps.data.hop_length,hps.data.win_length,hps.data.mel_fmin,hps.data.mel_fmax)

1.4 train_ms.py 文件

区别于train.py文件用于训练lj，train_ms.py用于训练vctk数据集。

即train_ms适用于多人数据集，模型的输入也多了一个多人的embedding_layer。

2. Inference.py

这个是jupter即 ipynb文件，其通过 SynthesizerTrn类的infer方法和voice_conversion方法实现。

2.1 infer方法

该方法实现tts功能，输入文本的音素化特征，输出对应文本语义的语音效果。

主要步骤如下：

通过文本编码器输入文本音素化向量，得到x, m_p, logs_p, x_mask

如果多人，潜入人物特征

    x, m_p, logs_p, x_mask = self.enc_p(x, x_lengths)if self.n_speakers > 0:g = self.emb_g(sid).unsqueeze(-1) # [b, h, 1]else:g = None

通过dp输入x,x_mask, 以及人物特征，得到logw

    if self.use_sdp:logw = self.dp(x, x_mask, g=g, reverse=True, noise_scale=noise_scale_w)else:logw = self.dp(x, x_mask, g=g)

logw与x_mask运算得到w_ceil, 最终得到y_lengths

    w = torch.exp(logw) * x_mask * length_scalew_ceil = torch.ceil(w)y_lengths = torch.clamp_min(torch.sum(w_ceil, [1, 2]), 1).long()

y_lengths得到y_mask，x_mask和y_mask得到注意力矩阵attn

    y_mask = torch.unsqueeze(commons.sequence_mask(y_lengths, None), 1).to(x_mask.dtype)attn_mask = torch.unsqueeze(x_mask, 2) * torch.unsqueeze(y_mask, -1)attn = commons.generate_path(w_ceil, attn_mask)

m_p 和 logs_p 分别与attn相乘，再相加得到z_p

 m_p = torch.matmul(attn.squeeze(1), m_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']logs_p = torch.matmul(attn.squeeze(1), logs_p.transpose(1, 2)).transpose(1, 2) # [b, t', t], [b, t, d] -> [b, d, t']z_p = m_p + torch.randn_like(m_p) * torch.exp(logs_p) * noise_scale

z_p送入flow逆向，得到可用于生成音频的潜码z

z = self.flow(z_p, y_mask, g=g, reverse=True)

z送入解码器 dec, 得到对应音频y

 o = self.dec((z * y_mask)[:,:,:max_len], g=g)

2.2 voice_conversion

该方法实现vctk数据集下的不同人物音色转换。

通过输入人物的id，得到人物的嵌入特征

g_src = self.emb_g(sid_src).unsqueeze(-1)
g_tgt = self.emb_g(sid_tgt).unsqueeze(-1)

将原人物的音频y和y长度，及对应id输入，得到其潜码

z, m_q, logs_q, y_mask = self.enc_q(y, y_lengths, g=g_src)

通过流模型输入目标任务的id，在潜码中嵌入目标任务的特征

z_p = self.flow(z, y_mask, g=g_src)

剩下的步骤和tts类似，用z_p合成目标语音

 z_hat = self.flow(z_p, y_mask, g=g_tgt, reverse=True)o_hat = self.dec(z_hat * y_mask, g=g_tgt)

3.总结

VITS到这里就告于段落了，后面的VITS2改进了VITS的dp模型（flow变gan），

在cosvoice等模型里面也能见到VITS的主干网络。

因此， VITS是音频tts和vc、sc的核心技术。

VITS源码解读6-训练推理

1. train.py 1.1 大体流程执行main函数，调用多线程和run函数执行run函数，加载日志、数据集、模型、模型优化器for循环迭代数据batch，每次执行train_and_evaluate函数，训练模型这里需要注意，源码中加载数据集用的分…...

编程日记 2024/9/29 6:36:56

力扣简单 104.二叉树的最大深度

文章目录题目介绍解法题目介绍解法如果知道了左子树和右子树的最大深度 l 和 r，那么该二叉树的最大深度即为max(l,r)1，而左子树和右子树的最大深度又可以以同样的方式进行计算。因此我们可以用递归的方法来计算二叉树的最大深度。具体而言&#xff…...

编程日记 2024/9/29 6:35:55

单片机长短按简单实现

单片机长短按简单实现目录单片机长短按简单实现1 原理2 示例代码2.1 按键实现 3 测试log4 其他实现方式 1 原理按键检测和处理的步骤如下： 1：定时扫描按键（使用定时器定时扫描，也可以用软件延时或者系统心跳之类的方式&#…...

编程日记 2024/9/29 6:34:54

如何用好通义灵码企业知识库问答能力？

通义灵码企业版：通义灵码企业标准版快速入门_智能编码助手_AI编程_智能编码助手通义灵码(Lingma)-阿里云帮助中心通义灵码提供了基于企业知识库的问答检索增强的能力，在开发者使用通义灵码 IDE 插件时，可以结合企业知识库内上传的文档、文件…...

编程日记 2024/9/29 6:31:51

C语言自定义类型：联合体

目录前言一、联合体1.1 联合体类型的声明1.2 联合体的特点1.3 相同成员的结构体和联合体对比1.4 联合体大小的计算1.5 联合体的⼀个练习总结前言前面我讲到C语言中的自定义结构——结构体，其实C语言中的自定义结构不只有结构体，还有枚举和联合体&am…...

编程日记 2024/9/29 6:30:50

【JavaEE】——线程池大总结

阿华代码，不是逆风，就是我疯， 你们的点赞收藏是我前进最大的动力！！希望本文内容能够帮助到你！ 目录引入：问题引入一：解决方案 1：方案一——协程/纤程 （1…...

编程日记 2024/9/29 6:28:48

编程中为什么使用0和1表示状态

前言这是我在这个网站整理的笔记,有错误的地方请指出，关注我，接下来还会持续更新。作者：神的孩子都在歌唱我们看到很多项目都使用0和1表示某些状态信息，具体含义取决于上下文。以下是一些常见的用法： 布尔值&#x…...

编程日记 2024/9/29 6:25:46

C++入门基础知识90（实例）——实例15【求两数的最大公约数】

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】今日分享关于求两数的最大公约数的相关内容&#xff…...

编程日记 2024/9/29 6:24:45

自动化办公-Python-os模块的使用

os.path 模块的使用在指定文件路径时，由于操作系统的差异，直接使用硬编码的路径可能会导致程序在不同平台上无法正常运行。为了解决这个问题，Python 提供了 os.path 模块，它包含了一系列用于路径操作的函数，可以帮助您…...

编程日记 2024/9/29 6:22:43

无人机之数据处理技术篇

一、数据采集无人机通过搭载的各种传感器和设备，如GPS、加速度计、陀螺仪、磁力计、激光雷达(LiDAR)、高光谱相机(Hyperspectral)、多光谱相机(Multispectral)以及普通相机等，实时采集飞行过程中的各种数据。这些数据包括无人机的位置、速度、高度、姿态…...

编程日记 2024/9/29 6:19:40

828华为云征文｜部署多功能集成的协作知识库 AFFiNE

828华为云征文｜部署多功能集成的协作知识库 AFFiNE 一、Flexus云服务器X实例介绍二、Flexus云服务器X实例配置2.1 重置密码2.2 服务器连接2.3 安全组配置2.4 Docker 环境搭建三、Flexus云服务器X实例部署 AFFiNE3.1 AFFiNE 介绍3.2 AFFiNE 部署3.3 AFFiNE 使用四、…...

编程日记 2024/9/29 6:13:35

c++（AVL树及其实现）

一、AVL树的概念 AVL树是最先发明的自平衡⼆叉查找树，AVL是⼀颗空树，或者具备下列性质的⼆叉搜索树：它的左右子树都是AV树，且左右子树的高度差的绝对值不超过1。AVL树是⼀颗高度平衡搜索⼆叉树， 通过控制高度差去控…...

编程日记 2024/9/29 6:11:33

Cesium GIS项目关于湖泊识别与提取的实现

1. 引言项目背景随着遥感技术的发展，地理信息系统的应用越来越广泛。本项目旨在开发一个基于Cesium的地理信息系统，利用深度学习技术自动识别并显示湖泊的位置。目标与意义通过自动化处理大量遥感影像数据，提高湖泊监测的效率和准确性，为水资源管理和环境保护提供支…...

编程日记 2024/9/29 6:10:31

两个圆形一个z里面一个z外面，z里面的大，颜色不同 html

两个圆形一个z里面一个z外面，z里面的大，颜色不同 html <!DOCTYPE html> <html> <head> <style> .outer-circle {width: 150px;height: 150px;border-radius: 50%;background-color: #ff9999; /* 外圆的颜色 */position: relat…...

编程日记 2024/9/29 6:09:30

【Power Query】M函数-table

M函数-table 添加列（AddColumn）：条件语句（If..then..else）：容错语句（try..otherwise）： 排序（ReorderColumns）：筛选（Selec…...

编程日记 2024/9/29 6:08:28

class websocketUtils {constructor(url, needbeat, options {}) {this.needbeat needbeat;this.url url;this.options options;this.ws null;this.heartbeatInterval options.heartbeatInterval || 10000; // 心跳间隔，默认为10秒 this.reconnectInterval …...

编程日记 2024/9/29 6:07:27

ASP.NET Core8.0学习笔记（十九）——EF Core DbSet

一、DbSet概述 1.DbSet提供了通过DbContext对表进行查询操作的路径。DbSet对应的属性名称将默认映射为实体T的表名。 2.使用DbSet<T>进行查询的方法： (1)直接在DbContext中创建对应的DbSet<T>属性 (2)使用DbSet DbContext.Set<T>方法操作数据表。…...

编程日记 2024/9/29 6:06:26

Android Camera 预览角度和拍照保存图片角度相关

–基于Android R(11) 关于Camera Camera Framework 的架构 Android Camera Framework 是一个分层架构，由以下组件组成： HAL（硬件抽象层）: HAL 抽象底层相机硬件,提供与不同设备相机进行交互的标准接口.CameraService : Camera…...

编程日记 2024/9/29 6:05:25

新手如何使用Qt——方法使用

前言那么这篇文章其实是我在使用Qt的过程当中呢，我发现在Qt使用过程中，在我理解信号和槽这个概念后，在编写槽函数数的时候，发现了自身存在的问题，我的难点是在于当我在编写槽函数的时候，我知道这个槽函数是…...

编程日记 2024/9/29 6:04:23

友元运算符重载函数

目录 1.定义友元运算符重载函数的语法形式 2.双目运算符重载 3.单目运算符重载 1.定义友元运算符重载函数的语法形式 （1）在类的内部，定义友元运算符重载函数的格式如下： friend 函数类型 operator 运算符（形参表&a…...

编程日记 2024/9/29 6:03:23

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时，可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案： 1. 检查电源供电问题问题原因：多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

编程新知 2025/10/28 15:02:57

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2026/1/8 11:38:36

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明：这是一个机器学习实战项目（附带数据代码文档），如需数据代码文档可以直接到文章最后关注获取。 1.项目背景在金融市场日益复杂和波动加剧的背景下，风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

编程新知 2026/1/25 4:19:49

day36-多路IO复用

一、基本概念 （服务器多客户端模型） 定义：单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力作用：应用程序通常需要处理来自多条事件流中的事件，比如我现在用的电脑，需要同时处理键盘鼠标…...

编程新知 2026/1/31 7:42:50

永磁同步电机无速度算法--基于卡尔曼滤波器的滑模观测器

一、原理介绍传统滑模观测器采用如下结构： 传统SMO中LPF会带来相位延迟和幅值衰减，并且需要额外的相位补偿。采用扩展卡尔曼滤波器代替常用低通滤波器(LPF)，可以去除高次谐波，并且不用相位补偿就可以获得一个误差较小的转子位…...

编程新知 2026/2/7 9:27:22

go 里面的指针

指针在 Go 中，指针（pointer）是一个变量的内存地址，就像 C 语言那样： a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10，通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...

编程新知 2025/8/18 12:09:07

mac：大模型系列测试

0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何，是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试，是可以跑通文章里面的代码。训练速度也是很快的。注意…...

编程新知 2026/2/4 0:46:21