当前位置：首页 > news >正文

【GPT-SOVITS-02】GPT模块解析

news 2026/2/10 17:08:46

说明：该系列文章从本人知乎账号迁入，主要原因是知乎图片附件过于模糊。

知乎专栏地址：
语音生成专栏

系列文章地址：
【GPT-SOVITS-01】源码梳理
【GPT-SOVITS-02】GPT模块解析
【GPT-SOVITS-03】SOVITS 模块-生成模型解析
【GPT-SOVITS-04】SOVITS 模块-鉴别模型解析
【GPT-SOVITS-05】SOVITS 模块-残差量化解析
【GPT-SOVITS-06】特征工程-HuBert原理

1.概述

GPT-SOVITS 的 GPT模块式实现从文本到语音编码的过程。

GPT-SOVITS 在原有的SOVITS入口加了一个残差量化层，参考Vall-E，这个量化层的输入是包含音频的文本特征和音色特征的。

AR模块的核心就是训练得到一个可以将文本转换成这个量化器输入的模型。核心代码主要在 AR包下 t2s_model.py 的 Text2SemanticDecoder类中。

训练特征包括：
在这里插入图片描述

2.训练流程

在这里插入图片描述

这里 semantic 是利用音频的 hubert 自编码信息SSL，进入 sovits
的残差量化层输出的结果，这个特征是包含文本以及音色特征
phoneme 特征和berf特征是针对文本的音素特征，类似拼音

3.推理流程

在这里插入图片描述

推理时，phoneme和berf用的是待生成的文本特征
semantic 是参考音频生成的编码特征
推理时，以参考音频为起点，基于文本特征，逐次向后预测 semantic编码，直到结束
因此返回的结果相当于两段的拼接，因此直接截取即可

4.调试代码参考

import os,sys
import yaml,torch
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))from  vof.ar.model.t2s_model import Text2SemanticDecoder
from vof.ar.data.data_module import Text2SemanticDataModulenow_dir   = os.getcwd()
root_dir  = os.path.dirname(now_dir)
prj_name  = 'project01'               # 项目名称
prj_dir   = root_dir + '/res/' + prj_name + '/'with open(root_dir + '/res/configs/s1longer.yaml') as f:data = f.read()data = yaml.load(data, Loader=yaml.FullLoader)s1_dir = prj_dir + 'logs'
os.makedirs("%s/logs_s1" % (s1_dir), exist_ok=True)data["train"]["batch_size"]                 = 3
data["train"]["epochs"]                     = 15
data["pretrained_s1"]                       = root_dir + '/res/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt'
data["train"]["save_every_n_epoch"]         = 5
data["train"]["if_save_every_weights"]      = True
data["train"]["if_save_latest"]             = True
data["train"]["exp_name"]                   = prj_name
data["train"]["half_weights_save_dir"]      = root_dir + '/res/weight/gpt'
data["train_semantic_path"]                 = "%s/6-name2semantic.tsv" % s1_dir
data["train_phoneme_path"]                  = "%s/2-name2text-0.txt" % s1_dir
data["train_bert_path"]                     = "%s/3-bert" % s1_dir
data["output_dir"]                          = "%s/logs_s1" % s1_dirText2SemanticDataModule = Text2SemanticDataModule(data,train_semantic_path = data["train_semantic_path"],train_phoneme_path  = data["train_phoneme_path"],train_bert_path  = data["train_bert_path"])Text2SemanticDataModule.setup()
print(Text2SemanticDataModule._train_dataset.__getitem__(0))"""
phoneme_ids: 文本转换为音素后，继续转换为 音素的编码 对应 name2text
phoneme_ids_len：音素数据长度
semantic_ids：语音编码，对应 name2semantic
semantic_ids_len：语音编码数据长度
bert_feature：bert 文本特征
"""t2smodel = Text2SemanticDecoder(data)res = Text2SemanticDataModule._train_dataset.__getitem__(0)
phoneme_ids             = res.get('phoneme_ids')
phoneme_ids_len         = res.get('phoneme_ids_len')
semantic_ids            = res.get('semantic_ids')
semantic_ids_len        = res.get('semantic_ids_len')
bert_feature            = res.get('bert_feature')# 增加一个batch 维度
x            = torch.LongTensor(phoneme_ids).unsqueeze(0)
x_len        = torch.LongTensor([phoneme_ids_len])
y            = torch.LongTensor(semantic_ids).unsqueeze(0)
y_len        = torch.LongTensor([semantic_ids_len])
bert_feature = bert_feature.unsqueeze(0).float()t2smodel.forward(x,x_len, y, y_len, bert_feature)

【GPT-SOVITS-02】GPT模块解析

说明：该系列文章从本人知乎账号迁入，主要原因是知乎图片附件过于模糊。知乎专栏地址： 语音生成专栏系列文章地址： 【GPT-SOVITS-01】源码梳理【GPT-SOVITS-02】GPT模块解析【GPT-SOVITS-03】SOVITS 模块-生成模型解析【G…...

编程日记 2024/3/18 21:00:53

6个选品建议，改善你的亚马逊现状。

一、市场热点与需求调研深入研究当前市场趋势，了解消费者需求的变化。使用亚马逊的销售数据、评价、问答等功能，以及第三方市场研究工具，比如店雷达，分析潜在热销产品的特点。注意季节性需求，提前布局相关选品&#…...

编程日记 2024/3/18 20:58:51

SQL中的SYSDATE函数

前言在SQL语言中，SYSDATE 是一个非常实用且常见的系统内置函数，尤其在Oracle和MySQL数据库中广泛使用。它主要用来获取服务器当前的日期和时间，这对于进行实时数据记录、审计跟踪、有效期计算等场景特别有用。本文将详细解析SYSDATE函数的使…...

编程日记 2024/3/18 20:55:48

Rust的async和await支持多线程运行吗？

Rust的async和await的异步机制并不是仅在单线程下实现的，它们可以在多线程环境中工作，从而利用多核CPU的并行计算优势。然而，异步编程的主要目标之一是避免不必要的线程切换开销，因此，在单线程上下文中，asy…...

编程日记 2024/3/18 20:54:47

P2676 [USACO07DEC] Bookshelf B

[USACO07DEC] Bookshelf B 题目描述 Farmer John 最近为奶牛们的图书馆添置了一个巨大的书架，尽管它是如此的大，但它还是几乎瞬间就被各种各样的书塞满了。现在，只有书架的顶上还留有一点空间。所有 N ( 1 ≤ N ≤ 20 , 000 ) N(1 \le N…...

编程日记 2024/3/18 20:51:44

【数学】第十三届蓝桥杯省赛C++ A组/研究生组《爬树的甲壳虫》（C++）

【题目描述】有一只甲壳虫想要爬上一棵高度为 n 的树，它一开始位于树根，高度为 0，当它尝试从高度 i−1 爬到高度为 i 的位置时有 Pi 的概率会掉回树根，求它从树根爬到树顶时，经过的时间的期望值是多少。【输入格式…...

编程日记 2024/3/18 20:48:41

Java毕业设计基于springboot vue招聘网站招聘系统

Java毕业设计基于springboot vue招聘网站招聘系统 springboot vue招聘网站招聘系统功能介绍用户：登录个人信息简历信息查看招聘信息企业：登录企业信息管理发布招聘信息职位招聘信息管理简历信息管理管理员：注册登录管理员…...

编程日记 2024/3/18 20:47:40

Leetcode 1. 两数之和

心路历程： 很简单的题，双层暴力就可以，用双指针的话快一点。暴力时间复杂度O( n 2 n^2 n2)，双指针时间复杂度O(nlogn) O(n) O(n) O(nlogn)。注意的点： 1、题目需要返回原数组的索引，所以排序后还需要…...

编程日记 2024/3/18 20:46:39

【elasticsearch实战】从零开始设计全站搜索引擎

业务需求最近需要一个全站搜索的功能，我们的站点的特点是数据多源，即有我们本地数据库，也包含了第三方数据源，我们的数据类型除了网页，还包括了各种类型的文档，例如：doc、pdf、excel、ppt等格…...

编程日记 2024/3/18 20:45:38

基于tcp协议的网络通信(基础echo版.多进程版,多线程版,线程池版),telnet命令

目录基础版思路辅助函数服务端代码运行情况 -- telnet ip 端口号传输的数据为什么没有转换格式客户端思路代码多进程版引入问题解决注意点服务端代码运行情况进程池版(简单介绍) 多线程版引入问题解决注意点服务端代码 …...

编程日记 2024/3/18 20:43:36

Ubuntu20系统安装完后没有WIFI

Ubuntu20系统安装完后没有WIFI 查看后发现是缺少网卡，经过查询之后，发现是HRex39/rtl8852be 然后查询了Kernel版本 Check the Kernel Version in Linux $ uname -srm Linux 5.15.0-67-generic x86_64然后进行下载安装 Build(for kernel < 5.18) …...

编程日记 2024/3/18 20:40:33

计算机视觉——目标检测（R-CNN、Fast R-CNN、Faster R-CNN ）

前言、相关知识 1.闭集和开集开集：识别训练集不存在的样本类别。闭集：识别训练集已知的样本类别。 2.多模态信息融合文本和图像，文本的语义信息映射成词向量，形成词典，嵌入到n维空间。图片内容信息提取特征&…...

编程日记 2024/3/18 20:38:31

log4j2.xml配置文件不生效

问题使用springboot配置log4j2，添加了依赖并排除默认的logging依赖，配置了log4j2.xml文件，放在scr目录下，运行可以在控制台输出日志，但不受配置文件影响解决配置文件log4j2.xml放在resources目录下生效...

编程日记 2024/3/18 20:36:29

QT信号与槽实现方式

1、第一种实现方式在QT开发工具UI界面先拖入按钮，然后鼠标右键拖入按钮，点击选中槽，在页面选着需要的信号，然后OK，随即将会跳转到类的.cpp文件，（这种UI代码结合的方式，会自动去绑定…...

编程日记 2024/3/18 20:35:28

Yarn面试重点

文章目录 1. 简述Yarn集群的架构2. Yarn 的任务提交流程是怎样的？3. yarn的资源调度的三种模型 1. 简述Yarn集群的架构 YARN（Yet Another Resource Negotiator）是Hadoop 2.x引入的资源管理器，用于管理Hadoop集群中的资源和作业调…...

编程日记 2024/3/18 20:34:27

高速口光口通信

1.通过transceiver ip 设置好硬件连接配置 2.open example 用自己的模块替换掉tx和rx数据模块 3.大小端问题—— 4.配置gt收发器的rx的k码时候需要设置anybyte便于高效率接收。 5.开发数据产生模块和接收校验模块都需要使用TXUSRCLK2,但是TXUSRCLK线速度/内部数据位宽。——…...

编程日记 2024/3/18 20:33:26

python--剑指offer--15. 二进制中1的个数

编写一个函数，输入是一个无符号整数（以二进制串的形式），返回其二进制表达式中数字位数为 ‘1’ 的个数（也被称为汉明重量).）。提示： 请注意，在某些语言（如 Java&…...

编程日记 2024/3/18 20:32:25

uniapp 配置服务器文件路径打包文件结构 //nginx 配置 server {listen 8300;server_name bfqcwebsiteapp;charset utf-8;#允许跨域请求的域，* 代表所有add_header Access-Control-Allow-Origin *;#允许带上cookie请求add_header Access-Control-Allow-C…...

编程日记 2024/3/18 20:31:24

排序算法：快速排序(递归)

文章目录一、创始人托尼霍尔的快速排序二、挖坑法三、前后指针法所属专栏:C初阶引言：这里所说的快速排序有三种，第一种是霍尔大佬自创的，还有一种叫做挖坑法，另外一种叫前后指针法一、创始人托尼霍尔的快速排序 1.这里我们先…...

编程日记 2024/3/18 20:30:22

蓝桥杯每日一题（BFS）

1562 微博转发开始思路错误点：在用拉链法保存关注信息的时候，因为要看一个用户发的有多少转发的，所以要以用户为坑位，所有关注这个坑位的用户为链表。（开始弄反了） e数组存某个用户的idx，ne是…...

编程日记 2024/3/18 20:29:21

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2026/2/9 16:57:53

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

一、模块概述 ngx_stream_return_module 提供了一个极简的指令： return <value>;在收到客户端连接后，立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量（如 $time_iso8601、$remote_addr 等）&a…...

编程新知 2025/9/21 0:49:02

黑马Mybatis

Mybatis 表现层：页面展示业务层：逻辑处理持久层：持久数据化保存在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

编程新知 2026/1/22 14:22:27

《Playwright：微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络，将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具，支持 Chrome、Firefox、Safari 等主流浏览器，提供多语言 API（Python、JavaScript、Java、.NET）。它的特点包括&a…...

编程新知 2025/7/23 15:00:00

微信小程序云开发平台MySQL的连接方式

注：微信小程序云开发平台指的是腾讯云开发先给结论：微信小程序云开发平台的MySQL，无法通过获取数据库连接信息的方式进行连接，连接只能通过云开发的SDK连接，具体要参考官方文档： 为什么？ 因为…...

编程新知 2026/2/1 5:24:17

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构，使它们在 VS 解决方案资源管理器中以“组”（Filter）的形式进行分类展示。 🎯 目标通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总（共4种）方法描述是否推荐…...

编程新知 2025/12/4 15:47:17

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2026/1/28 8:25:28

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/12/18 8:35:12

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码：HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

编程新知 2026/2/4 17:33:27

【GPT-SOVITS-02】GPT模块解析

1.概述

2.训练流程

3.推理流程

4.调试代码参考

相关文章：

【GPT-SOVITS-02】GPT模块解析

6个选品建议，改善你的亚马逊现状。

SQL中的SYSDATE函数

Rust的async和await支持多线程运行吗？

P2676 [USACO07DEC] Bookshelf B

【数学】第十三届蓝桥杯省赛C++ A组/研究生组《爬树的甲壳虫》（C++）

Java毕业设计基于springboot vue招聘网站招聘系统

Leetcode 1. 两数之和

【elasticsearch实战】从零开始设计全站搜索引擎

基于tcp协议的网络通信(基础echo版.多进程版,多线程版,线程池版),telnet命令

Ubuntu20系统安装完后没有WIFI

计算机视觉——目标检测（R-CNN、Fast R-CNN、Faster R-CNN ）

log4j2.xml配置文件不生效

QT信号与槽实现方式

Yarn面试重点

高速口光口通信

python--剑指offer--15. 二进制中1的个数

uniapp h5 部署

排序算法：快速排序(递归)

蓝桥杯每日一题（BFS）

Linux应用开发之网络套接字编程(实例篇)

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

黑马Mybatis

《Playwright：微软的自动化测试工具详解》

微信小程序云开发平台MySQL的连接方式

CMake控制VS2022项目文件分组

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

JAVA后端开发——多租户

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG