当前位置：首页 > news >正文

【GPT-SOVITS-05】SOVITS 模块-残差量化解析

news 2026/2/8 17:54:19

说明：该系列文章从本人知乎账号迁入，主要原因是知乎图片附件过于模糊。

知乎专栏地址：
语音生成专栏

系列文章地址：
【GPT-SOVITS-01】源码梳理
【GPT-SOVITS-02】GPT模块解析
【GPT-SOVITS-03】SOVITS 模块-生成模型解析
【GPT-SOVITS-04】SOVITS 模块-鉴别模型解析
【GPT-SOVITS-05】SOVITS 模块-残差量化解析
【GPT-SOVITS-06】特征工程-HuBert原理

1.概述

在 GPT-SOVITS 实现中，残差量化层是一个相对核心的改动。如前文所述，在 AR模块训练时，其semantic特征是基于预训练生成模型中残差量化层的输出。残差量化层的核心代码如下：

在这里插入图片描述

ResidualVectorQuantizer 是残差量化编码器的封装，在生成模型中构建
ResidualVectorQuantization 是残差量化编码器的具体实现，其默认包含8个量化编码器
VectorQuantization。层与层之间用的是输入值和量化值的残差。
VectorQuantization 是具体某一层的量化编码，将输入数据进行量化编码
VectorQuantization 在进行量化编码时，其编码字典的实现为
Euclideanbook。其将输入数据做k均值聚类实现一个编码器，将k均值的中心点，作为量化字典。

2、EuclideanCodebook 实现

2.1、原理

在这里插入图片描述

输入数据大小为【num_sample,dim】，前者为输入数据数量，后者为每个数据的向量维度基于k均值聚类，codebook_size
参数为聚类K的中心点数量，即字典大小，kmeans_iters为迭代次数
完成k均值聚类后，原始数据各值与中心点计算欧式距离，以就近原则选择中心点作为量化的替代值

2.2、调试代码参考

book = EuclideanCodebook(dim=30,codebook_size=1024,kmeans_init=True,kmeans_iters=50,decay=0.99,epsilon=1e-5,threshold_ema_dead_code=2)quantize, embed_ind = book.forward(sample_data)

3、ResidualVectorQuantizer 实现

3.1、原理

在这里插入图片描述

残差量化编码器有默认8个独立的量化器构成
在每一层的输出时输出三个值

        all_losses    = []all_indices   = []out_quantized = []n_q = n_q or len(self.layers)for i, layer in enumerate(self.layers[:n_q]):# quantized: 量化后的特征向量# indices：  量化后的特征向量所对应的索引# loss   ：  量化后的特征向量和原始特征的损失quantized, indices, loss = layer(residual)   # 进入下一层的输入是残差residual = residual - quantized              # 残差quantized_out = quantized_out + quantized    # 基于量化输出的总体累加输出all_indices.append(indices)all_losses.append(loss)if layers and i in layers:out_quantized.append(quantized)out_losses, out_indices = map(torch.stack, (all_losses, all_indices))return quantized_out, out_indices, out_losses, out_quantized

3.2、调试代码参考

rvq = ResidualVectorQuantization(dim=30,codebook_size=1024,num_quantizers=8,decay=0.99,kmeans_init=True,kmeans_iters=50,threshold_ema_dead_code=2)sample_data_1 = torch.rand(1,30, 1000)rvq.forward(sample_data_1, layers=[0])codes   = rvq.forward(sample_data_1)indices = rvq.encode(sample_data_1)print(rvq.decode(indices))

【GPT-SOVITS-05】SOVITS 模块-残差量化解析

说明：该系列文章从本人知乎账号迁入，主要原因是知乎图片附件过于模糊。知乎专栏地址： 语音生成专栏系列文章地址： 【GPT-SOVITS-01】源码梳理【GPT-SOVITS-02】GPT模块解析【GPT-SOVITS-03】SOVITS 模块-生成模型解析【G…...

编程日记 2024/3/18 6:52:17

Flutter第四弹：Flutter图形渲染性能

目标： 1）Flutter图形渲染性能能够媲美原生？ 2）Flutter性能优于React Native? 一、Flutter图形渲染原理 1.1 Flutter图形渲染原理 Flutter直接调用Skia。 Flutter不使用WebView，也不使用操作系统的原生控件,而是…...

编程日记 2024/3/18 6:51:16

[氮化镓]GaN中质子反冲离子的LET和射程特性

这篇文件是一篇关于氮化镓（GaN）中质子反冲离子的线性能量转移（LET）和射程特性的研究论文，发表在《IEEE Transactions on Nuclear Science》2021年5月的期刊上。论文的主要内容包括： 研究背景：氮…...

编程日记 2024/3/18 6:50:15

【项目】C++ 基于多设计模式下的同步异步日志系统

前言一般而言，业务的服务都是周而复始的运行，当程序出现某些问题时，程序员要能够进行快速的修复，而修复的前提是要能够先定位问题。因此为了能够更快的定位问题，我们可以在程序运行过程中记录一些日志，通…...

编程日记 2024/3/18 6:47:13

安卓国产百度网盘与国外云盘软件onedrive对比

我更愿意使用国外软件公司的产品，而不是使用国内百度等制作的流氓软件。使用这些国产软件让我不放心，他们占用我的设备大量空间，在我的设备上推送运行各种无用的垃圾功能。瞒着我，做一些我不知道的事情。百度网盘安装包大小&…...

编程日记 2024/3/18 6:45:11

健身·健康行业Web3新尝试：MATCHI

随着区块链技术进入主流，web3 运动已经开始彻底改变互联网，改写从游戏到金融再到艺术的行业规则。现在，MATCHI的使命是颠覆健身行业。 MATCHI是全球首个基于Web3的在线舞蹈健身游戏和全球首个Web3舞蹈游戏的发起者，注册于新加坡&a…...

编程日记 2024/3/18 6:44:10

VB.NET高级面试题：什么是 VB.NET？与 Visual Basic 6.0 相比有哪些主要区别？

什么是 VB.NET？与 Visual Basic 6.0 相比有哪些主要区别？ VB.NET是一种面向对象的编程语言，是微软公司推出的.NET平台上的一种编程语言，用于构建Windows应用程序、Web应用程序和Web服务等。它是Visual Basic的后续版本&#xff0…...

编程日记 2024/3/18 6:43:09

30.HarmonyOS App(JAVA)鸿蒙系统app多线程任务分发器

HarmonyOS App(JAVA)多线程任务分发器打印时间，记录到编辑框textfield信息显示同步分发，异步分发，异步延迟分发，分组任务分发，屏蔽任务分发，多次任务分发参考代码注释场景介绍如果应用的业务逻辑比…...

编程日记 2024/3/18 6:42:08

伺服电机编码器的分辨率指得是什么?

伺服电机编码器的分辨率是伺服电机编码器的重要参数。一般来说，具体的伺服电机编码器型号可以找到对应的分辨率值。伺服电机编码器的分辨率和精度不同，但也有一定的关系。伺服电机编码器的分辨率是多少？ 1、伺服编码器（同步伺…...

编程日记 2024/3/18 6:40:06

一、背景这里的代码使用MVVM模式进行编写二、Model public class DataPoint{public double X { get; set; }public double Y { get; set; }} 三、ViewModel public class ScatterChartViewModel{public SeriesCollection Series { get; set; }public ScatterChartViewMod…...

编程日记 2024/3/18 6:39:05

Android Studio实现内容丰富的安卓博客发布平台

获取源码请点击文章末尾QQ名片联系，源码不免费，尊重创作，尊重劳动项目编号078 1.开发环境android stuido jdk1.8 eclipse mysql tomcat 2.功能介绍安卓端： 1.注册登录 2.查看博客列表 3.查看博客详情 4.评论博客， 5.…...

编程日记 2024/3/18 6:36:02

【GPT-SOVITS-01】源码梳理

编程日记 2024/3/18 6:35:01

数据结构大合集02——线性表的相关函数运算算法

函数运算算法合集02 顺序表的结构体顺序表的基本运算的实现1. 建立顺序表2. 顺序表的基本运算2.1 初始化线性表2. 2 销毁顺序表2.3 判断顺序表是否为空表2.4 求顺序表的长度2.5 输出顺序表2.6 按序号求顺序表中的元素2.7 按元素值查找2.8 插入数据元素2.9 删除数据元素单链表的…...

编程日记 2024/3/18 6:34:00

threejs案例，与静态三角形网格的基本碰撞, 鼠标环顾四周并投球游戏

创建一个时钟对象: const clock new THREE.Clock();这行代码创建了一个新的THREE.Clock对象，它用于跟踪经过的时间。这在动画和物理模拟中很有用。 2. 创建场景: const scene new THREE.Scene();这行代码创建了一个新的3D场景。所有的物体（如模型、灯…...

编程日记 2024/3/18 6:31:58

将FastSAM中的TextPrompt迁移到MobileSAM中

本博文简单介绍了SAM、FastSAM与MobileSAM，主要关注于TextPrompt功能的使用。从性能上看MobileSAM是最实用的，但其没有提供TextPrompt功能，故而参考FastSAM中的实现，在MobileSAM中嵌入TextPrompt类。并将TextPrompt能力嵌入到MobileSAM官方项目提供的gradio.py部署代码中，…...

编程日记 2024/3/18 6:29:57

KY191 矩阵幂（用Java实现）

描述给定一个n*n的矩阵，求该矩阵的k次幂，即P^k。输入描述： 第一行：两个整数n（2<n<10）、k（1<k<5），两个数字之间用一个空格隔开，含义如上所示…...

编程日记 2024/3/18 6:26:54

基于Python的股票市场分析：趋势预测与策略制定

一、引言股票市场作为投资领域的重要组成部分，其价格波动和趋势变化一直是投资者关注的焦点。准确预测股票市场的趋势对于制定有效的投资策略至关重要。本文将使用Python编程语言，结合时间序列分析和机器学习算法，对股票市场的历史数据进行…...

编程日记 2024/3/18 6:25:53

【C++】了解一下编码

个人主页 ： zxctscl 如有转载请先通知文章目录 1. 前言2. ASCII编码3. unicode4. GBK5. 类型转换 1. 前言看到string里面还有Template instantiations： string其实是basic_string<char>，它还是一个模板。再看看wstring&#xff1…...

编程日记 2024/3/18 6:24:51

生成式人工智能在金融领域：FinGPT、BloombergGPT及其未来

生成式人工智能在金融领域的应用：FinGPT、BloombergGPT 及其他引言生成式人工智能（Generative AI）是指能够生成与输入数据相似的新数据样本的模型。ChatGPT 的成功为各行各业带来了许多机会，激励企业设计自己的大型语言模型。…...

编程日记 2024/3/18 6:22:50

webpack5零基础入门-10babel的使用

Babel JavaScript 编译器。主要用于将 ES6 语法编写的代码转换为向后兼容的 JavaScript 语法，以便能够运行在当前和旧版本的浏览器或其他环境中 1.安装相关包 npm install -D babel-loader babel/core babel/preset-env 2.进行相关配置 2.1第一种写法是在webp…...

编程日记 2024/3/18 6:21:49

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

0. 概述上一节对安装和使用有个基本介绍。根据这个 issue 的描述，后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作，其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

编程新知 2026/1/24 6:44:11

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

摘要本论文旨在设计并实现基于 SpringBoot 和 uniapp 的 Champion 俱乐部微信小程序，以满足俱乐部线上活动推广、会员管理、社交互动等需求。通过 SpringBoot 搭建后端服务，提供稳定高效的数据处理与业务逻辑支持；利用 uniapp 实现跨平台前…...

编程新知 2026/1/31 10:55:22

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/9/24 23:08:17

用docker来安装部署freeswitch记录

今天刚才测试一个callcenter的项目，所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

编程新知 2026/2/1 3:20:44

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南在数字化营销时代，邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天，我们将深入解析邮件打开率、网站可用性、页面参与时…...

编程新知 2025/12/13 4:04:33

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2026/1/20 17:18:59

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/8/28 21:52:02

Mysql8 忘记密码重置，以及问题解决

1.使用免密登录找到配置MySQL文件，我的文件路径是/etc/mysql/my.cnf，有的人的是/etc/mysql/mysql.cnf 在里最后加入 skip-grant-tables重启MySQL服务 service mysql restartShutting down MySQL… SUCCESS! Starting MySQL… SUCCESS! 重启成功 2.登…...

编程新知 2026/1/9 8:59:09

【GPT-SOVITS-05】SOVITS 模块-残差量化解析

1.概述

2、EuclideanCodebook 实现

2.1、原理

2.2、调试代码参考

3、ResidualVectorQuantizer 实现

3.1、原理

3.2、调试代码参考

相关文章：

【GPT-SOVITS-05】SOVITS 模块-残差量化解析

Flutter第四弹：Flutter图形渲染性能

[氮化镓]GaN中质子反冲离子的LET和射程特性

【项目】C++ 基于多设计模式下的同步异步日志系统

安卓国产百度网盘与国外云盘软件onedrive对比

健身·健康行业Web3新尝试：MATCHI

VB.NET高级面试题：什么是 VB.NET？与 Visual Basic 6.0 相比有哪些主要区别？

30.HarmonyOS App(JAVA)鸿蒙系统app多线程任务分发器

伺服电机编码器的分辨率指得是什么?

WPF中使用LiveCharts绘制散点图

Android Studio实现内容丰富的安卓博客发布平台

【GPT-SOVITS-01】源码梳理

数据结构大合集02——线性表的相关函数运算算法

threejs案例，与静态三角形网格的基本碰撞, 鼠标环顾四周并投球游戏

将FastSAM中的TextPrompt迁移到MobileSAM中

KY191 矩阵幂（用Java实现）

基于Python的股票市场分析：趋势预测与策略制定

【C++】了解一下编码

生成式人工智能在金融领域：FinGPT、BloombergGPT及其未来

webpack5零基础入门-10babel的使用

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

Spring Boot面试题精选汇总

用docker来安装部署freeswitch记录

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

优选算法第十二讲：队列 + 宽搜优先级队列

Java多线程实现之Thread类深度解析

Mysql8 忘记密码重置，以及问题解决