当前位置：首页 > news >正文

GPT-Sovits-2-微调模型

news 2026/2/10 1:52:59

1. 大致步骤

上一步整理完数据集后，此步输入数据, 微调2个模型VITS和GPT，位置在 <<1-GPT-SoVITS-tts>>下的<<1B-微调训练>>

页面的两个按钮分别执行两个文件:

<./GPT_SoVITS/s2_train.py>

这一步微调VITS的预训练模型，即微调SynthesizerTrn模型

<./GPT_SoVITS/s1_train.py>

这一步微调GPT的预训练模型，这里采用的是google的soundstorm复现

模型结构文件在：’ ./GPT_SoVITS/AR/models/t2s_model.py’

注意，两个模型微调是独立的, 可分别完成

界面如下：

在这里插入图片描述

2. 微调过程

2.1执行SoVITS训练

这里webui.py中代码会用gradio框架将页面上的设置转换为python变量，并保存到‘。/TEMP’文件夹的‘tmp_s2.json’文件，用于送入s2_train.py作为训练参数
另外，‘./logs’下会生成 train.log 和 config.json文件，记录微调的配置信息。以及eval和logs_s2文件夹，同样记录训练过程数据。
微调后的模型保存到‘GPT_weights_v2’文件夹
配置记录：

train.log

2024-10-21 23:48:33,030	XXX INFO	{'train': {'log_interval': 100, 'eval_interval': 500, 'seed': 1234, 'epochs': 2, 'learning_rate': 0.0001, 'betas': [0.8, 0.99], 'eps': 1e-09, 'batch_size': 6, 'fp16_run': False, 'lr_decay': 0.999875, 'segment_size': 20480, 'init_lr_ratio': 1, 'warmup_epochs': 0, 'c_mel': 45, 'c_kl': 1.0, 'text_low_lr_rate': 0.4, 'pretrained_s2G': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth', 'pretrained_s2D': 'GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth', 'if_save_latest': True, 'if_save_every_weights': True, 'save_every_epoch': 4, 'gpu_numbers': '0'}, 'data': {'max_wav_value': 32768.0, 'sampling_rate': 32000, 'filter_length': 2048, 'hop_length': 640, 'win_length': 2048, 'n_mel_channels': 128, 'mel_fmin': 0.0, 'mel_fmax': None, 'add_blank': True, 'n_speakers': 300, 'cleaned_text': True, 'exp_dir': 'logs/xxx'}, 'model': {'inter_channels': 192, 'hidden_channels': 192, 'filter_channels': 768, 'n_heads': 2, 'n_layers': 6, 'kernel_size': 3, 'p_dropout': 0.1, 'resblock': '1', 'resblock_kernel_sizes': [3, 7, 11], 'resblock_dilation_sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]], 'upsample_rates': [10, 8, 2, 2, 2], 'upsample_initial_channel': 512, 'upsample_kernel_sizes': [16, 16, 8, 2, 2], 'n_layers_q': 3, 'use_spectral_norm': False, 'gin_channels': 512, 'semantic_frame_rate': '25hz', 'freeze_quantizer': True, 'version': 'v2'}, 's2_ckpt_dir': 'logs/xxx', 'content_module': 'cnhubert', 'save_weight_dir': 'SoVITS_weights_v2', 'name': 'xxx', 'version': 'v2', 'pretrain': None, 'resume_step': None}
2024-10-04 17:02:30,480	xxx01	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth
2024-10-04 17:02:30,697	xxx01	INFO	loaded pretrained GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth
2024-10-04 17:03:03,571	xxx01	INFO	Train Epoch: 1 [0%]
2024-10-04 17:03:03,571	xxx01	INFO	[2.700843572616577, 2.197847366333008, 5.394582748413086, 18.876893997192383, 0.0, 2.0498788356781006, 0, 9.99875e-05]
2024-10-04 17:03:08,853	xxx01	INFO	====> Epoch: 1
2024-10-04 17:03:14,537	xxx01	INFO	====> Epoch: 2
2024-10-04 17:03:19,520	xxx01	INFO	====> Epoch: 3
2024-10-04 17:03:24,553	xxx01	INFO	Saving model and optimizer state at iteration 4 to logs/yc01/logs_s2\G_233333333333.pth
2024-10-04 17:03:26,369	xxx01	INFO	Saving model and optimizer state at iteration 4 to logs/yc01/logs_s2\D_233333333333.pth
2024-10-04 17:03:32,288	xxx01	INFO	saving ckpt xxx01_e4:Success.

config.json

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 2, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 6, "fp16_run": false, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth", "if_save_latest": true, "if_save_every_weights": true, "save_every_epoch": 4, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/xxx"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true, "version": "v2"}, "s2_ckpt_dir": "logs/xxx", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights_v2", "name": "xxx", "version": "v2"}

tmp_s2.json

{"train": {"log_interval": 100, "eval_interval": 500, "seed": 1234, "epochs": 2, "learning_rate": 0.0001, "betas": [0.8, 0.99], "eps": 1e-09, "batch_size": 6, "fp16_run": false, "lr_decay": 0.999875, "segment_size": 20480, "init_lr_ratio": 1, "warmup_epochs": 0, "c_mel": 45, "c_kl": 1.0, "text_low_lr_rate": 0.4, "pretrained_s2G": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2G2333k.pth", "pretrained_s2D": "GPT_SoVITS/pretrained_models/gsv-v2final-pretrained/s2D2333k.pth", "if_save_latest": false, "if_save_every_weights": true, "save_every_epoch": 2, "gpu_numbers": "0"}, "data": {"max_wav_value": 32768.0, "sampling_rate": 32000, "filter_length": 2048, "hop_length": 640, "win_length": 2048, "n_mel_channels": 128, "mel_fmin": 0.0, "mel_fmax": null, "add_blank": true, "n_speakers": 300, "cleaned_text": true, "exp_dir": "logs/wmd"}, "model": {"inter_channels": 192, "hidden_channels": 192, "filter_channels": 768, "n_heads": 2, "n_layers": 6, "kernel_size": 3, "p_dropout": 0.1, "resblock": "1", "resblock_kernel_sizes": [3, 7, 11], "resblock_dilation_sizes": [[1, 3, 5], [1, 3, 5], [1, 3, 5]], "upsample_rates": [10, 8, 2, 2, 2], "upsample_initial_channel": 512, "upsample_kernel_sizes": [16, 16, 8, 2, 2], "n_layers_q": 3, "use_spectral_norm": false, "gin_channels": 512, "semantic_frame_rate": "25hz", "freeze_quantizer": true, "version": "v2"}, "s2_ckpt_dir": "logs/xxx", "content_module": "cnhubert", "save_weight_dir": "SoVITS_weights_v2", "name": “xxx”, "version": "v2"}

以上3个文件的内容是冗余的，配置信息的参数一致, 只是‘train.log’会记录微调时命令行的输出。

生成文件后，s2_train.py首先加载VITS预训练模型，之后训练设置的epoch数。

2.2执行GPT训练

这一步和上一步时类似，执行s2_train.py文件，微调后的模型保存到‘SoVITS_weights_v2’

3.语音合成

这一步位置在位置在 <<1-GPT-SoVITS-tts>>下的<<1C-推理>>，界面如下：

在这里插入图片描述

选择预训练
- GPT模型列表选择
- SoVITS模型列表选择
开启推理界面

点击开启TTS推理WebUi选项，就会弹出推理节目

这里执行的是’inference_webui.py’ 或 ‘inference_webui_fast.py’文件

4.推理界面(需要打开)

这里可以传一个参考音频，并填入对应语意文本，模型训练够好的话(数据+epoch够多)，也可以不传。

界面如下：

在这里插入图片描述

输出的语音就是克隆的声音了，由于版本还在更新，项目组可能后去还会更新改动页面和功能，因此这里只是大致流程。

Reference

https://github.com/yangdongchao/SoundStorm/blob/master/soundstorm/s1/AR/models/t2s_model.py
https://google-research.github.io/seanet/soundstorm/examples/

GPT-Sovits-2-微调模型

1. 大致步骤上一步整理完数据集后，此步输入数据, 微调2个模型VITS和GPT，位置在 <<1-GPT-SoVITS-tts>>下的<<1B-微调训练>> 页面的两个按钮分别执行两个文件: <./GPT_SoVITS/s2_train.py> 这一步微调VITS的预训练模型…...

编程日记 2024/10/30 14:15:06

【数据结构 | PTA】懂蛇语

懂蛇语在《一年一度喜剧大赛》第二季中有一部作品叫《警察和我之蛇我其谁》，其中“毒蛇帮”内部用了一种加密语言，称为“蛇语”。蛇语的规则是，在说一句话 A 时，首先提取 A 的每个字的首字母，然后把整句话替换为另一…...

编程日记 2024/10/30 14:14:05

Python——自动化发送邮件

在数字化时代，电子邮件是商务沟通和个人联络的重要工具。自动化邮件发送可以节省时间，提高效率。Python，作为一种强大且灵活的编程语言，提供了多种库来支持邮件的自动化发送。本文将详细介绍如何使用Python的smtplib和email库来编…...

编程日记 2024/10/30 14:13:04

MTKLauncher_布局页面分析

文章目录前言遇到的困难点针对性解决困难需求相关资料Launcher3 源码目录简单介绍Launcher3 简介及页面布局分析UI整体架构数据加载布局加载布局加载核心思想device_profiles.xml 加载InvariantDeviceProfileinitGrid(context, gridName)getPredefinedDeviceProfilesinvDist…...

编程日记 2024/10/30 14:10:01

C#实现隐藏和显示任务栏

实现步骤为了能够控制Windows任务栏，我们需要利用Windows API提供的功能。具体来说，我们会使用到user32.dll中的两个函数：FindWindow和ShowWindow。这两个函数可以帮助我们找到任务栏窗口，并对其执行显示或隐藏的操作引入命名空…...

编程日记 2024/10/30 14:07:59

基于springboot+vue实现的公司财务管理系统（源码+L文+ppt）4-102

基于springbootvue实现的公司财务管理系统（源码L文ppt）4-102 摘要本系统是基于SpringBoot框架开发的公司财务管理系统,该系统包含固定资产管理、资产申领管理、资产采购管理、员工工资管理等功能。公司财务管理系统是一种帮助公司进行有效资金管理、会…...

编程日记 2024/10/30 14:06:58

rnn/lstm

tip：本人比较小白，看到july大佬的文章受益匪浅，现在其文章基础上加上自己的归纳、理解，以及gpt的答疑，如果有侵权会删。 july大佬文章来源：如何从RNN起步，一步一步通俗理解LSTM_rnn lstm-CSDN博…...

编程日记 2024/10/30 14:05:57

袋鼠云产品功能更新报告12期｜让数据资产管理更高效

本期，我们更新和优化了数据资产平台相关功能，为您提供更高效的产品能力。以下为第12期袋鼠云产品功能更新报告，请继续阅读。一、【元数据】重点更新 ｜01 元数据管理优化，支持配置表生命周期之前系统中缺少一个可以…...

编程日记 2024/10/30 14:04:56

MATLAB——入门知识

内容源于b站清风数学建模目录 1.帮助文档 2.注释 3.特殊字符 4.设置MATLAB数值显示格式 4.1.临时更改 4.2.永久改 5.常用函数 6.易错点 1.帮助文档 doc sum help sum edit sum 2.注释 ctrl R/T 3.特殊字符 4.设置MATLAB数值显示格式 4.1.临时更改 format lon…...

编程日记 2024/10/30 14:03:55

这是书本中第四个unity Lab 在这次实验中,将学习如何搭建一个开始界面分数系统点击球,会增加分数 public void ClickOnBall(){Score;}在OneBallBehaviour类添加下列方法 void OnMouseDown(){GameController controller Camera.main.GetComponent<GameController>();…...

编程日记 2024/10/30 14:02:53

Axure PR 9 多级下拉清除选择器设计交互

大家好，我是大明同学。 Axure选择器是一种在交互设计中常用的组件，这期内容，我们来探讨Axure中选择器设计与交互技巧。 OK，这期内容正式开始下拉列表选择输入框元件创建选择输入框所需的元件 1.在元件库中拖出一个矩形元件。…...

编程日记 2024/10/30 14:00:51

分布式项目pom配置

1. 父项目打包方式为 pom <packaging>pom</packaging> 2. 父项目版本配置 <properties><maven.compiler.source>17</maven.compiler.source><maven.compiler.target>17</maven.compiler.target><project.build.sourceEncod…...

编程日记 2024/10/30 13:59:50

2. Flink快速上手

文章目录 1. 环境准备1.1 系统环境1.2 安装配置Java 8和Scala 2.121.3 使用集成开发环境IntelliJ IDEA1.4 安装插件2. 创建项目2.1 创建工程2.1.1 创建Maven项目2.1.2 设置项目基本信息2.1.3 生成项目基本框架2.2 添加项目依赖2.2.1 添加Flink相关依赖2.2.2 添加slf4j-nop依赖2…...

编程日记 2024/10/30 13:56:46

Java-I/O框架06：常见字符编码、字符流抽象类

视频链接：16.16 字符流抽象类_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Tz4y1X7H7?spm_id_from333.788.videopod.episodes&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5&p16 1.常见字符编码 IOS-8859-1收录了除ASCII外，还包括西欧…...

编程日记 2024/10/30 13:55:46

计算机网络-MSTP的基础概念

前面我们大致了解了MSTP的由来，是为了解决STP/RSTP只有一根生成树导致的VLAN流量负载分担与次优路径问题，了解MSTP采用实例映射VLAN的方式实现多实例生成树，MSTP有很多的理论概念需要知道，其实与其它的知识一样理论复杂配置还好的…...

编程日记 2024/10/30 13:54:45

P1037 [NOIP2002 普及组] 产生数

[NOIP2002 普及组] 产生数题目描述给出一个整数 n n n 和 k k k 个变换规则。规则： 一位数可变换成另一个一位数。规则的右部不能为零。例如： n 234 , k 2 n234,k2 n234,k2。有以下两个规则： 2 ⟶ 5 2\longrightarrow 5 2⟶5。 …...

编程日记 2024/10/30 13:51:42

【分布式知识】分布式对象存储组件-Minio

文章目录什么是minio核心特点：使用场景：开发者工具：社区和支持： 核心概念什么是对象存储？MinIO 如何确定对对象的访问权限？我可以在存储桶内按文件夹结构组织对象吗？如何备份和恢复 MinIO 上的…...

编程日记 2024/10/30 13:50:41

跨平台开发支付组件，实现支付宝支付

效果图： custom-payment ： 在生成预付订单之后页面中需要弹出一个弹层，弹层中展示的内容为支付方式（渠道），由用户选择一种支付方式进行支付。该弹层组件是以扩展组件 uni-popup 为核心的，关于…...

编程日记 2024/10/30 13:48:38

API 接口：为电商行业高效发展注入强劲动力

一、动力之源：API 接口在电商中的角色剖析在电商行业的广袤版图中，API 接口宛如一台强劲的发动机，是推动其高效发展的核心动力来源。它不再仅仅是一个技术工具，而是成为了连接电商各个环节的 “神经系统”，使得信息、…...

编程日记 2024/10/30 13:46:35

Golang的跨平台开发

Golang的跨平台开发一、Golang跨平台开发概述语言是一种开源的编程语言，由Google开发，广泛应用于云计算和网络编程领域。Golang具有并发性好、性能优异、内存管理自动化等特点，因此备受开发者青睐。其中，Golang的跨平台特性使得…...

编程日记 2024/10/30 13:44:33

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/8 4:37:06

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名转换路径 …...

编程新知 2026/1/20 14:36:39

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备环境搭建： 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号项目创建： File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

编程新知 2025/9/5 12:16:40

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址：pdf 英文是纯手打的！论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误，若有发现欢迎评论指正！文章偏向于笔记，谨慎食用目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

编程新知 2026/2/6 14:42:11

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

骨骼动画基础骨骼动画是 3D 计算机图形中常用的技术，它通过以下两个主要组件实现角色动画。骨骼系统 (Skeleton)：由层级结构的骨头组成，类似于人体骨骼蒙皮 (Mesh Skinning)：将模型网格顶点绑定到骨骼上，使骨骼移动…...

编程新知 2026/2/1 5:42:50

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

rnn判断string中第一次出现a的下标

# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写实现一个RNN网络完成多分类任务判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...

编程新知 2025/9/24 16:25:00

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/12/18 8:35:12

蓝桥杯冶炼金属

原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V，是一个正整数，表示每 V V V 个普通金属 O O O 可以冶炼出 …...

编程新知 2026/2/4 10:54:26

libfmt: 现代C++的格式化工具库介绍与酷炫功能

libfmt: 现代C的格式化工具库介绍与酷炫功能 libfmt 是一个开源的C格式化库，提供了高效、安全的文本格式化功能，是C20中引入的std::format的基础实现。它比传统的printf和iostream更安全、更灵活、性能更好。基本介绍主要特点类型安全&#xff1a…...

编程新知 2025/9/14 12:09:11

GPT-Sovits-2-微调模型

1. 大致步骤

2. 微调过程

2.1执行SoVITS训练

2.2执行GPT训练

3.语音合成

4.推理界面(需要打开)

Reference

相关文章：

GPT-Sovits-2-微调模型

【数据结构 | PTA】懂蛇语

Python——自动化发送邮件

MTKLauncher_布局页面分析

C#实现隐藏和显示任务栏

基于springboot+vue实现的公司财务管理系统（源码+L文+ppt）4-102

rnn/lstm

袋鼠云产品功能更新报告12期｜让数据资产管理更高效

MATLAB——入门知识

C#从零开始学习(用户界面)(unity Lab4)

Axure PR 9 多级下拉清除选择器设计交互

分布式项目pom配置

2. Flink快速上手

Java-I/O框架06：常见字符编码、字符流抽象类

计算机网络-MSTP的基础概念

P1037 [NOIP2002 普及组] 产生数

【分布式知识】分布式对象存储组件-Minio

跨平台开发支付组件，实现支付宝支付

API 接口：为电商行业高效发展注入强劲动力

Golang的跨平台开发

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

Linux简单的操作

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

Caliper 配置文件解析：config.yaml

rnn判断string中第一次出现a的下标

JAVA后端开发——多租户

蓝桥杯冶炼金属

libfmt: 现代C++的格式化工具库介绍与酷炫功能