当前位置：首页 > news >正文

使用 GPT-SoVITS 克隆声音，很详细

news 2026/2/8 19:29:28

使用 GPT-SoVITS 克隆声音，很详细

一、前言
二、下载
三、启动
四、克隆声音
- 1、准备克隆音频
- 2、分离人声伴奏
- 3、音频分割
- 4、语音降噪
- 5、ASR工具
- 6、语音文本校对标注工具
- 7、训练模型
- 8、微调训练
- 9、推理

一、前言

最近对文本转语言很感兴趣，但对直接在网站上生成的音频音色却不是很满意，经过一番寻找，发现了“GPT-SoVITS” ，对想要的声音进行克隆。

二、下载

可以到这里下载

在这里插入图片描述

下载后解压即可

这里将其解压到如下目录：

E:\software\gpt-sovits

在这里插入图片描述

三、启动

进入“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821”

双击“go-webui.bat”即可
在这里插入图片描述

会出现一个黑窗口

在这里插入图片描述

启动成功会打开浏览器跳转到这个页面

在这里插入图片描述

四、克隆声音

1、准备克隆音频

先准备好想要提起的声音，这里以克隆芭芭拉的声音为例

在这里插入图片描述

可以到这里下载原音频

下载后将其放到某个文件夹中，这里放到

F:\file\GptSovitsFile\sucai\芭芭拉

2、分离人声伴奏

回到“GPT-SoVITS”中，点击开启“UVR5-WebUI”

在这里插入图片描述

稍等一会儿后会跳转到新的页面

在这里插入图片描述

选择模型，一般选择“HP2_all_vocals”即可，也可以阅读上方解释，选择适合自己的模型

模型介绍：

HP2_all vocals：人声伴奏分离模型，提取音频中所有人声部分和背景音部分。HP5_only_main_vocal：提取音频中的主唱人声，排除和声和伴唱，适合处理歌曲。model_bs_roformer_ep_317_sdr_12.9755：去掉混音中的干扰成分，增强信噪比。onnx_dereverb_By_FoxJoy：去混响模型，减少音频中由于环境回声或混响造成的声音模糊。VR-DeEchoAggressive：去回声模型，针对严重的回声进行处理，偏向“激进处理”。VR-DeEchoDeReverb：结合去回声和去混响的双重功能，处理音频中的回声和混响问题。VR-DeEchoNormal：去回声模型，适用于一般程度的回声处理，偏向“温和处理”。

在这里插入图片描述

接着输入存放待分离音频路径，前面已经提到将其放到

F:\file\GptSovitsFile\sucai\芭芭拉

在这里插入图片描述

指定输出主人声文件夹和指定输出非主人声文件夹保持默认即可

在这里插入图片描述

分类之后会保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt”

在这里插入图片描述

再选择导出文件格式，这里选择 wav

在这里插入图片描述

最后点击转换

在这里插入图片描述

看到成功的信息表示转换完成

在这里插入图片描述

再查看输出目录 uvr5_opt

在这里插入图片描述

两条音频都试听一下，找出人声音频，因为要克隆声音，伴奏音频没用，这里将其删除了

在这里插入图片描述

这时就可以回到主界面，关闭“UVR5-WebUI”

在这里插入图片描述

3、音频分割

这里主要针对长音频，如果音频本来就不长，就不需要分割了

回到这界面，已知上面分离的音频保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt”路径

这里路径为：

E:\software\gpt-sovits\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt

将文件夹路径放到切分输入路径

在这里插入图片描述

点击开启语言切割

在这里插入图片描述

看到输出信息显示“切割结束”表示切割完成

在这里插入图片描述

4、语音降噪

主要是处理有杂音的音频，如果音频干净可不降噪，直接点击“开启语言降噪即可”

在这里插入图片描述

看到降噪输出信息提示降噪完成即可

在这里插入图片描述

完成后可在“output”下生成“denoise_opt”文件夹

在这里插入图片描述

里面就是降噪的音频

在这里插入图片描述

原来的音频就干净，降噪后对比原音频只是小声了点

5、ASR工具

这一步主要是生成带时间戳的文本，如果需要的是中文，默认即可。

点击“开启离线批量ASR”

在这里插入图片描述

看到输出提示完成即可

在这里插入图片描述

生成文件在“asr_opt”文件夹

在这里插入图片描述

文件内容如下

在这里插入图片描述

6、语音文本校对标注工具

这一步主要是校对文本 ASR 工具生成的文本是否正确，对错误的文本进行修改。

保持默认，点击“开启打标WebUI”即可

在这里插入图片描述

会跳转到一个新的页面

在这里插入图片描述

因为音频比较短，这里只有一段文本如果音频较长，这里是有多段文本的

检查文本框中的文本是否正确，不正确则进行修改，为了防止出错，建议修改一段点一下“Submit Text”

在这里插入图片描述

这里原文本为：

你喜欢麻辣小鱼干吗？我这还有两条，那给你一条。

将其改为：

你喜欢麻辣小鱼干吗？我这还有两条，呐~给你一条。

确认无误之后回到主界面，点击“关闭打标WebUI”

在这里插入图片描述

7、训练模型

承接上面，将主界面拉到最顶部，选择“1-GPT-SoVITS-TTS”

在这里插入图片描述

为你的模型取一个名字，这里取名“bbl”

在这里插入图片描述

其他不用修改，拉到最下面，点击“开启一键三连”

在这里插入图片描述

看到结束的提示即可

在这里插入图片描述

这一步是把你的声音样本转换成项目训练模型支持的特定格式，会在日志文件夹“logs”下生成以前面模型命名的文件夹（bbl）

在这里插入图片描述

里面文件如下

在这里插入图片描述

8、微调训练

承接上面的主界面，网上拉到命名模型那一部分，点击“1B-微调训练”

在这里插入图片描述

参数默认即可，先“开启SoVITS”

在这里插入图片描述

等待训练完成

在这里插入图片描述

因为本次使用的是“v2”版本的“GPT-SoVITS”，生成的模型保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\SoVITS_weights_v2”

在这里插入图片描述

模型如下

在这里插入图片描述

为什么是两个模型？（总训练轮数）/（保存频率）

接着点击“开启GPT训练”

在这里插入图片描述

等待训练完成

在这里插入图片描述

因为本次使用的是“v2”版本的“GPT-SoVITS”，生成的模型保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\GPT_weights_v2”

在这里插入图片描述

模型如下

在这里插入图片描述

同样，三个模型是因为（总训练轮数）/（保存频率）

9、推理

承接上面的主页面，将其往上拉到命名模型下方，点击“1C-推理”

在这里插入图片描述

选择GPT、SoVITS模型，如果没有看到就点击一下“刷新模型路径”

在这里插入图片描述

选择参数最大的模型，效果最好

在这里插入图片描述

勾选“启用并推理版本”，再点击“开启TTS推理WebUI”

在这里插入图片描述

会跳转到一个新页面

在这里插入图片描述

这是模型区，如果在主界面忘记选，可以在这里选，一般选择参数最大的，效果最好

在这里插入图片描述

这是推理区，可以将前面处理好的音频拖入，比如前面降噪后的音频

在这里插入图片描述

再加上音频台词，就是对应音频的台词

你喜欢麻辣小鱼干吗？我这还有两条，呐~给你一条。

最后在右边添加需要生成音频的文本，这里是：

从来生死都看淡

在这里插入图片描述

推理设置保持默认即可，点击“合成语音”就会生成对应音频

在这里插入图片描述

最后是文本切分区，如果文本很长，可以先放到左边，点击切分，切分方式保持默认，再将右边切分好的文本放到文本生成音频区域

在这里插入图片描述

使用 GPT-SoVITS 克隆声音，很详细

使用 GPT-SoVITS 克隆声音，很详细一、前言二、下载三、启动四、克隆声音1、准备克隆音频2、分离人声伴奏3、音频分割4、语音降噪5、ASR工具6、语音文本校对标注工具7、训练模型8、微调训练9、推理一、前言最近对文本转语言很感兴趣，但对直接在网站上…...

编程日记 2025/2/16 10:54:27

Flask和Django相比哪个更适合新手？

Flask 与 Django：哪个更适合新手？对于新手来说，选择 Flask 还是 Django 主要取决于你的具体需求和项目复杂度。以下是两者的详细对比，帮助你做出选择： 1. Flask 优点简单易用：Flask 是一个轻量级的微框架，代码简洁，易于理解和上手。适合初学者快速入门。灵活性高：…...

编程日记 2025/2/16 10:50:23

2. 图片性能优化

图片性能优化图片懒加载如何判断图片出现在了当前视口 （即如何判断我们能够看到图片）如何控制图片的加载原生实现 <img src"shanyue.jpg" loading"lazy" />loading"lazy" 延迟加载图像，直到它和视…...

编程日记 2025/2/16 10:47:19

多模态本地部署和ollama部署Llama-Vision实现视觉问答

文章目录一、模型介绍二、预期用途1. 视觉问答(VQA)与视觉推理2. 文档视觉问答(DocVQA)3. 图像字幕4. 图像-文本检索5. 视觉接地三、本地部署1. 下载模型2. 模型大小3. 运行代码四、ollama部署1. 安装ollama2. 安装 Llama 3.2 Vision 模型3. 运行 Llama 3.2-Vision 五、效果…...

编程日记 2025/2/16 10:42:08

cuML机器学习GPU库

cuML安装官网：Installation Guide - RAPIDS Docs 转载：Linux下cuML库的安装与Jupyter集成调试教程-CSDN博客...

编程日记 2025/2/16 10:40:05

机器学习数学基础：24.随机事件与概率

一、教程目标本教程致力于帮助零基础或基础薄弱的学习者，全面掌握概率论与数理统计的基础公式，透彻理解核心概念，熟练学会应用解题技巧，最终能够轻松应对期末或考研考试。二、适用人群特别适合那些对概率论与数理统计知识了…...

编程日记 2025/2/16 10:32:53

CAS单点登录（第7版）27.开发人员

如有疑问，请看视频：CAS单点登录（第7版） 开发人员 Javadocs文档 group org.apereo.cas has published 42 artifact(s) with total 8210 version(s) org.apereo.cas org apereo.cas 小组已出版 42 件作品，共 8210 个版…...

编程日记 2025/2/16 10:31:52

DeepSeek+即梦做AI视频

DeepSeek做AI视频制作流程第一步：DeepSeek 生成视频脚本和分镜第二步：生成分镜图片绘画提示词第三步：生成分镜图片第四步：使用可灵 AI 工具，将生成的图片转成视频。第五步：剪映成短视频 DeepSeek 真的强&…...

编程日记 2025/2/16 10:30:48

OpenMetadata 获取 MySQL 数据库表血缘关系详解

概述 OpenMetadata 是一个开源的元数据管理平台，支持端到端的血缘关系追踪。对于 MySQL 数据库，OpenMetadata 通过解析表的外键约束、视图定义及查询日志（可选）构建表级血缘。本文结合源码分析其实现机制。环境配置与数据摄取 1. 配置文件示例（YAML） source:type: my…...

编程日记 2025/2/16 10:27:40

计算机组成原理—— 总线系统（十二）

不要害怕失败，因为每一次跌倒都是站起来的前奏；不要畏惧未知，因为在探索的过程中你会发现未曾预见的美好。你的每一步努力都在为未来的成功铺路，即使现在看不到成果，但请相信积累的力量。那些看似平凡的努力&#xff0…...

编程日记 2025/2/16 10:25:36

详解如何使用Pytest内置Fixture tmp_path 管理临时文件

关注开源优测不迷路大数据测试过程、策略及挑战测试框架原理，构建成功的基石在自动化测试工作之前，你应该知道的10条建议在自动化测试中，重要的不是工具临时目录在测试中起着至关重要的作用，它为执行和验证代码提供了一个可控…...

编程日记 2025/2/16 10:24:34

Banana Pi OpenWRT One 官方路由器的第一印象

OpenWRT One是OpenWRT开源社区推出的首款官方开发板，与Banana Pi社区共同设计，由Banana Pi制造和发行。路由器采用蓝色铝合金外壳，质感极佳，视觉效果远超宣传图。整体设计简洁，呈长方形，虽然不是特别时尚&a…...

编程日记 2025/2/16 10:20:24

Golang GORM系列：GORM事务及错误处理

在数据库管理领域，确保数据完整性至关重要。GORM是健壮的Go对象关系映射库，它为开发人员提供了维护数据一致性和优雅地处理错误的基本工具。本文是掌握GORM事务和错误处理的全面指南。我们将深入研究如何使用事务来保证原子性，并探索有效处理…...

编程日记 2025/2/16 10:19:21

NLLB 与 ChatGPT 双向优化：探索翻译模型与语言模型在小语种应用的融合策略

作者：来自 vivo 互联网算法团队- Huang Minghui 本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。首先介绍了 NLLB-200 的背景、数据、分词器和模型，以及其与 LLM（Large Language Model）的异同和协同关系。接着…...

编程日记 2025/2/16 10:16:16

ASP.NET Core SixLabors.ImageSharp v1.0 的图像实用程序类 web示例

这个小型实用程序库需要将 NuGet SixLabors.ImageSharp包（版本 1.0.4）添加到.NET Core 3.1/ .NET 6 / .NET 8项目中。它与Windows、Linux和 MacOS兼容。这已针对 ImageSharp v3.0.1 进行了重新设计。它可以根据百万像素数或长度乘以宽度来调整图像大…...

编程日记 2025/2/16 10:13:12

author: hjjdebug date: 2025年 02月 14日星期五 17:16:12 CST description: ffmpeg configure 研究1 ./configure 命令行参数的分析文章目录 1 configure 对命令行参数的分析,在4019行1.1 函数名称: is_in1.2. 函数名称: enable1.3. 函数名称: set_all 2 执行退出判断的关键…...

编程日记 2025/2/16 10:12:10

数据结构与算法之排序算法-归并排序

排序算法是数据结构与算法中最基本的算法之一，其作用就是将一些可以比较大小的数据进行有规律的排序，而想要实现这种排序就拥有很多种方法~ 那么我将通过几篇文章，将排序算法中各种算法细化的，详尽的为大家呈现出来： …...

编程日记 2025/2/16 10:11:08

高血压危险因素分析（项目分享）

高血压危险因素分析（项目分享） 高血压作为一种极为常见的慢性疾病，正严重威胁着大众健康。它的发病机制较为复杂，涉及多个方面的因素。在一份临床采集的数据的基础上，我们通过数据分析手段深入观察一下 BMI&#xf…...

编程日记 2025/2/16 10:10:04

java集合框架之Map系列

前言首先从最常用的HashMap开始。HashMap是基于哈希表实现的，使用数组和链表（或红黑树）的结构。在Java 8之后，当链表长度超过阈值时会转换为红黑树，以提高查询效率。哈希冲突通过链地址法解决。需要明确的是&#xff…...

编程日记 2025/2/16 10:08:02

android设置添加设备QR码信息

摘要：客户衍生需求，通过扫QR码快速获取设备基础信息，并且基于POS SDK进行打印。 1. 定位至device info的xml添加相关perference Index: vendor/mediatek/proprietary/packages/apps/MtkSettings/res/xml/my_device_info.xml--- vendor/medi…...

编程日记 2025/2/16 10:03:50

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/7 23:18:34

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/12/9 21:15:58

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

在对接支付宝API的时候，遇到了一些问题，记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

编程新知 2026/2/4 16:30:39

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2026/2/2 0:45:02

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2026/1/25 3:21:09

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2026/2/7 0:28:16

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/8/11 1:05:59

企业如何增强终端安全？

在数字化转型加速的今天，企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机，到工厂里的物联网设备、智能传感器，这些终端构成了企业与外部世界连接的 “神经末梢”。然而，随着远程办公的常态化和设备接入的爆炸式…...

编程新知 2026/1/29 9:14:58

laravel8+vue3.0+element-plus搭建方法

创建 laravel8 项目 composer create-project --prefer-dist laravel/laravel laravel8 8.* 安装 laravel/ui composer require laravel/ui 修改 package.json 文件 "devDependencies": {"vue/compiler-sfc": "^3.0.7","axios": …...

编程新知 2025/10/15 0:25:46

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2026/2/2 9:25:26

使用 GPT-SoVITS 克隆声音，很详细

一、前言

二、下载

三、启动

四、克隆声音

1、准备克隆音频

2、分离人声伴奏

3、音频分割

4、语音降噪

5、ASR工具

6、语音文本校对标注工具

7、训练模型

8、微调训练

9、推理

相关文章：