使用 GPT-SoVITS 克隆声音,很详细
使用 GPT-SoVITS 克隆声音,很详细
- 一、前言
- 二、下载
- 三、启动
- 四、克隆声音
- 1、准备克隆音频
- 2、分离人声伴奏
- 3、音频分割
- 4、语音降噪
- 5、ASR工具
- 6、语音文本校对标注工具
- 7、训练模型
- 8、微调训练
- 9、推理
一、前言
最近对文本转语言很感兴趣,但对直接在网站上生成的音频音色却不是很满意,经过一番寻找,发现了“GPT-SoVITS” ,对想要的声音进行克隆。
二、下载
可以到这里下载

下载后解压即可
这里将其解压到如下目录:
E:\software\gpt-sovits

三、启动
进入“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821”
双击“go-webui.bat”即可

会出现一个黑窗口

启动成功会打开浏览器跳转到这个页面

四、克隆声音
1、准备克隆音频
先准备好想要提起的声音,这里以克隆芭芭拉的声音为例

可以到这里下载原音频
下载后将其放到某个文件夹中,这里放到
F:\file\GptSovitsFile\sucai\芭芭拉
2、分离人声伴奏
回到“GPT-SoVITS”中,点击开启“UVR5-WebUI”

稍等一会儿后会跳转到新的页面

选择模型,一般选择“HP2_all_vocals”即可,也可以阅读上方解释,选择适合自己的模型
模型介绍:
HP2_all vocals:人声伴奏分离模型,提取音频中所有人声部分和背景音部分。HP5_only_main_vocal:提取音频中的主唱人声,排除和声和伴唱,适合处理歌曲。model_bs_roformer_ep_317_sdr_12.9755:去掉混音中的干扰成分,增强信噪比。onnx_dereverb_By_FoxJoy:去混响模型,减少音频中由于环境回声或混响造成的声音模糊。VR-DeEchoAggressive:去回声模型,针对严重的回声进行处理,偏向“激进处理”。VR-DeEchoDeReverb:结合去回声和去混响的双重功能,处理音频中的回声和混响问题。VR-DeEchoNormal:去回声模型,适用于一般程度的回声处理,偏向“温和处理”。

接着输入存放待分离音频路径,前面已经提到将其放到
F:\file\GptSovitsFile\sucai\芭芭拉

指定输出主人声文件夹和指定输出非主人声文件夹保持默认即可

分类之后会保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt”

再选择导出文件格式,这里选择 wav

最后点击转换

看到成功的信息表示转换完成

再查看输出目录 uvr5_opt

两条音频都试听一下,找出人声音频,因为要克隆声音,伴奏音频没用,这里将其删除了

这时就可以回到主界面,关闭“UVR5-WebUI”

3、音频分割
这里主要针对长音频,如果音频本来就不长,就不需要分割了
回到这界面,已知上面分离的音频保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt”路径
这里路径为:
E:\software\gpt-sovits\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\output\uvr5_opt
将文件夹路径放到切分输入路径

点击开启语言切割

看到输出信息显示“切割结束”表示切割完成

4、语音降噪
主要是处理有杂音的音频,如果音频干净可不降噪,直接点击“开启语言降噪即可”

看到降噪输出信息提示降噪完成即可

完成后可在“output”下生成“denoise_opt”文件夹

里面就是降噪的音频

原来的音频就干净,降噪后对比原音频只是小声了点
5、ASR工具
这一步主要是生成带时间戳的文本,如果需要的是中文,默认即可。
点击“开启离线批量ASR”

看到输出提示完成即可

生成文件在“asr_opt”文件夹


文件内容如下

6、语音文本校对标注工具
这一步主要是校对文本 ASR 工具生成的文本是否正确,对错误的文本进行修改。
保持默认,点击“开启打标WebUI”即可

会跳转到一个新的页面

因为音频比较短,这里只有一段文本如果音频较长,这里是有多段文本的
检查文本框中的文本是否正确,不正确则进行修改,为了防止出错,建议修改一段点一下“Submit Text”

这里原文本为:
你喜欢麻辣小鱼干吗?我这还有两条,那给你一条。
将其改为:
你喜欢麻辣小鱼干吗?我这还有两条,呐~给你一条。
确认无误之后回到主界面,点击“关闭打标WebUI”

7、训练模型
承接上面,将主界面拉到最顶部,选择“1-GPT-SoVITS-TTS”

为你的模型取一个名字,这里取名“bbl”

其他不用修改,拉到最下面,点击“开启一键三连”

看到结束的提示即可

这一步是把你的声音样本转换成项目训练模型支持的特定格式,会在日志文件夹“logs”下生成以前面模型命名的文件夹(bbl)

里面文件如下

8、微调训练
承接上面的主界面,网上拉到命名模型那一部分,点击“1B-微调训练”

参数默认即可,先“开启SoVITS”

等待训练完成

因为本次使用的是“v2”版本的“GPT-SoVITS”,生成的模型保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\SoVITS_weights_v2”

模型如下

为什么是两个模型?(总训练轮数)/(保存频率)
接着点击“开启GPT训练”

等待训练完成

因为本次使用的是“v2”版本的“GPT-SoVITS”,生成的模型保存在“安装目录\GPT-SoVITS-v2-240821\GPT-SoVITS-v2-240821\GPT_weights_v2”

模型如下

同样,三个模型是因为(总训练轮数)/(保存频率)
9、推理
承接上面的主页面,将其往上拉到命名模型下方,点击“1C-推理”

选择GPT、SoVITS模型,如果没有看到就点击一下“刷新模型路径”

选择参数最大的模型,效果最好


勾选“启用并推理版本”,再点击“开启TTS推理WebUI”

会跳转到一个新页面

这是模型区,如果在主界面忘记选,可以在这里选,一般选择参数最大的,效果最好

这是推理区,可以将前面处理好的音频拖入,比如前面降噪后的音频

再加上音频台词,就是对应音频的台词
你喜欢麻辣小鱼干吗?我这还有两条,呐~给你一条。
最后在右边添加需要生成音频的文本,这里是:
从来生死都看淡

推理设置保持默认即可,点击“合成语音”就会生成对应音频

最后是文本切分区,如果文本很长,可以先放到左边,点击切分,切分方式保持默认,再将右边切分好的文本放到文本生成音频区域

相关文章:
使用 GPT-SoVITS 克隆声音,很详细
使用 GPT-SoVITS 克隆声音,很详细 一、前言二、下载三、启动四、克隆声音1、准备克隆音频2、分离人声伴奏3、音频分割4、语音降噪5、ASR工具6、语音文本校对标注工具7、训练模型8、微调训练9、推理 一、前言 最近对文本转语言很感兴趣,但对直接在网站上…...
Flask和Django相比哪个更适合新手?
Flask 与 Django:哪个更适合新手? 对于新手来说,选择 Flask 还是 Django 主要取决于你的具体需求和项目复杂度。以下是两者的详细对比,帮助你做出选择: 1. Flask 优点 简单易用:Flask 是一个轻量级的微框架,代码简洁,易于理解和上手。适合初学者快速入门。灵活性高:…...
2. 图片性能优化
图片性能优化 图片懒加载 如何判断图片出现在了当前视口 (即如何判断我们能够看到图片)如何控制图片的加载 原生实现 <img src"shanyue.jpg" loading"lazy" />loading"lazy" 延迟加载图像,直到它和视…...
多模态本地部署和ollama部署Llama-Vision实现视觉问答
文章目录 一、模型介绍二、预期用途1. 视觉问答(VQA)与视觉推理2. 文档视觉问答(DocVQA)3. 图像字幕4. 图像-文本检索5. 视觉接地 三、本地部署1. 下载模型2. 模型大小3. 运行代码 四、ollama部署1. 安装ollama2. 安装 Llama 3.2 Vision 模型3. 运行 Llama 3.2-Vision 五、效果…...
cuML机器学习GPU库
cuML安装官网:Installation Guide - RAPIDS Docs 转载:Linux下cuML库的安装与Jupyter集成调试教程-CSDN博客...
机器学习数学基础:24.随机事件与概率
一、教程目标 本教程致力于帮助零基础或基础薄弱的学习者,全面掌握概率论与数理统计的基础公式,透彻理解核心概念,熟练学会应用解题技巧,最终能够轻松应对期末或考研考试。 二、适用人群 特别适合那些对概率论与数理统计知识了…...
CAS单点登录(第7版)27.开发人员
如有疑问,请看视频:CAS单点登录(第7版) 开发人员 Javadocs文档 group org.apereo.cas has published 42 artifact(s) with total 8210 version(s) org.apereo.cas org apereo.cas 小组已出版 42 件作品,共 8210 个版…...
DeepSeek+即梦 做AI视频
DeepSeek做AI视频 制作流程第一步:DeepSeek 生成视频脚本和分镜 第二步:生成分镜图片绘画提示词第三步:生成分镜图片第四步:使用可灵 AI 工具,将生成的图片转成视频。第五步:剪映成短视频 DeepSeek 真的强&…...
OpenMetadata 获取 MySQL 数据库表血缘关系详解
概述 OpenMetadata 是一个开源的元数据管理平台,支持端到端的血缘关系追踪。对于 MySQL 数据库,OpenMetadata 通过解析表的外键约束、视图定义及查询日志(可选)构建表级血缘。本文结合源码分析其实现机制。 环境配置与数据摄取 1. 配置文件示例(YAML) source:type: my…...
计算机组成原理—— 总线系统(十二)
不要害怕失败,因为每一次跌倒都是站起来的前奏;不要畏惧未知,因为在探索的过程中你会发现未曾预见的美好。你的每一步努力都在为未来的成功铺路,即使现在看不到成果,但请相信积累的力量。那些看似平凡的努力࿰…...
详解如何使用Pytest内置Fixture tmp_path 管理临时文件
关注开源优测不迷路 大数据测试过程、策略及挑战 测试框架原理,构建成功的基石 在自动化测试工作之前,你应该知道的10条建议 在自动化测试中,重要的不是工具 临时目录在测试中起着至关重要的作用,它为执行和验证代码提供了一个可控…...
Banana Pi OpenWRT One 官方路由器的第一印象
OpenWRT One是OpenWRT开源社区推出的首款官方开发板,与Banana Pi社区共同设计,由Banana Pi制造和发行。路由器采用蓝色铝合金外壳,质感极佳,视觉效果远超宣传图。整体设计简洁,呈长方形,虽然不是特别时尚&a…...
Golang GORM系列:GORM事务及错误处理
在数据库管理领域,确保数据完整性至关重要。GORM是健壮的Go对象关系映射库,它为开发人员提供了维护数据一致性和优雅地处理错误的基本工具。本文是掌握GORM事务和错误处理的全面指南。我们将深入研究如何使用事务来保证原子性,并探索有效处理…...
NLLB 与 ChatGPT 双向优化:探索翻译模型与语言模型在小语种应用的融合策略
作者:来自 vivo 互联网算法团队- Huang Minghui 本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。首先介绍了 NLLB-200 的背景、数据、分词器和模型,以及其与 LLM(Large Language Model)的异同和协同关系。接着…...
ASP.NET Core SixLabors.ImageSharp v1.0 的图像实用程序类 web示例
这个小型实用程序库需要将 NuGet SixLabors.ImageSharp包(版本 1.0.4)添加到.NET Core 3.1/ .NET 6 / .NET 8项目中。它与Windows、Linux和 MacOS兼容。 这已针对 ImageSharp v3.0.1 进行了重新设计。 它可以根据百万像素数或长度乘以宽度来调整图像大…...
ffmpeg configure 研究1-命令行参数的分析
author: hjjdebug date: 2025年 02月 14日 星期五 17:16:12 CST description: ffmpeg configure 研究1 ./configure 命令行参数的分析 文章目录 1 configure 对命令行参数的分析,在4019行1.1 函数名称: is_in1.2. 函数名称: enable1.3. 函数名称: set_all 2 执行退出判断的关键…...
数据结构与算法之排序算法-归并排序
排序算法是数据结构与算法中最基本的算法之一,其作用就是将一些可以比较大小的数据进行有规律的排序,而想要实现这种排序就拥有很多种方法~ 那么我将通过几篇文章,将排序算法中各种算法细化的,详尽的为大家呈现出来: …...
高血压危险因素分析(项目分享)
高血压危险因素分析(项目分享) 高血压作为一种极为常见的慢性疾病,正严重威胁着大众健康。它的发病机制较为复杂,涉及多个方面的因素。 在一份临床采集的数据的基础上,我们通过数据分析手段深入观察一下 BMI…...
java集合框架之Map系列
前言 首先从最常用的HashMap开始。HashMap是基于哈希表实现的,使用数组和链表(或红黑树)的结构。在Java 8之后,当链表长度超过阈值时会转换为红黑树,以提高查询效率。哈希冲突通过链地址法解决。需要明确的是ÿ…...
android设置添加设备QR码信息
摘要:客户衍生需求,通过扫QR码快速获取设备基础信息,并且基于POS SDK进行打印。 1. 定位至device info的xml添加相关perference Index: vendor/mediatek/proprietary/packages/apps/MtkSettings/res/xml/my_device_info.xml--- vendor/medi…...
从资源收藏到实战应用:构建个人提示工程知识体系的系统指南
1. 从资源列表到实战指南:我如何构建自己的提示工程知识体系 看到这个名为“Awesome GPT Prompt Engineering”的列表,我仿佛看到了两年前的自己。当时,面对ChatGPT的横空出世,我既兴奋又迷茫。兴奋的是,一个全新的、…...
EasyInstruct框架:模块化指令处理与高质量数据集构建实战
1. 项目概述:一个为大型语言模型设计的指令处理框架如果你正在研究或应用像GPT-4、LLaMA、ChatGLM这样的大型语言模型,并且经常需要处理指令生成、筛选和提示工程这些繁琐的任务,那么你很可能需要一个能帮你标准化这些流程的工具。EasyInstru…...
MAX2140 SDARS接收器架构与射频前端设计解析
1. MAX2140 SDARS接收器核心架构解析卫星数字音频广播服务(SDARS)接收器的设计需要同时应对卫星直射信号和地面中继信号的复杂接收环境。MAX2140作为高度集成的解决方案,其架构设计充分考虑了卫星广播的特殊性。接收链路从天线输入开始,信号首先经过外部…...
英特尔移动战略失败解析:技术路径依赖与生态博弈的教训
1. 从一则旧闻看科技巨头的战略转型之痛周一清晨的硅谷,空气里弥漫的不仅是咖啡因,还有无形的压力。2016年4月5日,对于时任英特尔无线业务负责人的艾莎埃文斯来说,这个周一格外艰难。一则来自彭博社的报道,将她离职的消…...
四十三、网络编程(下)——TCP 编程与 HTTP 入门
😫 痛点引入:UDP 发出去就不管了,万一丢包怎么办?文件上传必须每字节都不能少! TCP 协议应运而生——面向连接、可靠传输、三次握手确认!☎️ 下篇手写 TCP 客户端-服务端、文件上传、多线程并发服务器&…...
从码农到架构师:Boss-Skill项目揭示全栈开发者进阶之路
1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫boss-skill。乍一看这个标题,你可能会联想到职场生存指南或者游戏里的BOSS技能。但实际上,这是一个面向开发者的、旨在提升“老板级”开发效率与工程能力的工具集或知识库。作为…...
ESP32-S3开发板硬件解析与LoRaWAN实战指南
1. 硬件解析:Heltec WiFi LoRa 32 (V4)开发板深度拆解1.1 核心硬件架构设计这款基于ESP32-S3的开发板在硬件设计上做了多项针对性优化。主控采用双核240MHz的ESP32-S3,搭配512KB SRAM和2MB PSRAM的内存组合,在低功耗场景下能保持足够的处理能…...
Secure-Flow:统一安全护栏框架,实现DevSecOps自动化治理
1. 项目概述与核心价值最近在梳理团队内部的安全开发流程,发现一个挺普遍的问题:很多开发同学对安全的理解还停留在“用个依赖扫描工具”或者“上个WAF”的层面,整个软件交付流程(SDLC)里的安全活动是割裂的。比如&…...
警惕!AI智能体成企业新“成本黑洞”:隐性成本防坑指南
很多老板谈起“上智能体”,第一反应是:现在大模型调用很便宜,平台也说“低代码、几天上线”,怎么可能是成本黑洞?问题就在这里——显性费用确实越来越低,但隐性消耗,正在悄悄吞掉预算、拖慢团队…...
如何用Adafruit NeoPixel库点亮你的创意世界:从零开始掌握智能LED控制
如何用Adafruit NeoPixel库点亮你的创意世界:从零开始掌握智能LED控制 【免费下载链接】Adafruit_NeoPixel Arduino library for controlling single-wire LED pixels (NeoPixel, WS2812, etc.) 项目地址: https://gitcode.com/gh_mirrors/ad/Adafruit_NeoPixel …...
