使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)
使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)

序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初我就想进行AI语音训练,但苦于语音素材难以获取,这次有了iOS收集素材就方便多了。在公司闲暇时,我摆弄着自己的iPhone 12,偶然发现了“个人声音”这一新功能,它允许用户在手机上训练一个基础的AI模型。我意识到可以将自己录制的150条语音导出,并通过查阅资料了解到可以利用SoVITS进行语音模型训练。因此,我撰写这篇教程,旨在记录并指导大家如何使用iOS手机收集语音素材,并利用SoVITS训练出属于自己的AI语音。
一、介绍
iOS 17引入的“个人声音”功能:允许用户通过录制一系列短语生成自定义语音,适用于语音助手、朗读文本等场景,特别适合有语言障碍的用户。该功能需在iOS 17及以上版本使用,注重隐私保护,所有数据处理均在设备本地完成。
GPT-SoVITS:由花儿不哭开发,是一款低成本AI音色克隆软件,目前支持TTS(文字转语音)功能,未来将支持变声功能。请注意,GPT-SoVITS的正确缩写是GSV,不要与So-VITS-SVC混淆。
PyCharm:JetBrains开发的Python IDE,提供代码编辑、调试等功能,支持跨平台使用,有免费社区版和付费专业版
二、训练准备
2.1 语音素材准备/导出
- 打开设置 -> 辅助功能 -> 个人声音。
- 如果没有个人声音,选择新建并按照系统指引录制素材。
- 录制完成后,点击导出录音,将压缩包复制到电脑。

2.2 下载GPT-SoVITS
点击此处,选择合适的方式进行下载。
三、开始训练
3.1 离线批量ASR
- 将导出的语音包解压到电脑(如
Z:\sovit-data-mother\TrainingData)。 - 运行
GPT-SoVITS-v2-240821中的go-webui.bat启动SoVITS。 - 在Web页面中找到“离线批量ASR”模块,输入语音包路径(如
Z:\sovit-data-mother\TrainingData)和输出路径(如Z:\sovit-data-mother\TrainingData\out\asr_opt)。 - 点击“开始离线批量ASR”,等待任务完成。

当出现"ASR任务完成,查看终端进行下一步"时,ASR步骤结束。

3.2 打标WebUI模块
我们视野转到打标WebUI模块

有两种方式处理打标(文字修正/打标)
3.2.1 通过开启打标WebUI对照metadata_data.json手动调整(不推荐)
点击开启打标WebUI,以记事本方式打开metadata_data.json。

注意!打开以后,每一行展开后的格式都为下边所示,找到每一行的关键词words和utterance_name
{"transcription":"S ... ~","sentence_idx":0,"locale":"cmn-CN","sentence_estimated_duration":2.75,phone_sequence:"S ...5","words":"时间不早了,今天先到这里吧。","utterance_name":"EExpG_4","script_title":"exclamations","paragraph_idx":4}
视野转到打标webUI,左边的text文本框中的文本内容有部分错误,按照metadata_data.json进行调整。

3.2.2 通过Pycharm执行python脚本批量处理打标。(推荐)
视野转到主页面中的打标webUI模块,注意下边的.list标注文件的路径

找到并打开TrainingData.list文件,以记事本方式打开,如下如图

以记事本形式打开metadata_data.json,在文件头键入’ [ ‘,文件尾键入’ ] ',使得***[]***将文件内容包裹住,如下图所示


然后点击替换,查找内容:’ } ‘,替换为’ }, ‘,点击全部替换。

打开Pycharm,新建py脚本文件,将下列代码复制粘贴,并执行:
import json
if __name__ == "__main__":# 读取 JSON 文件,下边的路径填你自己的路径with open('Z:\sovit-data-mother\TrainingData\metadata_data.json', 'r', encoding='utf-8') as file:data = json.load(file)# 遍历并提取 utterance_name 和 wordsfor item in data:utterance_name = item.get('utterance_name')words = item.get('words')#下边的输出内容参考你自己的路径if utterance_name and words:print('Z:\sovit-data-mother\TrainingData\{}.caf|TrainingData|ZH|{}'.format(utterance_name,words))
观察pycharm控制台输出如下:

将内容复制到TrainingData.list,文件中进行覆盖保存。
4.1 进行1A-训练集格式化
视野回到首页,点击1-GPT-SoVITS-TTS,并输入你想要训练的模型名称。

注意,文本标注文件以及训练集音频文件目录应该自动填充为你自己的相应链接,请查看对比。

直接点击一键三联!

观察到一键三连结束,即格式化结束。

4.2 进行1B-微调训练
点击切换到1B-微调训练。

按顺序点击SoVITS训练以及GPT训练,注意:一个训练完才能点下一个,除非你有多块显卡。

两个训练结束后,代表着你的模型训练完毕。

4.3 进行1C-推理(AI文字转语音)
接下来就是开始利用模型进行文字转语音操作,点击1C-推理,然后刷新模型,GPT模型列表和SoVITS模型列表选择你刚刚训练的模型。
勾选启用并行推理版本,点击开启TTS推理WebuUI。

打开后的TTS推理WebUI,如下图所示:

主参考音频主要控制语气,最好使用你自己素材包里的原语音素材,主参考音频的文本也是为了方便合成。

注意:主餐靠音频文本可填可不填,偏长的文字建议切分后再使用。

在右侧输出需要合成的文本后,点击下边的合成语音,即可试听。
本文不提供训练参数说明,请移步整合包教程,进行学习。😋
相关文章:
使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手)
使用iOS个人声音与SoVITS训练个人AI语音(10分钟快速上手) 序言:最近在抖音上频繁看到曼波唱歌的视频和各种AI语音的搞笑短片,加上年后新购置的M2硬盘终于提供了足够的存储空间,让我有机会深入研究AI语音训练。24年年初…...
【JavaEE进阶】Spring MVC(3)
欢迎关注个人主页:逸狼 创造不易,可以点点赞吗 如有错误,欢迎指出~ 返回响应 返回静态页面 //RestController Controller RequestMapping("/response") public class ResponseController {RequestMapping("/returnHtmlPage&…...
火语言RPA--Excel读取内容
【组件功能】:读取Excel内指定位置的内容或读取整篇Sheet页内容 配置预览 配置说明 读取位置 单元格:读取指定单元格中的内容。 行:读取指定行内容。 列:读取指定列内容。 区域:读取指定区域内容。 整篇sheet页&…...
sass报错:[sass] Undefined variable. @import升级@use语法注意事项
今天创建vue3项目,迁移老项目代码,使用sass的时候发现import语法已经废弃,官方推荐使用use替换。 这里我踩了一个坑找半天的问题,原因是sass升级到1.85之后 定义变量前加上 - 就是表示变量私有,即使使用use导出 在新的…...
DeepSeek VS ChatGPT-速度、准确性和成本
撰写本文时马斯克刚刚发布了聊天机器人Grok2,10万张算卡体现了马斯克的财大气粗。近年来,人工智能模型取得了长足的发展,每个模型都力求在速度、准确性和成本效率方面超越其他模型。在本文中,我将深入研究比较中美在AI的焦点模型上…...
重新出发的LLM本地部署——DeepSeek加持下的Ollama+OpenWebUI快速部署
DeepSeek 这真的是太惊艳了,发布出来的模型这么能打,在线的版本使用起来也是丝滑连招,感觉效果比起之前一直用智谱 chatglm4 更好用,想着本地化部署一下。 本来以为,会和之前在开发测试 transformers 的模型和代码一样…...
动态网格图片展示中的自适应逻辑
在现代网页设计中,自适应逻辑不仅提升了用户体验,也显著提高了组件的灵活性。本文将探讨如何通过 动态计算每页图片数 和 窗口尺寸变化监听 来实现网格图片的自适应展示。以下内容不仅包含逻辑的核心,还展示了如何优雅地将这些逻辑与 Vue 框架…...
Java基础——代理模式
代理模式是一种比较好理解的设计模式。简单来说就是 我们使用代理对象来代替对真实对象(real object)的访问,这样就可以在不修改原目标对象的前提下,提供额外的功能操作,扩展目标对象的功能。 一、代理模式的主要作用 控制访问:通…...
Django项目之订单管理part1
一.前言 我们前面把django的常用知识点给讲完了,现在我们开始项目部分,项目是一个订单管理系统,我们同时也会在项目之中也会讲一些前面没有用到的知识点。 项目大概流程如下: 核心的功能模块: 认证模块,用…...
Electron通过ffi-napi调用dll导出接口
electron使用ffi-napi环境搭建 附打包好的ffi-napi可以直接放到项目目录下使用,避免以后麻烦 一、安装node.js Node.js官网:https://nodejs.org/zh-cn/download,选择LTS长期稳定版本即可 ,但不会是nil。 string is the set of all strings of 8-bit bytes, conventionally but not nec…...
前端笔试面试资源汇总
好的,我现在需要帮助用户找到热门实用的前端笔试面试贴。首先,回顾之前的对话,用户已经询问了常见的前端算法题目,现在他们想要更广泛的资源,可能包括面试题、面经、学习资料等。用户可能正在准备前端面试,…...
win11安装wsl报错:无法解析服务器的名称或地址(启用wsl2)
1. 启用wsl报错如下 # 查看可安装的 wsl --install wsl --list --online此原因是因为没有开启DNS的原因,所以需要我们手动开启DNS。 2. 按照如下配置即可 Google的DNS(8.8.8.8和8.8.4.4) 全国通用DNS地址 (114.114.114.114) 3. 运行以下命令来重启 WSL…...
【Day44 LeetCode】图论问题 Ⅱ
一、图论问题 Ⅱ 1、岛屿的最大面积 这题和上一篇博客求岛屿数量如出一辙,都是要找出所有岛屿,深度优先搜索代码如下: # include<iostream> # include<vector>using namespace std;int dfs(vector<vector<int>> …...
技术总结 | MySQL面试知识点
存储引擎 Mysql 中的存储引擎 查询存储引擎的命令 show engines; Archive 只支持 insert 与select操作, 不支持索引 不支持事务 适用于存储需要长期保存,但是很少访问的数据,例如 历史日志 BlackHole 不存储数据,但是会记录写入操作 适用于性能测试 语言验证等情况 MyISAM…...
frameworks 之 Activity添加View
frameworks 之 Activity添加View 1 LaunchActivityItem1.1 Activity 创建1.2 PhoneWindow 创建1.3 DecorView 创建 2 ResumeActivityItem 讲解 Activity加载View的时机和流程 涉及到的类如下 frameworks/base/core/java/android/app/Activity.javaframeworks/base/services/cor…...
Linux下Ollama下载安装速度过慢的解决方法
问题描述:在Linux下使用默认安装指令安装Ollama,下载安装速度过慢,进度条进度缓慢,一直处于Downloading Linux amd64 bundle中,具体如下图所示: 其中,默认的Ollama Linux端安装指令如下…...
【小白学HTML5】一文讲清常用单位(px、em、rem、%、vw、vh)
html5中,常用的单位有px、em、rem、%、vw、vh(不常用)、cm、m等,这里主要讲解px、em、rem、%、vw。 学习了解:主流浏览器默认的字号:font-size:16px,无论用什么单位,浏览器最终计算…...
用自定义注解实现Excel数据导入中的枚举值校验
使用自定义注解实现Excel数据导入中的枚举值校验 在实际开发中,我们经常需要从Excel文件中导入数据,并且这些数据需要符合一定的规则,比如某些字段的值必须是预定义的枚举值。本文将介绍如何使用自定义注解来实现这一功能,以提高…...
关于redis的主从复制(下)
目录 全量复制 关于replid和runid 部分复制 补充问题 实时复制 psync可以从主节点获取全量数据,也可以获取一部分数据。主要就是看offset的进度,如果offset写作-1,就是获取全量数据。offset写具体的正整数,则是从当前偏移量位…...
uniapp uni.request重复请求处理
类似这种切换tab时,如果操作很快并且网络不太好,就出现数据错乱,在网上查了一圈,有一个使用uview拦截处理的,但是原生uni.requse没有找到详细的解决办法,就查到使用 abort 方法,我自己封装了一个…...
【大模型】DeepSeek:AI浪潮中的破局者
【大模型】DeepSeek:AI浪潮中的破局者 引言:AI 新时代的弄潮儿DeepSeek:横空出世展锋芒(一)诞生背景与发展历程(二)全球影响力初显 探秘 DeepSeek 的技术内核(一)独特的模…...
SOME/IP--协议英文原文讲解8
前言 SOME/IP协议越来越多的用于汽车电子行业中,关于协议详细完全的中文资料却没有,所以我将结合工作经验并对照英文原版协议做一系列的文章。基本分三大块: 1. SOME/IP协议讲解 2. SOME/IP-SD协议讲解 3. python/C举例调试讲解 4.2 Speci…...
用PyInstaller构建动态脚本执行器:嵌入式Python解释器与模块打包 - 简明教程
技术场景: 需分发的Python工具要求终端用户可动态修改执行逻辑将Python环境与指定库(如NumPy/Pandas)嵌入可执行文件实现"一次打包,动态扩展"的轻量化解决方案。 ▌ 架构设计原理 1. 双模运行时识别 # 核心判断逻辑…...
在做题中学习(89):螺旋矩阵
解法:模拟 思路:创建ret数组,用变量标记原矩阵的行数和列数,遍历一个元素就push_back进ret数组,每次遍历完一行或一列,相应行/列数--,进行顺时针螺旋遍历到为0即可。 细节:要有边界…...
从零搭建微服务项目Base(第5章——SpringBoot项目LogBack日志配置+Feign使用)
前言: 本章主要在原有项目上添加了日志配置,对SpringBoot默认的logback的配置进行了自定义修改,并详细阐述了xml文件配置要点(只对日志配置感兴趣的小伙伴可选择直接跳到第三节),并使用Feign代替原有RestT…...
