当前位置: 首页 > news >正文

数字人的未来:数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

🚀数字人的未来:数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

https://github.com/Kedreamix/Linly-Talker

2023.12 更新 📆

用户可以上传任意图片进行对话

2024.01 更新 📆

  • 令人兴奋的消息!我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片,为我们的互动增添了全新的层面。
  • 更新了FastAPI的部署调用方法。
  • 更新了微软TTS的高级设置选项,增加声音种类的多样性,以及加入视频字幕加强可视化。
    • 更新了GPT多轮对话系统,使得对话有上下文联系,提高数字人的交互性和真实感。

2024.02 更新 📆

  • 更新了Gradio的版本为最新版本4.16.0,使得界面拥有更多的功能,比如可以摄像头拍摄图片构建数字人等。
  • 更新了ASR和THG,其中ASR加入了阿里的FunASR,具体更快的速度;THG部分加入了Wav2Lip模型,ER-NeRF在准备中(Comming Soon)。
  • 加入了语音克隆方法GPT-SoVITS模型,能够通过微调一分钟对应人的语料进行克隆,效果还是相当不错的,值得推荐。
  • 集成一个WebUI界面,能够更好的运行Linly-Talker。

在最近一段时间,我在尝试探索,如何克隆声音,因为在数字人对话系统中,虽然可能能够重建特定的人,但是还是存在一个问题:声音是用固定的人声生成的,导致没有真实性,如果我们能够去克隆出对应的声音,并且结合特定的数字人,那是否就完成了一个数字人的完整复刻。

于是我就研究了一段时间,后面发现了两个非常有意思的项目,分别是GPT-SoVITSXTTS两个开源项目,我认为这两个算是现在最好的两个开源项目了,像OpenVoice之类的效果还是比较差,火山效果不错,但是没有开源。

除此之外,我后续集成到了Linly-Talker之中,做了一个WebUI,能够通过我3~10s的语音大概克隆我的声音,同时也可以使用一分钟克隆训练的语音来操作,如果使用多一点的预料能够得到更好的效果,希望和大家一起努力,成功复刻出一个完整的数字人

具体也可以关注我B站的演示的视频🚀数字人的未来:Linly-Talker+GPT-SoVIT语音克隆技术的赋能之道和Linly-Talker WebUI🚀: 在对话时悄悄偷走你的声音🎤

GPT-SoVITS(推荐)

感谢大家的开源贡献,我借鉴了当前开源的语音克隆模型 GPT-SoVITS,我认为效果是相当不错的,项目地址可参考https://github.com/RVC-Boss/GPT-SoVITS

他有以下功能:

  1. 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。
  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。
  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语和中文。
  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

之前很多方法都是少样本,比如OpenVoiceXTTS,我之前也想着使用他们来进行实现语音克隆部分,但是很遗憾的是,并没有感觉有很好的效果,其实XTTS还是不错的,如果我们简单用麦克风🎤说几句话作为参考来进行克隆,我觉得效果还是可以的。

但是如果遇到比较高的要求,我觉得可能就需要更好的模型,并且成本也要打压下来,所以我就看到了这个GPT-SoVITS,我觉得这个模型是相当厉害的,少样本的TTS能做,也能做跨语言支持,这样我们很有可能就可以体验到奥巴马讲中文之类的,这样就可以完成视频翻译的一些任务了,所以我是很推崇这样的简单微调,效果又好的方法的。

为了尊重作者,在Linly-Talker并没有把GPT-SoVITS的全套代码搬过来,我写了一个关于语音克隆的类,大家可以将训练好的模型参数中,就可以在本项目使用经过语音克隆后的TTS了,希望大家玩的开心,玩的愉快。

如果使用语音克隆模型,可能需要python为3.10,pytorch为2.1左右可能比较好,我的环境已经测试过了,简单来说,先安装GPT-SoVITS的环境,再直接pip intsall -r requirements_app.txt即可使用

除此之外,还需要根据原作者的说明放入对应路径,我的预训练模型和存放位置已给出,可参考https://huggingface.co/Kedreamix/Linly-Talker

pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118
# 安装对应的依赖
pip install -r VITS/requirements_gptsovits.txt# 启动如下的WebUI界面
python VITS/app.py 

在这里插入图片描述

Coqui XTTS

Coqui XTTS是一个领先的深度学习文本到语音任务(TTS语音生成模型)工具包,通过使用一段5秒钟以上的语音频剪辑就可以完成声音克隆将语音克隆到不同的语言。支持多种语言文本到语音转换,使其成为国际化应用的理想选择,这一特点特别适用于全球化的市场,其中需要生成多种语言的语音内容。所以在实验过程中,我也加入了这一部分,不过暂时使用的是默认的模型,并没有进行微调,个人认为是没有GPT-SoVITS经过微调后好的,但是其中的少样本五秒钟克隆语音还是值得称赞的。大家也可以在官方的在线体验,但是官方的可能会有生成语音限制,文字不能太长,但是还是足够我们体验了。

🐸TTS 是一个用于高级文本转语音生成的库。

🚀 超过 1100 种语言的预训练模型。

🛠️ 用于以任何语言训练新模型和微调现有模型的工具。

📚 用于数据集分析和管理的实用程序。

  • 在线体验XTTS https://huggingface.co/spaces/coqui/xtts
  • 官方Github库 https://github.com/coqui-ai/TTS

XTTS的环境也需要PyTorch 2.1所以,如果下载了GPT-SoVITS,也不妨体验一下XTTS的效果。

pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118# 安装对应的依赖
pip install -r VITS/requirements_xtts.txt# 启动如下的WebUI界面
python VITS/XTTS.py

在这里插入图片描述

Linly-Talker WebUI

之前我将很多个版本都是分开来的,实际上运行多个会比较麻烦,所以后续我增加了变成WebUI一个界面即可体验,后续也会不断更新

现在已加入WebUI的功能如下

  • 文本/语音数字人对话(固定数字人,分男女角色)
  • 任意图片数字人对话(可上传任意数字人)
  • 多轮GPT对话(加入历史对话数据,链接上下文)
  • 语音克隆对话(基于GPT-SoVITS设置进行语音克隆,内置烟嗓音,可根据语音对话的声音进行克隆)
# WebUI
python webui.py

在这里插入图片描述

相关文章:

数字人的未来:数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

🚀数字人的未来:数字人对话系统 Linly-Talker 克隆语音 GPT-SoVITS https://github.com/Kedreamix/Linly-Talker 2023.12 更新 📆 用户可以上传任意图片进行对话 2024.01 更新 📆 令人兴奋的消息!我现在已经将强…...

SpringMVC 学习(五)之域对象

目录 1 域对象介绍 2 向 request 域对象共享数据 2.1 通过 ServletAPI (HttpServletRequest) 向 request 域对象共享数据 2.2 通过 ModelAndView 向 request 域对象共享数据 2.3 通过 Model 向 request 域对象共享数据 2.4 通过 map 向 request 域对象共享数据 2.5 通过…...

✅技术社区项目—JWT身份验证

通用的JWT鉴权方案 JWT鉴权流程 基本流程分三步: ● 用户登录成功之后,后端将生成的jwt返回给前端,然后前端将其保存在本地缓存; ● 之后前端与后端的交互时,都将iwt放在请求头中,比如可以将其放在Http的身份认证的请求头 Author…...

5.2 Ajax 数据爬取实战

目录 1. 实战内容 2、Ajax 分析 3、爬取内容 4、存入MySQL 数据库 4.1 创建相关表 4.2 数据插入表中 5、总代码与结果 1. 实战内容 爬取Scrape | Movie的所有电影详情页的电影名、类别、时长、上映地及时间、简介、评分,并将这些内容存入MySQL数据库中。 2、…...

276.【华为OD机试真题】矩阵匹配(二分法—JavaPythonC++JS实现)

🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目-矩阵匹配二.解题思路三.题解代码Python题解代码…...

java——多线程基础

目录 线程的概述多线程的创建方式一:继承Thread类方式二:实现Runnable接口方式三:利用Callable接口、FutureTask类来实现。Thread常用的方法 线程安全问题线程安全问题概述线程安全问题案例取钱案例描述模拟代码如下:执行结果 线程…...

Python服务器监测测试策略与工具:确保应用的高可用性!

在构建高可用性的应用程序时,服务器监测测试是至关重要的一环。Python作为一种强大的编程语言,提供了丰富的工具和库来帮助我们进行服务器监测测试。本文将介绍一些关键的策略和工具,帮助你确保应用的高可用性。 1. 监测策略的制定&#xff…...

Spring Security源码学习

Spring Security本质是一个过滤器链 过滤器链本质是责任链设计模型 1. HttpSecurity 【第五篇】深入理解HttpSecurity的设计-腾讯云开发者社区-腾讯云 在以前spring security也是采用xml配置的方式&#xff0c;在<http>标签中配置http请求相关的配置&#xff0c;如用户…...

大数据面试总结三

1、hdfs作为分布式存储系统&#xff0c;底层的实现的方式&#xff08;可能不正确&#xff09; 1、底层是一个分布式存储的&#xff0c;底层会将数据进行切分多个block块&#xff08;128M&#xff09;&#xff0c;并存储在不同的节点上面&#xff0c;这种分布式方式有助于提高数…...

AI赚钱套路总结和教程

最近李一舟和Sora 很火&#xff0c;作为第一批使用Sora赚钱的男人&#xff0c;一个清华学美术的跟人讲AI&#xff0c;信的人太多了&#xff0c;钱太好赚了。3年时间&#xff0c;李一舟仅通过卖课就赚了1.75亿元&#xff0c;其中《每个人的人工智能课》收入2786万元&#xff0c;…...

Linux安装jdk、tomcat、MySQL离线安装与启动

一、JDK和Tomcat的安装 1.JDK安装 直接上传到Linux服务器的&#xff0c;上传jdk、tomcat安装包 解压JDK安装包 //解压jdk tar -zxvf jdk-8u151-linux-x64.tar.gz 置环境变量(JAVA_HOME和PATH) vim /etc/profile 在文件末尾添加以下内容&#xff1a; //java environment expo…...

Python爬虫-使用代理伪装IP

爬虫系列&#xff1a;http://t.csdnimg.cn/WfCSx 前言 我们在做爬虫的过程中经常会遇到这样的情况&#xff0c;最初爬虫正常运行&#xff0c;正常抓取数据&#xff0c;一切看起来都是那么的美好&#xff0c;然而一杯茶的功夫可能就会出现错误&#xff0c;比如 403 Forbidden&…...

Typora结合PicGo + 使用Github搭建个人免费图床

文章目录 一、国内图床比较二、使用Github搭建图床三、PicGo整合Github图床1、下载并安装PicGo2、设置图床3、整合jsDelivr具体配置介绍 4、测试5、附录 四、Typora整合PicGo实现自动上传 每次写博客时&#xff0c;我都会习惯在Typora写好&#xff0c;然后再复制粘贴到对应的网…...

【Redis】redis简介与安装

Redis 简介 Redis 是完全开源的&#xff0c;遵守 BSD 协议&#xff08;Berkeley Software Distribution 意思是"伯克利软件发行版&#xff09;&#xff0c;是一个高性能的 key-value 数据库。具有以下几个比较明显的特点&#xff1a; 性能极高 – Redis能读的速度可以达…...

【xss跨站漏洞】xss漏洞利用工具beef的安装

安装环境 阿里云服务器&#xff0c;centos8.2系统&#xff0c;docker docker安装 前提用root用户 安装docker yum install docker 重启docker systemctl restart docker beef安装 安装beef docker pull janes/beef 绑定到3000端口 docker run --rm -p 3000:3000 janes/beef …...

编程笔记 html5cssjs 086 JavaScript 内置对象

编程笔记 html5&css&js 086 JavaScript 内置对象 一、Object二、Array三、String四、Number五、Math六、Date七、RegExp八、Function九、示例小结 JavaScript 内置对象是 JavaScript 语言本身定义的一系列预定义的对象&#xff0c;这些对象在全局作用域中可以直接使用&…...

AttributeError: ‘DataFrame‘ object has no attribute ‘set_value‘怎么修改问题的解决

在jupyternotebook中运行&#xff1a; def remplacement_df_keywords(df, dico_remplacement, roots False):df_new df.copy(deep True)for index, row in df_new.iterrows():chaine row[plot_keywords]if pd.isnull(chaine): continuenouvelle_liste []for s in chaine.…...

Jmeter内置变量 vars 和props的使用详解

JMeter是一个功能强大的负载测试工具&#xff0c;它提供了许多有用的内置变量来支持测试过程。其中最常用的变量是 vars 和 props。 vars 变量 vars 变量是线程本地变量&#xff0c;它们只能在同一线程组内的所有线程中使用&#xff08;线程组内不同线程之间变量不共享&#…...

c#高级-正则表达式

正则表达式是由普通字符和元字符&#xff08;特殊符号&#xff09;组成的文字形式 应用场景 1.用于验证输入的邮箱是否合法。 2.用于验证输入的电话号码是否合法。 3.用于验证输入的身份证号码是否合法。等等 正则表达式常用的限定符总结&#xff1a; 几种常用的正则简写表达式…...

说说UE5中的几种字符串类

在Unreal Engine 5 (UE5) 的C中&#xff0c;与字符串相关的类主要包括&#xff1a; FString&#xff1a; Unreal Engine中用于处理字符串的主要类&#xff0c;提供了丰富的字符串操作方法和功能。 FText&#xff1a; 用于表示本地化文本的类&#xff0c;可以包含多种语言的文本…...

OpenClaw数据备份实战:基于Synology NAS的增量备份与安全恢复方案

1. 项目概述与核心价值如果你和我一样&#xff0c;把OpenClaw当作一个重要的生产力工具&#xff0c;用它来管理项目、运行自动化任务&#xff0c;甚至托管一些关键的业务逻辑&#xff0c;那么数据安全就成了一个绕不开的话题。我见过太多因为硬盘突然挂掉、云服务商出问题&…...

openclaw-nerve:构建自包含应用包,彻底解决跨平台部署难题

1. 项目概述与核心价值最近在折腾一些自动化脚本和工具链&#xff0c;发现很多开源项目在依赖管理、环境配置和跨平台部署上&#xff0c;依然存在不小的摩擦。一个典型的场景是&#xff1a;你从GitHub上clone了一个看起来很酷的项目&#xff0c;满心欢喜地准备跑起来看看效果&a…...

电源技术周览:从微生物电池到前沿功率器件深度解析

1. 电源技术周览&#xff1a;从微生物电池到前沿功率器件又到了每周梳理电源技术动态的时候。这周的信息密度不小&#xff0c;从颇具科幻感的微生物燃料电池&#xff0c;到未来十年锂离子电池的市场与技术路线图&#xff0c;再到高压直流输电和无线充电这些与我们生活、工业息息…...

Homepage:构建个人统一仪表盘,聚合数字服务与状态监控

1. 项目概述&#xff1a;为什么我们需要一个统一的“数字家园”仪表盘&#xff1f;如果你和我一样&#xff0c;每天的工作和生活被几十个网页应用、服务状态、待办事项和书签链接所淹没&#xff0c;那么你一定能理解那种在浏览器标签页海洋里“迷路”的烦躁感。今天要聊的这个项…...

抽水蓄能电站岔管结构智能优化【附模型】

✨ 长期致力于抽水蓄能、球形钢岔管、智能优化、鲸鱼算法、静力分析研究工作&#xff0c;擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流&#xff0c;点击《获取方式》 &#xff08;1&#xff09;球形钢岔管参数化有限元建模&…...

兔子需要通风吗?关键不是风,而是空气路径

养兔子的朋友&#xff0c;大概率都有一个共识&#xff1a;要给兔子控温&#xff0c;夏天防中暑、冬天防受冻。但很多人都忽略了一个和温度同等重要的点——空气流动。 从环境工程的角度来说&#xff0c;兔子的舒适生活环境&#xff0c;离不开三个核心因素&#xff1a;温度、湿度…...

工业AI系统安全防护与零信任架构

当工厂的"大门"不再只是一道铁门,安全该如何升级? 引言:从"大铁门"到"智能门禁" 想象一座传统工厂:四周围墙高耸,大门紧闭,保安大爷坐在门房里,凭工作证放行。这就是传统网络安全的写照——"围墙式"防御,相信"里面的人&…...

数字示波器原理与高频信号测量实战指南

1. 数字示波器基础&#xff1a;从原理到实战的完整指南作为电子工程师的"眼睛"&#xff0c;示波器在电路调试、信号分析和故障诊断中扮演着不可替代的角色。记得我第一次使用数字示波器测量高速串行信号时&#xff0c;面对屏幕上扭曲的波形完全不知所措——后来才发现…...

告别大影像卡顿:手把手教你用GISBox做影像切片

从城市规划的精准布局&#xff0c;到自然资源的合理开发利用&#xff0c;再到应急救援的高效指挥&#xff0c;GIS影像都扮演着至关重要的角色。而影像切片技术&#xff0c;作为GIS影像处理和应用的关键环节&#xff0c;更是为我们解决了诸多实际难题&#xff0c;让GIS影像的应用…...

GDB调试实战:如何像本地变量一样轻松查看函数参数和结构体成员(附常用命令清单)

GDB调试实战&#xff1a;像本地变量一样高效查看函数参数与复杂数据结构 调试大型C/C项目时&#xff0c;最令人头疼的莫过于面对层层嵌套的函数调用和包含数十个成员的结构体。传统调试方式往往让我们陷入内存地址的泥潭&#xff0c;而GDB提供的诸多高级功能可以彻底改变这一局…...