当前位置: 首页 > news >正文

多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评

本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。

测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析,仅供参考。


文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

对比分析

文本

GPT

  • GPT全面能力比千帆更强 文字处理这块差不多
  • GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置,发布大模型经过备案审核

千帆

  • 最大的差异就是价格,千帆便宜
  • 文言文 中国文化等本土内容,千帆更头部

Claude (Claude与GPT分析对比,图源网络)

TTS

(仅中文语音分析)

Elevenlabs:有优质的台湾语调语音库,内陆语音库也还行。

讯飞:不支持convAI第三方集成,需要企业对接。本身有明显的“的地得”不分得问题。

GCP(Google cloud Platform):难听(指中文)。(metahuman内置的voice ID,google和Azure,whatever,也很难听)气口不对,声调错误(阴平阳平上声去声不分),甚至会读错字

Lipsync

Metahuman SDK:动画总体有非常多的bug:升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/  身首分离的问题可以解决但麻烦

convai自研有audio2face runtime 百分之七八十的效果,完全免费。

Audio2Face流式:(可以集成在ConvAI中)但企业版年费偏高昂

综合流程:

文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。

企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync”

Reallusion建议:

切换音色:convai的协同表现非常好,但第三方API集成只支持Elevenlabs,需要使用付费套餐,但价格偏低廉。

Monthly interaction of different pricing plans​​​​​

You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you can't use Convai's Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account.

convai不支持屏蔽关键词,需要去人设设置里告诉它不说某些词语,但不是强制屏蔽。

https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD

可以设置口癖如“这样子哦”“有啦”“真的假的?”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释:

“这样子哦”

这是一种表示理解或回应对方说话的口头禅,常常用在对话中表达对信息的接收或共鸣感。

“有啦”

台湾人常用“有啦”来强调某件事的存在或发生,例如:“我有做啦!”表示自己确实做了某事。

“真的假的?”

表示惊讶、怀疑或不确定的回应,类似于大陆的“真的吗?”。

“不好意思”

这在台湾不仅用于道歉,常常也用作礼貌的开场白或表示客气。例如,在请求帮助或打扰别人时,台湾人会说“不好意思”来显得更礼貌。

“对啊/对啦”

用于表示同意或附和,尤其是在对方表达观点时,台湾人会用“对啊”或“对啦”来表示赞同。

“没关系”

表示不介意、不在意,类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见,用来缓解尴尬或表示宽容。

“还好啦”

表示某件事情还算过得去、没有太大问题,常用来回应别人对自己状态或事情的询问。

“吼”

语气助词,用来加重语气或表达抱怨。例如:“你怎么这样吼?”有时带有一点撒娇或不满的意思。

“咩”

也是语气助词,常出现在句尾,用来表达无奈或调皮的感觉,例如:“我也不知道咩。”

其他建议:

动态字数:在人设里一般问答的长度设置的更精简,随着问题的难度而动态放宽字数限制。(否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人)

眼球动画:make the AI not always look at player

细微动作:change NPC animation while listening player talking/ thinking about anwser。

Action:将走/跑/摊手等动作blend使用。

语音情绪转换:convai集成流程支持初始情绪设定(如图),对话过程中声音情绪转变暂不支持

相关文章:

多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评

本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。 测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构…...

Java最全面试题->Java主流框架->Srping面试题

Spring面试题 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 谈谈你对 Spring 的理解? Spring 是一个开源框架,为简化企业级应用开发而生。Spring 可以是使简单的 JavaBean 实现以前只有 EJB 才能实现的功能。…...

参编国家标准需要注意的事项有哪些?

1. 项目相关性: • 选择与自身企业产品、业务或专业领域紧密相关的国家标准进行参编。这样不仅能确保企业在标准制定过程中发挥自身的优势和专长,使参编工作更有实际意义和价值,也有利于企业将标准更好地应用于自身的生产经营活动&#xff0c…...

【Dash】feffery_antd_components 按钮组件的应用

一、feffery_antd_componenet 中的 AntdFloatButton 和 AntdFloatButtonGroup AntdFloatButton 和 AntdFloatButtonGroup 是两个用于创建悬浮按钮和悬浮按钮组的组件。 AntdFloatButton 是单个悬浮按钮组件,它提供了多种属性来定义按钮的外观及行为。AntdFloatBut…...

01 springboot-整合日志(logback-config.xml)

logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件,通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项,可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建&#xff0…...

Java最全面试题->计算机基础面试题->计算机网络面试题

计算机网络 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 1.说一下TCP/IP四层模型 TCP/IP协议是美国国防部高级计划研究局为实现ARPANET互联网而开发的。 网络接口层&#xff…...

VSCode编译器改为中文

1. 通过快捷键设置中文 打开命令面板:按住键盘上的CtrlShiftP组合键,打开命令面板。 输入并设置语言:在命令面板中输入Configure Display Language。 点击Configure Display Language选项。 在弹出的语言选择列表中,选择zh-cn…...

前端开发设计模式——状态模式

目录 一、状态模式的定义和特点 二、状态模式的结构与原理 1.结构: 2.原理: 三、状态模式的实现方式 四、状态模式的使用场景 1.按钮的不同状态: 2.页面加载状态: 3.用户登录状态: 五、状态模式的优点 1.提…...

特种作业操作烟花爆竹试题分享

1.(单选题)职业卫生研究的是人类从事各种职业劳动过程中的( )。 A.健康问题 B.环境问题 C.卫生问题 答案:C 2.(单选题)安全生产事关人民群众的( )安全,事关改革发展和…...

实现prometheus+grafana的监控部署

直接贴部署用的文件信息了 kubectl label node xxx monitoringtrue 创建命名空间 kubectl create ns monitoring 部署operator kubectl apply -f operator-rbac.yml kubectl apply -f operator-dp.yml kubectl apply -f operator-crd.yml # 定义node-export kubectl app…...

确保Spring Boot定时任务只执行一次方案

在Spring Boot项目中,确保定时任务只执行一次是一个常见的需求。这种需求可以通过多种方式来实现,以下是一些常见的方法,它们各具特点,可以根据项目的实际需求来选择最合适的方法。 1. 使用Scheduled注解并设置极大延迟 一种简单…...

【Python数据可视化】利用Matplotlib绘制美丽图表!

【Python数据可视化】利用Matplotlib绘制美丽图表! 数据可视化是数据分析过程中的重要步骤,它能直观地展示数据的趋势、分布和相关性,帮助我们做出明智的决策。在 Python 中,Matplotlib 是最常用的可视化库之一,它功能…...

【最新通知】2024年Cisco思科认证CCNA详解

CCNA现在涵盖安全性、自动化和可编程性。该计划拥有一项涵盖IT职业基础知识的认证,包括一门考试和一门培训课程,助您做好准备。 CCNA培训课程和考试最近面向最新技术和工作岗位进行了重新调整,为您提供了向任何方向发展事业所需的基础。CCNA认…...

监控内容、监控指标、监控工具大科普

在现代信息技术领域,监控技术扮演着至关重要的角色。它帮助我们实时了解系统、网络、应用以及环境的状态,确保它们的安全、稳定和高效运行。以下是对监控内容、监控指标和监控工具的详细科普。 一、监控内容 监控内容是指监控系统所关注和记录的具体信…...

生成文件夹 - python 实现

生成文件夹保存图片和文本等信息。 代码具体实现如下: #-*-coding:utf-8-*- # date:2021-04-13 # Author: DataBall - XIAN # Function: 生成文件夹import os if __name__ "__main__":path "./dataset"if not os.path.exists(path): # 如果…...

快速了解学会python基础语言及IDLE 提供的常用快捷键

😀前言 本篇博文是关于python的基础语言介绍及IDLE 提供的常用快捷键,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的…...

【python】OpenCV—Sort the Point Set from Top Left to Bottom Right

文章目录 1、功能描述2、代码实现3、效果展示4、更多例子5、参考 1、功能描述 给出一张图片,里面含有各种图形,取各种图形的中心点,从左到右从上到下排序 例如 2、代码实现 import cv2 import numpy as npdef process_img(img):img_gray c…...

LeetCode 1493.删掉一个元素以后全为1的最长子数组

题目: 给你一个二进制数组 nums ,你需要从中删掉一个元素。 请你在删掉元素的结果数组中,返回最长的且只包含 1 的非空子数组的长度。 如果不存在这样的子数组,请返回 0 。 思路:不定长滑动窗口,将问题…...

php常用设计模式之工厂模式

引言 在日常开发中,我们一些业务场景需要用到发送短信通知。然而实际情况考虑到不同厂商之间的价格、实效性、可能会出现的情况等 我们的业务场景往往会接入多个短信厂商来保证我们业务的正常运行,而不同的短信厂商(如阿里云短信、腾讯云短信…...

通用软件版本标识

软件版本标识:了解不同的版本类型 在软件开发和发布过程中,版本号和标识扮演着重要的角色。它们不仅帮助开发者追踪软件的演变,还让用户了解软件的稳定性和功能。以下是一些常见的软件版本标识,以及它们的含义和用途。 Alpha&am…...

(计算机毕设)基于SpringBoot的就业平台开题报告

一、立题依据(国内外研究进展或选题背景、研究意义等) 国内外研究进展或选题背景 在全球化的大背景下,就业问题一直是各国政府和社会各界关注的焦点。随着互联网技术的普及和发展,网络招聘已成为求职者和企业招聘的主要渠道。据相关数据显示&#xff0…...

STM32G4系列MCU的ADC模块标定方法和采样时间

目录 概述 1 ADC模块标定 1.1 功能介绍 1.2 软件程序校准ADC 1.2.1 标定步骤 1.2.2 标定时序框图 1.3 软件程序重新注入校准因子到ADC 1.3.1 标定步骤 1.3.2 更新ADC校准因子 1.4 用单个ADC转换单端和差分模拟输入 1.4.1 标定流程 1.4.2 混合单端和差分通道 2 通道…...

NVIDIA Jetson支持的神经网络加速的量化平台

NVIDIA Jetson支持的神经网络加速的量化工具、技术 NVIDIA Jetson 是专为边缘计算和嵌入式系统设计的高性能计算平台,它支持多种深度学习模型的部署和推理。对于神经网络加速的量化平台,Jetson 支持以下技术和工具: TensorRT:Ten…...

MySQL 免密登录的几种配置方式

文章目录 MySQL 免密登录的几种配置方式使用操作系统用户实现免密登录具体步骤:Step 1: 修改 MySQL 配置文件Step 2: 重启 MySQL 服务Step 3: 使用系统用户登录 MySQL优点:缺点: 使用 mysql_config_editor 配置免密文件具体步骤:S…...

html全局属性、框架标签

常用的全局属性&#xff1a; 属性名含义id 给标签指定唯一标识&#xff0c;注意&#xff1a;id是不能重复的。 作用&#xff1a;可以让label标签与表单控件相关联&#xff1b;也可以与css、JavaScript配合使用。 注意&#xff1a;不能再以下HTML元素中使用&#xff1a;<hea…...

ARL 灯塔 | CentOS7 — ARL 灯塔搭建流程(Docker)

关注这个工具的其它相关内容&#xff1a;自动化信息收集工具 —— ARL 灯塔使用手册 - CSDN 博客 灯塔&#xff0c;全称&#xff1a;ARL 资产侦察灯塔系统&#xff0c;有着域名资产发现和整理、IP/IP 段资产整理、端口扫描和服务识别、WEB 站点指纹识别、资产分组管理和搜索等等…...

抖音列表页采集-前言

准备工作&#xff1a; 1.关于selenium介绍&#xff1a; python自动化入门的话&#xff0c;selenium绝对是最方便的选择&#xff0c;基本逻辑即为&#xff1a;程序模拟人的行为操作浏览器&#xff0c;这样的操作需要借用浏览器驱动&#xff0c;我选用的是chrome浏览器&#xff…...

Linux 端口占用 kill被占用的端口 杀掉端口

1、yum install lsof 2、输入netstat -tln,查看系统当前所有被占用端口 3、根据端口查询进程,输入lsof -i :9555,切记不要忘了添加冒号 4、 既然知道进程号了,那杀死当前进程就简单多了,直接 kill -9 PID 回车...

爬虫之数据解析

数据解析 数据解析这篇内容, 很多知识涉及到的都是以前学习过的内容了, 那这篇文章我们主要以实操为主, 来展开来讲解关于数据解析的内容。 360搜索图片 请求的url大家不需要再找了, 相信大家都会找请求了, 寻找请求从我的第一篇爬虫的博客开始到现在一直都在写,这边的话, 我已…...

本地缓存少更改、小数据、低一致表的思考

对于那些少更改、小数据的表&#xff0c;以及对一致性要求不高的业务&#xff0c;其实完全可以通过本地缓存将表数据缓存到本地内存中&#xff0c;然后通过定时机制拉取表更新数据 直接从内存中获取数据&#xff0c;将会使得查询性能得到巨大的提升&#xff0c;并且由于更改少…...