当前位置: 首页 > news >正文

多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评

本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。

测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析,仅供参考。


文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

对比分析

文本

GPT

  • GPT全面能力比千帆更强 文字处理这块差不多
  • GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置,发布大模型经过备案审核

千帆

  • 最大的差异就是价格,千帆便宜
  • 文言文 中国文化等本土内容,千帆更头部

Claude (Claude与GPT分析对比,图源网络)

TTS

(仅中文语音分析)

Elevenlabs:有优质的台湾语调语音库,内陆语音库也还行。

讯飞:不支持convAI第三方集成,需要企业对接。本身有明显的“的地得”不分得问题。

GCP(Google cloud Platform):难听(指中文)。(metahuman内置的voice ID,google和Azure,whatever,也很难听)气口不对,声调错误(阴平阳平上声去声不分),甚至会读错字

Lipsync

Metahuman SDK:动画总体有非常多的bug:升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/  身首分离的问题可以解决但麻烦

convai自研有audio2face runtime 百分之七八十的效果,完全免费。

Audio2Face流式:(可以集成在ConvAI中)但企业版年费偏高昂

综合流程:

文本GPT千帆Claude
TTSElevenlabs讯飞GCP(Google cloud Platform) (convai内置)
lipsyncMetahumanSDKConvAI自研Audio to face

个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。

企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync”

Reallusion建议:

切换音色:convai的协同表现非常好,但第三方API集成只支持Elevenlabs,需要使用付费套餐,但价格偏低廉。

Monthly interaction of different pricing plans​​​​​

You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you can't use Convai's Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account.

convai不支持屏蔽关键词,需要去人设设置里告诉它不说某些词语,但不是强制屏蔽。

https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD

可以设置口癖如“这样子哦”“有啦”“真的假的?”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释:

“这样子哦”

这是一种表示理解或回应对方说话的口头禅,常常用在对话中表达对信息的接收或共鸣感。

“有啦”

台湾人常用“有啦”来强调某件事的存在或发生,例如:“我有做啦!”表示自己确实做了某事。

“真的假的?”

表示惊讶、怀疑或不确定的回应,类似于大陆的“真的吗?”。

“不好意思”

这在台湾不仅用于道歉,常常也用作礼貌的开场白或表示客气。例如,在请求帮助或打扰别人时,台湾人会说“不好意思”来显得更礼貌。

“对啊/对啦”

用于表示同意或附和,尤其是在对方表达观点时,台湾人会用“对啊”或“对啦”来表示赞同。

“没关系”

表示不介意、不在意,类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见,用来缓解尴尬或表示宽容。

“还好啦”

表示某件事情还算过得去、没有太大问题,常用来回应别人对自己状态或事情的询问。

“吼”

语气助词,用来加重语气或表达抱怨。例如:“你怎么这样吼?”有时带有一点撒娇或不满的意思。

“咩”

也是语气助词,常出现在句尾,用来表达无奈或调皮的感觉,例如:“我也不知道咩。”

其他建议:

动态字数:在人设里一般问答的长度设置的更精简,随着问题的难度而动态放宽字数限制。(否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人)

眼球动画:make the AI not always look at player

细微动作:change NPC animation while listening player talking/ thinking about anwser。

Action:将走/跑/摊手等动作blend使用。

语音情绪转换:convai集成流程支持初始情绪设定(如图),对话过程中声音情绪转变暂不支持

相关文章:

多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评

本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。 测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构…...

Java最全面试题->Java主流框架->Srping面试题

Spring面试题 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 谈谈你对 Spring 的理解? Spring 是一个开源框架,为简化企业级应用开发而生。Spring 可以是使简单的 JavaBean 实现以前只有 EJB 才能实现的功能。…...

参编国家标准需要注意的事项有哪些?

1. 项目相关性: • 选择与自身企业产品、业务或专业领域紧密相关的国家标准进行参编。这样不仅能确保企业在标准制定过程中发挥自身的优势和专长,使参编工作更有实际意义和价值,也有利于企业将标准更好地应用于自身的生产经营活动&#xff0c…...

【Dash】feffery_antd_components 按钮组件的应用

一、feffery_antd_componenet 中的 AntdFloatButton 和 AntdFloatButtonGroup AntdFloatButton 和 AntdFloatButtonGroup 是两个用于创建悬浮按钮和悬浮按钮组的组件。 AntdFloatButton 是单个悬浮按钮组件,它提供了多种属性来定义按钮的外观及行为。AntdFloatBut…...

01 springboot-整合日志(logback-config.xml)

logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件,通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项,可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建&#xff0…...

Java最全面试题->计算机基础面试题->计算机网络面试题

计算机网络 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 1.说一下TCP/IP四层模型 TCP/IP协议是美国国防部高级计划研究局为实现ARPANET互联网而开发的。 网络接口层&#xff…...

VSCode编译器改为中文

1. 通过快捷键设置中文 打开命令面板:按住键盘上的CtrlShiftP组合键,打开命令面板。 输入并设置语言:在命令面板中输入Configure Display Language。 点击Configure Display Language选项。 在弹出的语言选择列表中,选择zh-cn…...

前端开发设计模式——状态模式

目录 一、状态模式的定义和特点 二、状态模式的结构与原理 1.结构: 2.原理: 三、状态模式的实现方式 四、状态模式的使用场景 1.按钮的不同状态: 2.页面加载状态: 3.用户登录状态: 五、状态模式的优点 1.提…...

特种作业操作烟花爆竹试题分享

1.(单选题)职业卫生研究的是人类从事各种职业劳动过程中的( )。 A.健康问题 B.环境问题 C.卫生问题 答案:C 2.(单选题)安全生产事关人民群众的( )安全,事关改革发展和…...

实现prometheus+grafana的监控部署

直接贴部署用的文件信息了 kubectl label node xxx monitoringtrue 创建命名空间 kubectl create ns monitoring 部署operator kubectl apply -f operator-rbac.yml kubectl apply -f operator-dp.yml kubectl apply -f operator-crd.yml # 定义node-export kubectl app…...

确保Spring Boot定时任务只执行一次方案

在Spring Boot项目中,确保定时任务只执行一次是一个常见的需求。这种需求可以通过多种方式来实现,以下是一些常见的方法,它们各具特点,可以根据项目的实际需求来选择最合适的方法。 1. 使用Scheduled注解并设置极大延迟 一种简单…...

【Python数据可视化】利用Matplotlib绘制美丽图表!

【Python数据可视化】利用Matplotlib绘制美丽图表! 数据可视化是数据分析过程中的重要步骤,它能直观地展示数据的趋势、分布和相关性,帮助我们做出明智的决策。在 Python 中,Matplotlib 是最常用的可视化库之一,它功能…...

【最新通知】2024年Cisco思科认证CCNA详解

CCNA现在涵盖安全性、自动化和可编程性。该计划拥有一项涵盖IT职业基础知识的认证,包括一门考试和一门培训课程,助您做好准备。 CCNA培训课程和考试最近面向最新技术和工作岗位进行了重新调整,为您提供了向任何方向发展事业所需的基础。CCNA认…...

监控内容、监控指标、监控工具大科普

在现代信息技术领域,监控技术扮演着至关重要的角色。它帮助我们实时了解系统、网络、应用以及环境的状态,确保它们的安全、稳定和高效运行。以下是对监控内容、监控指标和监控工具的详细科普。 一、监控内容 监控内容是指监控系统所关注和记录的具体信…...

生成文件夹 - python 实现

生成文件夹保存图片和文本等信息。 代码具体实现如下: #-*-coding:utf-8-*- # date:2021-04-13 # Author: DataBall - XIAN # Function: 生成文件夹import os if __name__ "__main__":path "./dataset"if not os.path.exists(path): # 如果…...

快速了解学会python基础语言及IDLE 提供的常用快捷键

😀前言 本篇博文是关于python的基础语言介绍及IDLE 提供的常用快捷键,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的…...

【python】OpenCV—Sort the Point Set from Top Left to Bottom Right

文章目录 1、功能描述2、代码实现3、效果展示4、更多例子5、参考 1、功能描述 给出一张图片,里面含有各种图形,取各种图形的中心点,从左到右从上到下排序 例如 2、代码实现 import cv2 import numpy as npdef process_img(img):img_gray c…...

LeetCode 1493.删掉一个元素以后全为1的最长子数组

题目: 给你一个二进制数组 nums ,你需要从中删掉一个元素。 请你在删掉元素的结果数组中,返回最长的且只包含 1 的非空子数组的长度。 如果不存在这样的子数组,请返回 0 。 思路:不定长滑动窗口,将问题…...

php常用设计模式之工厂模式

引言 在日常开发中,我们一些业务场景需要用到发送短信通知。然而实际情况考虑到不同厂商之间的价格、实效性、可能会出现的情况等 我们的业务场景往往会接入多个短信厂商来保证我们业务的正常运行,而不同的短信厂商(如阿里云短信、腾讯云短信…...

通用软件版本标识

软件版本标识:了解不同的版本类型 在软件开发和发布过程中,版本号和标识扮演着重要的角色。它们不仅帮助开发者追踪软件的演变,还让用户了解软件的稳定性和功能。以下是一些常见的软件版本标识,以及它们的含义和用途。 Alpha&am…...

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件,常用于在两个集合之间进行数据转移,如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。 核心特性与用法 基本属性 v-model:绑定右侧列表的值&…...

2024年赣州旅游投资集团社会招聘笔试真

2024年赣州旅游投资集团社会招聘笔试真 题 ( 满 分 1 0 0 分 时 间 1 2 0 分 钟 ) 一、单选题(每题只有一个正确答案,答错、不答或多答均不得分) 1.纪要的特点不包括()。 A.概括重点 B.指导传达 C. 客观纪实 D.有言必录 【答案】: D 2.1864年,()预言了电磁波的存在,并指出…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

Qwen3-Embedding-0.6B深度解析:多语言语义检索的轻量级利器

第一章 引言:语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进 在人工智能领域,文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量,支撑着搜索引擎、推荐系统、…...

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类:块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

Java入门学习详细版(一)

大家好,Java 学习是一个系统学习的过程,核心原则就是“理论 实践 坚持”,并且需循序渐进,不可过于着急,本篇文章推出的这份详细入门学习资料将带大家从零基础开始,逐步掌握 Java 的核心概念和编程技能。 …...

html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码

目录 一、👨‍🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨‍&#x1f…...

高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数 在软件开发中,单例模式(Singleton Pattern)是一种常见的设计模式,确保一个类仅有一个实例,并提供一个全局访问点。在多线程环境下,实现单例模式时需要注意线程安全问题,以防止多个线程同时创建实例,导致…...

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下,限制某个 IP 的访问频率是非常重要的,可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案,使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...