多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评
本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。
测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析,仅供参考。
| 文本 | GPT | 千帆 | Claude |
|---|---|---|---|
| TTS | Elevenlabs | 讯飞 | GCP(Google cloud Platform) (convai内置) |
| lipsync | MetahumanSDK | ConvAI自研 | Audio to face |
对比分析
文本
GPT
- GPT全面能力比千帆更强 文字处理这块差不多
- GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置,发布大模型经过备案审核
千帆
- 最大的差异就是价格,千帆便宜
- 文言文 中国文化等本土内容,千帆更头部
Claude (Claude与GPT分析对比,图源网络)

TTS
(仅中文语音分析)
Elevenlabs:有优质的台湾语调语音库,内陆语音库也还行。
讯飞:不支持convAI第三方集成,需要企业对接。本身有明显的“的地得”不分得问题。
GCP(Google cloud Platform):难听(指中文)。(metahuman内置的voice ID,google和Azure,whatever,也很难听)气口不对,声调错误(阴平阳平上声去声不分),甚至会读错字
Lipsync
Metahuman SDK:动画总体有非常多的bug:升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/ 身首分离的问题可以解决但麻烦
convai自研:有audio2face runtime 百分之七八十的效果,完全免费。
Audio2Face流式:(可以集成在ConvAI中)但企业版年费偏高昂
综合流程:
| 文本 | GPT | 千帆 | Claude |
|---|---|---|---|
| TTS | Elevenlabs | 讯飞 | GCP(Google cloud Platform) (convai内置) |
| lipsync | MetahumanSDK | ConvAI自研 | Audio to face |
个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。
企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync”
Reallusion建议:
切换音色:convai的协同表现非常好,但第三方API集成只支持Elevenlabs,需要使用付费套餐,但价格偏低廉。
You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you can't use Convai's Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account.
convai不支持屏蔽关键词,需要去人设设置里告诉它不说某些词语,但不是强制屏蔽。
https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD
可以设置口癖如“这样子哦”“有啦”“真的假的?”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释:
“这样子哦”
这是一种表示理解或回应对方说话的口头禅,常常用在对话中表达对信息的接收或共鸣感。
“有啦”
台湾人常用“有啦”来强调某件事的存在或发生,例如:“我有做啦!”表示自己确实做了某事。
“真的假的?”
表示惊讶、怀疑或不确定的回应,类似于大陆的“真的吗?”。
“不好意思”
这在台湾不仅用于道歉,常常也用作礼貌的开场白或表示客气。例如,在请求帮助或打扰别人时,台湾人会说“不好意思”来显得更礼貌。
“对啊/对啦”
用于表示同意或附和,尤其是在对方表达观点时,台湾人会用“对啊”或“对啦”来表示赞同。
“没关系”
表示不介意、不在意,类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见,用来缓解尴尬或表示宽容。
“还好啦”
表示某件事情还算过得去、没有太大问题,常用来回应别人对自己状态或事情的询问。
“吼”
语气助词,用来加重语气或表达抱怨。例如:“你怎么这样吼?”有时带有一点撒娇或不满的意思。
“咩”
也是语气助词,常出现在句尾,用来表达无奈或调皮的感觉,例如:“我也不知道咩。”
其他建议:
动态字数:在人设里一般问答的长度设置的更精简,随着问题的难度而动态放宽字数限制。(否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人)
眼球动画:make the AI not always look at player
细微动作:change NPC animation while listening player talking/ thinking about anwser。
Action:将走/跑/摊手等动作blend使用。
语音情绪转换:convai集成流程支持初始情绪设定(如图),对话过程中声音情绪转变暂不支持

相关文章:
多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评
本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。 测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构…...
Java最全面试题->Java主流框架->Srping面试题
Spring面试题 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 谈谈你对 Spring 的理解? Spring 是一个开源框架,为简化企业级应用开发而生。Spring 可以是使简单的 JavaBean 实现以前只有 EJB 才能实现的功能。…...
参编国家标准需要注意的事项有哪些?
1. 项目相关性: • 选择与自身企业产品、业务或专业领域紧密相关的国家标准进行参编。这样不仅能确保企业在标准制定过程中发挥自身的优势和专长,使参编工作更有实际意义和价值,也有利于企业将标准更好地应用于自身的生产经营活动,…...
【Dash】feffery_antd_components 按钮组件的应用
一、feffery_antd_componenet 中的 AntdFloatButton 和 AntdFloatButtonGroup AntdFloatButton 和 AntdFloatButtonGroup 是两个用于创建悬浮按钮和悬浮按钮组的组件。 AntdFloatButton 是单个悬浮按钮组件,它提供了多种属性来定义按钮的外观及行为。AntdFloatBut…...
01 springboot-整合日志(logback-config.xml)
logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件,通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项,可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建࿰…...
Java最全面试题->计算机基础面试题->计算机网络面试题
计算机网络 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 1.说一下TCP/IP四层模型 TCP/IP协议是美国国防部高级计划研究局为实现ARPANET互联网而开发的。 网络接口层ÿ…...
VSCode编译器改为中文
1. 通过快捷键设置中文 打开命令面板:按住键盘上的CtrlShiftP组合键,打开命令面板。 输入并设置语言:在命令面板中输入Configure Display Language。 点击Configure Display Language选项。 在弹出的语言选择列表中,选择zh-cn…...
前端开发设计模式——状态模式
目录 一、状态模式的定义和特点 二、状态模式的结构与原理 1.结构: 2.原理: 三、状态模式的实现方式 四、状态模式的使用场景 1.按钮的不同状态: 2.页面加载状态: 3.用户登录状态: 五、状态模式的优点 1.提…...
特种作业操作烟花爆竹试题分享
1.(单选题)职业卫生研究的是人类从事各种职业劳动过程中的( )。 A.健康问题 B.环境问题 C.卫生问题 答案:C 2.(单选题)安全生产事关人民群众的( )安全,事关改革发展和…...
实现prometheus+grafana的监控部署
直接贴部署用的文件信息了 kubectl label node xxx monitoringtrue 创建命名空间 kubectl create ns monitoring 部署operator kubectl apply -f operator-rbac.yml kubectl apply -f operator-dp.yml kubectl apply -f operator-crd.yml # 定义node-export kubectl app…...
确保Spring Boot定时任务只执行一次方案
在Spring Boot项目中,确保定时任务只执行一次是一个常见的需求。这种需求可以通过多种方式来实现,以下是一些常见的方法,它们各具特点,可以根据项目的实际需求来选择最合适的方法。 1. 使用Scheduled注解并设置极大延迟 一种简单…...
【Python数据可视化】利用Matplotlib绘制美丽图表!
【Python数据可视化】利用Matplotlib绘制美丽图表! 数据可视化是数据分析过程中的重要步骤,它能直观地展示数据的趋势、分布和相关性,帮助我们做出明智的决策。在 Python 中,Matplotlib 是最常用的可视化库之一,它功能…...
【最新通知】2024年Cisco思科认证CCNA详解
CCNA现在涵盖安全性、自动化和可编程性。该计划拥有一项涵盖IT职业基础知识的认证,包括一门考试和一门培训课程,助您做好准备。 CCNA培训课程和考试最近面向最新技术和工作岗位进行了重新调整,为您提供了向任何方向发展事业所需的基础。CCNA认…...
监控内容、监控指标、监控工具大科普
在现代信息技术领域,监控技术扮演着至关重要的角色。它帮助我们实时了解系统、网络、应用以及环境的状态,确保它们的安全、稳定和高效运行。以下是对监控内容、监控指标和监控工具的详细科普。 一、监控内容 监控内容是指监控系统所关注和记录的具体信…...
生成文件夹 - python 实现
生成文件夹保存图片和文本等信息。 代码具体实现如下: #-*-coding:utf-8-*- # date:2021-04-13 # Author: DataBall - XIAN # Function: 生成文件夹import os if __name__ "__main__":path "./dataset"if not os.path.exists(path): # 如果…...
快速了解学会python基础语言及IDLE 提供的常用快捷键
😀前言 本篇博文是关于python的基础语言介绍及IDLE 提供的常用快捷键,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的…...
【python】OpenCV—Sort the Point Set from Top Left to Bottom Right
文章目录 1、功能描述2、代码实现3、效果展示4、更多例子5、参考 1、功能描述 给出一张图片,里面含有各种图形,取各种图形的中心点,从左到右从上到下排序 例如 2、代码实现 import cv2 import numpy as npdef process_img(img):img_gray c…...
LeetCode 1493.删掉一个元素以后全为1的最长子数组
题目: 给你一个二进制数组 nums ,你需要从中删掉一个元素。 请你在删掉元素的结果数组中,返回最长的且只包含 1 的非空子数组的长度。 如果不存在这样的子数组,请返回 0 。 思路:不定长滑动窗口,将问题…...
php常用设计模式之工厂模式
引言 在日常开发中,我们一些业务场景需要用到发送短信通知。然而实际情况考虑到不同厂商之间的价格、实效性、可能会出现的情况等 我们的业务场景往往会接入多个短信厂商来保证我们业务的正常运行,而不同的短信厂商(如阿里云短信、腾讯云短信…...
通用软件版本标识
软件版本标识:了解不同的版本类型 在软件开发和发布过程中,版本号和标识扮演着重要的角色。它们不仅帮助开发者追踪软件的演变,还让用户了解软件的稳定性和功能。以下是一些常见的软件版本标识,以及它们的含义和用途。 Alpha&am…...
Qt qDebug高级调试技巧:从流式输出到自定义日志格式
1. 流式输出的艺术:让调试信息更优雅 第一次接触Qt的开发者往往会被qDebug的流式输出惊艳到——它比传统的printf风格更符合现代C的编码习惯。我在重构一个老项目时,曾经需要同时输出用户ID、操作类型和时间戳三个变量。用传统方法需要写三行printf&…...
开关电源拓扑结构解析:从反激到正激的实战应用
1. 开关电源拓扑结构入门指南 第一次接触开关电源设计时,我被各种拓扑结构搞得晕头转向。直到有次把电源板烧冒烟了才明白,选错拓扑就像用菜刀砍柴——不是不能用,但效率低还危险。开关电源拓扑结构决定了电能转换的基本框架,就像…...
文墨共鸣大模型与Matlab科学计算结合:数据报告自动化
文墨共鸣大模型与Matlab科学计算结合:数据报告自动化 每次做完仿真和数据分析,看着满屏的图表和密密麻麻的数据矩阵,你是不是也头疼怎么写报告?从数据到文字,这中间仿佛隔着一道鸿沟,既要组织语言…...
驱动管理工具:释放磁盘空间的开源解决方案
驱动管理工具:释放磁盘空间的开源解决方案 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 当你的系统频繁弹出磁盘空间不足警告,而C盘又找不到明显的大文件时&am…...
GPEN老照片修复案例:增强前后对比,效果直观展示
GPEN老照片修复案例:增强前后对比,效果直观展示 1. 引言:老照片修复的痛点与解决方案 翻开泛黄的相册,那些承载着珍贵记忆的老照片往往因为年代久远而变得模糊、褪色甚至破损。传统的手工修复不仅耗时耗力,还需要专业…...
AI简历被秒拒?项目描述的4个细节,决定你能否拿到面试
AI简历被秒拒?项目描述的4个细节,决定你能否拿到面试金三银四求职季,不少求职者靠着AI工具快速生成简历,却发现投出的简历石沉大海、屡屡秒拒。很多人疑惑,自己的技术栈、项目经验明明符合岗位要求,为什么连…...
Qwen2-VL-2B-Instruct实操手册:本地化安全机制与temp_images权限控制说明
Qwen2-VL-2B-Instruct实操手册:本地化安全机制与temp_images权限控制说明 1. 项目核心:理解GME-Qwen2-VL模型 你可能听说过很多能“看图说话”的AI模型,但今天要介绍的 GME-Qwen2-VL-2B-Instruct 有点不一样。它不是一个和你聊天的机器人&a…...
支付宝秘钥模式说明
1 python服务器需要使用 PKCS1格式2 秘钥格式是不带头尾的,中间的纯字符串...
VBA UserForm控件交互实战:跨窗体数据传递与动态更新
1. UserForm基础与跨窗体数据传递原理 刚接触VBA UserForm时,我经常被各种控件的交互问题困扰。特别是当需要多个窗体协同工作时,数据传递就成了大难题。记得有次做订单管理系统,主窗体收集客户信息,子窗体处理产品明细࿰…...
Pixel Epic · Wisdom Terminal 处理403 Forbidden等HTTP错误:智能诊断与修复建议
Pixel Epic Wisdom Terminal 处理403 Forbidden等HTTP错误:智能诊断与修复建议 1. 引言:HTTP错误的困扰与解决方案 每个Web开发者和运维人员都遇到过这样的场景:用户反馈页面打不开,你打开开发者工具一看,赫然显示4…...
