多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评
本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。
测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构的分析,仅供参考。
| 文本 | GPT | 千帆 | Claude |
|---|---|---|---|
| TTS | Elevenlabs | 讯飞 | GCP(Google cloud Platform) (convai内置) |
| lipsync | MetahumanSDK | ConvAI自研 | Audio to face |
对比分析
文本
GPT
- GPT全面能力比千帆更强 文字处理这块差不多
- GPT的知识库比较大 并且敏感词限制很少/千帆的文心有敏感词设置,发布大模型经过备案审核
千帆
- 最大的差异就是价格,千帆便宜
- 文言文 中国文化等本土内容,千帆更头部
Claude (Claude与GPT分析对比,图源网络)

TTS
(仅中文语音分析)
Elevenlabs:有优质的台湾语调语音库,内陆语音库也还行。
讯飞:不支持convAI第三方集成,需要企业对接。本身有明显的“的地得”不分得问题。
GCP(Google cloud Platform):难听(指中文)。(metahuman内置的voice ID,google和Azure,whatever,也很难听)气口不对,声调错误(阴平阳平上声去声不分),甚至会读错字
Lipsync
Metahuman SDK:动画总体有非常多的bug:升级了pricing plan仍然有和免费试用版一样的五秒时间限制/ 会在嘴张着的情况停止讲话/ 身首分离的问题可以解决但麻烦
convai自研:有audio2face runtime 百分之七八十的效果,完全免费。
Audio2Face流式:(可以集成在ConvAI中)但企业版年费偏高昂
综合流程:
| 文本 | GPT | 千帆 | Claude |
|---|---|---|---|
| TTS | Elevenlabs | 讯飞 | GCP(Google cloud Platform) (convai内置) |
| lipsync | MetahumanSDK | ConvAI自研 | Audio to face |
个人用户可以使用“GPT-Elevenlabs-ConvAI”的技术栈组合。均有免费额度。
企业用户要求最佳效果的技术栈组合可以参考“GPT-Elevenlabs-ConvAI-Audio to face runtime lipsync”
Reallusion建议:
切换音色:convai的协同表现非常好,但第三方API集成只支持Elevenlabs,需要使用付费套餐,但价格偏低廉。
You can use Elevenlabs voices in Convai. There are 2 ways to access Elevenlabs voices. First, your Convai plan must be a Gamer plan or higher. However, each plan has a separate ElevenLabs Interaction quota. ElevenLabs Quota is as in the screenshot I shared below. In this way, you can access ElevenLabs voices in the Character Voices section in Convai. Another method is to connect your ElevenLabs account. However, your Elevenlabs account must have a Pro plan or higher. This way you can also add custom ElevenLabs voices, and your ElevenLabs quota is the same as the quota on your account. Documentation: https://docs.convai.com/api-docs/plugins-and-integrations/elevenlabs-api-integration A small note, this way you can't use Convai's Elevenlabs voices, you need to upgrade your Convai plan. So when you connect the Elevenlabs API, everything related to Elevenlabs is connected to your Elevenlabs account.
convai不支持屏蔽关键词,需要去人设设置里告诉它不说某些词语,但不是强制屏蔽。
https://zh.wikipedia.org/wiki/%E6%AD%A7%E8%A7%86%E8%AF%AD
可以设置口癖如“这样子哦”“有啦”“真的假的?”“不好意思”“对啊/对啦”“没关系”“还好啦”“吼”“咩”。最好需要在人设里给详细解释:
“这样子哦”
这是一种表示理解或回应对方说话的口头禅,常常用在对话中表达对信息的接收或共鸣感。
“有啦”
台湾人常用“有啦”来强调某件事的存在或发生,例如:“我有做啦!”表示自己确实做了某事。
“真的假的?”
表示惊讶、怀疑或不确定的回应,类似于大陆的“真的吗?”。
“不好意思”
这在台湾不仅用于道歉,常常也用作礼貌的开场白或表示客气。例如,在请求帮助或打扰别人时,台湾人会说“不好意思”来显得更礼貌。
“对啊/对啦”
用于表示同意或附和,尤其是在对方表达观点时,台湾人会用“对啊”或“对啦”来表示赞同。
“没关系”
表示不介意、不在意,类似于“没事”、“无所谓”。这句话在台湾人的日常对话中非常常见,用来缓解尴尬或表示宽容。
“还好啦”
表示某件事情还算过得去、没有太大问题,常用来回应别人对自己状态或事情的询问。
“吼”
语气助词,用来加重语气或表达抱怨。例如:“你怎么这样吼?”有时带有一点撒娇或不满的意思。
“咩”
也是语气助词,常出现在句尾,用来表达无奈或调皮的感觉,例如:“我也不知道咩。”
其他建议:
动态字数:在人设里一般问答的长度设置的更精简,随着问题的难度而动态放宽字数限制。(否则每个回答都回答一长段 / 困难的问题很快回答 / 简单的问题过于啰嗦的回答 都会更不像真人)
眼球动画:make the AI not always look at player
细微动作:change NPC animation while listening player talking/ thinking about anwser。
Action:将走/跑/摊手等动作blend使用。
语音情绪转换:convai集成流程支持初始情绪设定(如图),对话过程中声音情绪转变暂不支持

相关文章:
多模态技术的协同表现:从文本生成、语音合成到口型同步综合测评
本文是针对多模态对话系统核心技术栈的使用效果和网络测评整理。 测评内容基于用户体验,侧重于从使用者角度出发,讨论实际操作中的体验感受,如技术的易用性、输出效果如文本的连贯性、语音的自然度、口型同步的准确性等。不涉及具体算法架构…...
Java最全面试题->Java主流框架->Srping面试题
Spring面试题 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 谈谈你对 Spring 的理解? Spring 是一个开源框架,为简化企业级应用开发而生。Spring 可以是使简单的 JavaBean 实现以前只有 EJB 才能实现的功能。…...
参编国家标准需要注意的事项有哪些?
1. 项目相关性: • 选择与自身企业产品、业务或专业领域紧密相关的国家标准进行参编。这样不仅能确保企业在标准制定过程中发挥自身的优势和专长,使参编工作更有实际意义和价值,也有利于企业将标准更好地应用于自身的生产经营活动,…...
【Dash】feffery_antd_components 按钮组件的应用
一、feffery_antd_componenet 中的 AntdFloatButton 和 AntdFloatButtonGroup AntdFloatButton 和 AntdFloatButtonGroup 是两个用于创建悬浮按钮和悬浮按钮组的组件。 AntdFloatButton 是单个悬浮按钮组件,它提供了多种属性来定义按钮的外观及行为。AntdFloatBut…...
01 springboot-整合日志(logback-config.xml)
logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件,通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项,可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建࿰…...
Java最全面试题->计算机基础面试题->计算机网络面试题
计算机网络 下边是我自己整理的面试题,基本已经很全面了,想要的可以私信我,我会不定期去更新思维导图 哪里不会点哪里 1.说一下TCP/IP四层模型 TCP/IP协议是美国国防部高级计划研究局为实现ARPANET互联网而开发的。 网络接口层ÿ…...
VSCode编译器改为中文
1. 通过快捷键设置中文 打开命令面板:按住键盘上的CtrlShiftP组合键,打开命令面板。 输入并设置语言:在命令面板中输入Configure Display Language。 点击Configure Display Language选项。 在弹出的语言选择列表中,选择zh-cn…...
前端开发设计模式——状态模式
目录 一、状态模式的定义和特点 二、状态模式的结构与原理 1.结构: 2.原理: 三、状态模式的实现方式 四、状态模式的使用场景 1.按钮的不同状态: 2.页面加载状态: 3.用户登录状态: 五、状态模式的优点 1.提…...
特种作业操作烟花爆竹试题分享
1.(单选题)职业卫生研究的是人类从事各种职业劳动过程中的( )。 A.健康问题 B.环境问题 C.卫生问题 答案:C 2.(单选题)安全生产事关人民群众的( )安全,事关改革发展和…...
实现prometheus+grafana的监控部署
直接贴部署用的文件信息了 kubectl label node xxx monitoringtrue 创建命名空间 kubectl create ns monitoring 部署operator kubectl apply -f operator-rbac.yml kubectl apply -f operator-dp.yml kubectl apply -f operator-crd.yml # 定义node-export kubectl app…...
确保Spring Boot定时任务只执行一次方案
在Spring Boot项目中,确保定时任务只执行一次是一个常见的需求。这种需求可以通过多种方式来实现,以下是一些常见的方法,它们各具特点,可以根据项目的实际需求来选择最合适的方法。 1. 使用Scheduled注解并设置极大延迟 一种简单…...
【Python数据可视化】利用Matplotlib绘制美丽图表!
【Python数据可视化】利用Matplotlib绘制美丽图表! 数据可视化是数据分析过程中的重要步骤,它能直观地展示数据的趋势、分布和相关性,帮助我们做出明智的决策。在 Python 中,Matplotlib 是最常用的可视化库之一,它功能…...
【最新通知】2024年Cisco思科认证CCNA详解
CCNA现在涵盖安全性、自动化和可编程性。该计划拥有一项涵盖IT职业基础知识的认证,包括一门考试和一门培训课程,助您做好准备。 CCNA培训课程和考试最近面向最新技术和工作岗位进行了重新调整,为您提供了向任何方向发展事业所需的基础。CCNA认…...
监控内容、监控指标、监控工具大科普
在现代信息技术领域,监控技术扮演着至关重要的角色。它帮助我们实时了解系统、网络、应用以及环境的状态,确保它们的安全、稳定和高效运行。以下是对监控内容、监控指标和监控工具的详细科普。 一、监控内容 监控内容是指监控系统所关注和记录的具体信…...
生成文件夹 - python 实现
生成文件夹保存图片和文本等信息。 代码具体实现如下: #-*-coding:utf-8-*- # date:2021-04-13 # Author: DataBall - XIAN # Function: 生成文件夹import os if __name__ "__main__":path "./dataset"if not os.path.exists(path): # 如果…...
快速了解学会python基础语言及IDLE 提供的常用快捷键
😀前言 本篇博文是关于python的基础语言介绍及IDLE 提供的常用快捷键,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的…...
【python】OpenCV—Sort the Point Set from Top Left to Bottom Right
文章目录 1、功能描述2、代码实现3、效果展示4、更多例子5、参考 1、功能描述 给出一张图片,里面含有各种图形,取各种图形的中心点,从左到右从上到下排序 例如 2、代码实现 import cv2 import numpy as npdef process_img(img):img_gray c…...
LeetCode 1493.删掉一个元素以后全为1的最长子数组
题目: 给你一个二进制数组 nums ,你需要从中删掉一个元素。 请你在删掉元素的结果数组中,返回最长的且只包含 1 的非空子数组的长度。 如果不存在这样的子数组,请返回 0 。 思路:不定长滑动窗口,将问题…...
php常用设计模式之工厂模式
引言 在日常开发中,我们一些业务场景需要用到发送短信通知。然而实际情况考虑到不同厂商之间的价格、实效性、可能会出现的情况等 我们的业务场景往往会接入多个短信厂商来保证我们业务的正常运行,而不同的短信厂商(如阿里云短信、腾讯云短信…...
通用软件版本标识
软件版本标识:了解不同的版本类型 在软件开发和发布过程中,版本号和标识扮演着重要的角色。它们不仅帮助开发者追踪软件的演变,还让用户了解软件的稳定性和功能。以下是一些常见的软件版本标识,以及它们的含义和用途。 Alpha&am…...
智慧树网课自动化学习插件:三步告别手动刷课的完整指南
智慧树网课自动化学习插件:三步告别手动刷课的完整指南 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台冗长的网课视频而烦恼吗࿱…...
Cursor对话历史导出扩展:基于DOM逆向的AI协作数据备份方案
1. 项目概述:一个为开发者解放生产力的“数据保险箱”如果你和我一样,日常重度依赖 Cursor 这款 AI 编程神器,那你一定有过这样的焦虑:那些与 AI 深度对话产生的宝贵上下文、精心调教出的项目特定提示词、甚至是 AI 帮你重构的代码…...
CursorLearn2API:基于AI辅助编程的本地代码自动化部署为云端API实践
1. 项目概述:从本地代码到云端API的自动化桥梁最近在折腾一个挺有意思的项目,叫gmh5225/cursorlearn2api。乍一看这个标题,可能有点摸不着头脑,但如果你是一个经常在本地用 Cursor 这类 AI 辅助编程工具写代码,同时又想…...
LLM函数调用工程化:从基础概念到智能体框架设计实战
1. 项目概述:从“函数调用”到智能体交互的范式演进最近在GitHub上看到一个名为“SKY-lv/function-calling”的项目,这个标题乍一看平平无奇,甚至有些过于直白。但作为一名长期混迹在AI应用开发一线的工程师,我立刻嗅到了一丝不寻…...
云工场科技成为海淀3x3超级争霸赛与无锡杯官方算力支持伙伴
真正的速度,从来不只是快。5月,北京海淀3x3超级争霸赛与无锡杯篮球赛相继启动。云工场科技(HK.02512)以“官方算力支持伙伴”身份参与赛事合作,将算力服务能力带到赛场现场。一个多元化、速度与城市活力;一…...
5分钟实现专业级3D高斯泼溅渲染:Unity场景重建终极指南
5分钟实现专业级3D高斯泼溅渲染:Unity场景重建终极指南 【免费下载链接】UnityGaussianSplatting Toy Gaussian Splatting visualization in Unity 项目地址: https://gitcode.com/gh_mirrors/un/UnityGaussianSplatting 想象一下,你花费数小时扫…...
从零到一:ESP8266-12F最小系统板MQTT固件烧录实战
1. 为什么选择ESP8266-12F最小系统板? 很多朋友刚开始接触物联网开发时,都会选择NodeMCU这样的开发板。确实,NodeMCU自带USB转串口芯片,插上电脑就能直接烧录程序,对新手特别友好。但当你真正想把项目做成产品时&#…...
论文降 AI 软件红黑榜!这 3 类是套壳 ChatGPT 改完 AI 率反涨 30% 别用
论文降 AI 软件红黑榜!这 3 类是套壳 ChatGPT 改完 AI 率反涨 30% 别用 每年毕业季都有同学跑来问我——「学姐我花了 200 块买的降 AI 工具,降完之后送知网检测 AI 率反而涨了 30 个点,怎么回事?」这不是段子,是 202…...
解放双手还是重复劳动?AzurLaneAutoScript 让你的碧蓝航线游戏体验全面升级
解放双手还是重复劳动?AzurLaneAutoScript 让你的碧蓝航线游戏体验全面升级 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoS…...
AutoGen多角色协作内幕:如何在对话中实现复杂任务的自动分解
AutoGen多角色协作内幕:对话式复杂任务自动分解的底层原理与工程实现 关键词 AutoGen、多智能体协作、任务自动分解、大语言模型对话系统、多角色工作流、LLM编排、工具调用集成 摘要 本文从第一性原理出发,系统拆解微软AutoGen框架中多角色协作下的复杂任务自动分解机制…...
