数字人全拆解:如何构建一个基于大模型的实时对话3D数字人?
简单地说,数字人就是在数字世界的“人”。当前语境下我们谈到的数字人通常指的是借助AI技术驱动的虚拟世界人物,具备与真实人类相似甚至接近的外形、感知、交互与行为能力。
AI技术在智能数字人的应用中举足轻重,特别是随着大模型能力的涌现,一个完整的数字人系统是一个融合多种AI能力、形象设计、建模、高性能渲染引擎等多种计算机技术的综合体。
本文将一起来认识一个完整的交互式数字人系统的结构、原理与相关工具。并借助开源的数字人项目Fay,演示一个简单的基于LLM的实时对话的3D数字人。
-
**你也能懂:数字人是如何工作的?
** -
创造躯体:3D数字人建模与开发
-
赋予智慧:构建数字人的控制器
-
数字人系统的优化挑战

你也能懂:数字人是如何工作的
一个完整的交互式数字人系统的整体架构可以用下图来表示:

即使对于一个非专业技术人员,这个系统原理也并不难理解:
语音输入与识别:这是数字人能“听”的基础。这部分借助于自动语音识别(ASR)技术来完成,将语音输入首先转化为自然语言的文本。通常可以借助在线云服务来完成,或者部署本地ASR模型来实现。
AI交互处理:**这是交互型数字人的“大脑”功能。**在大语言模型(LLM)出现以后,其给数字人赋予了真正的智慧与灵魂。借助LLM,理解自然语言的输入,并推理生成需要响应的内容。
**语音合成:****这是数字人能“说”的基础。**在获得文本的响应内容后,为了让数字人能够用语音“说话”,需要借助语音合成(TTS)的AI模型来把文本转化为音频流。在这个阶段,为了让数字人更像“人”,会涉及到合成音色的选择,甚至采用真人语音来训练合成模型(还记得AI孙燕姿吗?)。
**数字人驱动:****这一步就是用合成的音频流等数据来驱动已经创建好的前端数字人,让数字人边“说”边“动“,**包括声音、动作、表情。根据数字人的不同类型,这可能需要借助不同的引擎或者AI模型。比如:
-
如果你使用大名鼎鼎的MetaHuman建模高细节的3D数字人,则需要借助Unreal虚幻引擎来驱动;
-
如果你希望用简单的照片来做2D数字人,则可以借助一些语音驱动图片生成视频的模型来实现,比如SadTalker;
-
如果你希望基于自己的真人视频训练出模型,来实现从语音合成真人视频,那么可以借助RAD-NeRF这样的训练框架;
**数字人:这是终端呈现出的虚拟数字人形象与动画视频,可以是3D或者2D。**比如一个3D高保真的数字人最常见的是借助Metahuman做建模,然后通过Unreal引擎导入模型进行渲染与运行。

显然,一个完整的交互式数字人系统需要有效地集成不同的模型、引擎与工具,才能最终呈现完美的效果。
让我们首先来简单了解前端3D数字人的创建过程。
创造躯体:3D数字人建模与开发
我们经常提到的一些任务机器人,一般只是一个能够自动工作的计算机程序。但数字人的特点是需要一个具体的虚拟人物形象,并且这个形象能够像“人”一样能说会动。因此,对于数字人项目来说,首当其冲的是需要准备这样的虚拟人物。这其中最逼真、应用场景最广泛,而且也是最复杂的,是3D高保真高解析度数字人,创建这样的虚拟人你需要完成形象设计、建模、动画制作,以及定义在虚拟场景中的行为逻辑(类似游戏场景)。
这里我们用著名的游戏引擎Unreal Engine系列工具来认识3D数字人的制作过程:
-
**头部模型。**如果你需要使用自己独特的头部模型,可以借助于三维建模工具来创建自己的头部模型并导出。
-
**形象建模。**通过MetaHuman Creator进行数字人本体的建模设计,你可以导入自己的头部模型,也可以选择内置的形象,然后可以对数字人的各种面容、表情、姿态等进行细节调整与制作。(类似游戏里的“捏脸”)

- **动画与行为逻辑设计。**启动Unreal引擎的设计环境,导入已经制作的MetaHuman数字人模型,进行数字人动画、交互行为逻辑等设计,你甚至可以借助iPhone手机捕捉你自己的真人面部表情并将其用于数字人。

这个步骤是数字人设计的核心。借助UE提供的一种可视化编辑环境与脚本语言,你无需太多编程知识,就可以创建数字人的行为逻辑,比如控制角色在场景里的动作等。当然,作为交互式数字人最重要的环节也需要在这里进行定义:如何接受音频流、情绪数据等信息来驱动数字人说话、唇形甚至动作。
借助iPhone实现面部表情捕捉并用于数字人:

本图片来自Unreal官方网站
可视化的设计数字人的交互行为逻辑:

- **数字人打包运行。**在完成上述工作以后,可以将整个数字人工程通过打包成一个可执行的应用程序运行,这样你就能看到一个正在运行的,包含丰富细节的3D数字人。
现在,我们直接下载Fay开源项目中已经完成的一个UE5数字人工程用于测试:
1. 安装Unreal引擎环境
进入https://www.unrealengine.com/官网,下载EpicGames Launcher安装包,并注册账号;下载完成后,根据提示自行安装即可。
运行已经安装的程序,安装Unreal引擎版本,建议安装5.0.3。此处安装包较大,注意留足够的空间。
2. 在Unreal商城中安装以下插件:
-
Json Blueprint
-
Blueprint WebSockets
-
MetaHuman SDK
-
MetaHuman Plugin
-
Runtime Audio Importer
3. 选择下载Fay开源项目中的一个数字人工程(github搜索fay-ue5),这里我们选择一个UE5版本的数字人。
4. **运行数字人。**下载完成后解压,双击fay_ue5.uproject文件会自动使用UE环境打开项目,点击运行按钮,即可以看到运行中的数字人:

5. 【可选】**数字人工程查看与编辑。**借助环境中的编辑器,可以看到数字人的相关行为逻辑,比如是如何借助websocket接收语音流并驱动数字人“说话”。如果你有兴趣驱动自己设计的数字人,可以参考此处的程序设计。

当然,此刻运行的数字人是无法互动的,原因是她目前只有“躯体”,还缺乏真正的智慧告诉她怎么与你互动,这也就是后端的数字人控制器。
赋予智慧:构建数字人的控制器
我们把前面的基本原理图稍稍细化下,这里的黄色部分就构成了数字人的控制器:

控制器作为数字人的大脑中枢,承担着借助各种AI技术来与真实人类完成最终交互所需的关键能力,并将输出通过数字人的语音、动作、表情进行呈现,从而完成整个交互闭环。
这里简单介绍每个模块构建的基础技术及可能选择:
【语音识别模块】
语音识别模块通过监听设备语音输入设备(麦克风),采集语音流,并借助ASR模型与接口实时转换为文本内容,用于后续交互处理模块。ASR接口的实现可以借助现成的API或者模型:
-
云端ASR API:讯飞、阿里云、百度、腾讯、OpenAI
-
本地ASR模型:百度的PaddleSpeech、ASRT、SpeechBrain、FunASR等,在本地部署A启动后,通过API本地访问即可
-
本地音频的采集处理可以借助Python的PyAudio库
【AI交互处理模块】
这是控制器的核心模块。在LLM出现以后,很容易想到借助其强大的自然语言理解与生成能力来做出更加自然的数字人响应,只需要简单的将语音识别出来的文本内容组装到Prompt,并调用大模型的API接口输出即可。
当然,对于企业客户来说,直接的LLM响应可能无法满足企业的实际需求,因此,借助RAG(检索增强生成)给LLM补充企业私有知识,以生成更个性化与企业相关的响应内容是一种常见的方案。
这个模块中常见的技术选择有:
-
云端LLM:文心一言、讯飞、阿里通义千问、OpenAI等
-
本地LLM:开源ChatGLM、通义千问开源版、Llama2中文版等
-
RAG应用:可以自行通过LangChain/LlamaIndex开发框架定制、或者借助FastGPT这样的RAG低代码平台直接构建,方便管理
-
另外一个有用的技巧是,在对接LLM时,可以借助类似One-API这样的工具搭建LLM模型池:在前端统一API接口,在后端对接多个大模型,从而可以支持随时灵活切换模型,而无需调整接口。

【语音合成模块】
AI响应生成以后的文本交给TTS模块,进行语音合成音频后用于后续驱动数字人的语音输出。为了让生成的语音更加自然与拟人,此处通常会涉及到两个额外的选项:
-
不同的声音风格选择(大部分的商业TTS服务都支持),有的TTS服务或开源模型还会支持上传个人音频,以训练个性化的声音输出
-
情绪识别。部分商业TTS服务(如微软Azure TTS)会直接支持带情绪识别的TTS;有的则需要你调用额外的情绪识别API生成情绪数据
这个模块中常见的技术选择有:
-
云端TTS服务:百度、阿里、微软等主流云服务商都提供TTS API服务
-
本地TTS服务:推荐微软的免费开源tts库edge-tts库
-
文字情绪分析:推荐借助python的一个中文情感分析库Cemotion来实现,也可以借助讯飞的在线API
【数字人通信】
这个模块用来把合成的音频流、情绪数据、甚至唇形数据传递给前端的数字人,用来驱动数字人的语音与动作输出。
在本文演示的Fay开源项目中,这部分由前端数字人项目中UE的WebSocket插件与后端控制器通过WebSocket通道来完成:将TTS模块生成的音频/情绪等数据发送给数字人,数字人使用收到的数据来合成动画视频,最后播放音视频给交互者。
现在,我们来下载 Fay开源项目控制器代码进行测试(这里采用最常见的助理版本,通常用来构建一问一答型的交互数字人):
-
下载Fay开源项目源代码(助理版)
-
安装依赖pip install -r requirements.txt(建议使用conda虚拟环境)
-
**执行python main.py启动控制器。**此时可以看到一个UI界面,提供了简单的直接文字对话测试的功能和一些设置,比如TTS声音的选择。
如果此时已启动前端UE数字人,就可以看到“数字人已连接”的提示(下图红框中):

4. **开启麦克风:**启动控制器的麦克风音频采集,这样,数字人就能够听到你的声音,并给予回复:

在控制器的后台,你可以完整的看到处理过程与日志:

数字人系统的优化挑战
上文我们使用一个开源的数字人项目Fay(再次感谢Fay项目的贡献者)来拆解并学习了一个完整的3D交互数字人的架构,并做了简单测试。但是请注意,这里只是一个演示基本工作流程的数字人,而在真实的企业应用中,根据数字人的应用场景,还有大量的需要个性化设计、优化与完善的环节,包括:
-
个性化的数字人形象设计与建模
-
数字人在复杂场景中的行为逻辑优化(比如直播)
-
**端到端流程的稳定性与性能优化。**这也是很多数字人系统面临的最大挑战。由于数字人运行流程涉及到多个较复杂的处理节点与AI模型,这也导致故障点的增多与更多的响应延迟,这对其中各环节的技术选择与工程化调优提出了很多的挑战。比如:
-
各类AI模型的选择与测试,云端OR本地,商业OR开源
-
ASR与TTS的稳定性、准确性与响应速度
-
如何兼顾大语言模型输出的完整与简洁性(语音不宜做过长的响应)
-
大语言模型输出的幻觉问题、多轮对话问题
-
RAG应用额外的Retriver以及更大的上下文理解带来的性能延迟
-
如何做出多模态的响应,比如介绍产品时能结合产品图片
-
…
这些都是在实际数字人工程中可能会面临的挑战,我们也期待有更多优秀的数字人开源项目与工程平台的出现。
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

相关文章:
数字人全拆解:如何构建一个基于大模型的实时对话3D数字人?
简单地说,数字人就是在数字世界的“人”。当前语境下我们谈到的数字人通常指的是借助AI技术驱动的虚拟世界人物,具备与真实人类相似甚至接近的外形、感知、交互与行为能力。 AI技术在智能数字人的应用中举足轻重,特别是随着大模型能力的涌现…...
实战 | 基于YOLOv10的车辆追踪与测速实战【附源码+步骤详解】
《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…...
2024北京智源大会
北京智源大会是年度国际性人工智能高端学术交流的盛会,定位于内行的AI盛会。智源大会紧密围绕当前人工智能学术领域迫切需要解决的问题,以及产业落地过程中存在的诸多挑战,开展深入探讨。智源研究院是2018年11月份成立的一家人工智能领域的新…...
youlai-boot项目的学习—本地数据库安装与配置
数据库脚本 在项目代码的路径下,有两个版本的mysql数据库脚本,使用对应的脚本就安装对应的数据库版本,本文件选择了5 数据库安装 这里在iterm2下使用homebrew安装mysql5 brew install mysql5.7注:记得配置端终下的科学上网&a…...
Android平台如何实现多路低延迟RTSP|RTMP播放?
技术背景 实际上,我们在2015年做Android平台RTSP、RTMP播放模块的时候,第一版就支持了多实例播放,因为SDK设计比较灵活,做个简单的player实例封装即可实现多实例播放(Android Unity的就有多路demo)&#x…...
深入探索Java开发世界:Java基础~类型分析大揭秘
文章目录 一、基本数据类型二、封装类型三、类型转换四、集合类型五、并发类型 Java基础知识,类型知识点梳理~ 一、基本数据类型 Java的基本数据类型是语言的基础,它们直接存储在栈内存中,具有固定的大小和不变的行为。 八种基本数据类型的具…...
短URL服务设计
引言 在营销系统里,为了增加系统的活跃用户数,经常会有各种各样的营销活动。这类活动几乎都是为了充分利用存量用户的价值,促使他们分享产品或App以达到触达到更多用户的目的。又或者是出于营销目的,群发优惠券触达短信这种场景。…...
Kafka集成flume
1.flume作为生产者集成Kafka kafka作为flume的sink,扮演消费者角色 1.1 flume配置文件 vim $kafka/jobs/flume-kafka.conf # agent a1.sources r1 a1.sinks k1 a1.channels c1 c2# Describe/configure the source a1.sources.r1.type TAILDIR #记录最后监控文件…...
如何让视频有高级感 高级感视频制作方法 高级感视频怎么剪 会声会影视频剪辑制作教程 会声会影中文免费下载
高质量视频通常具有清晰的画面、优质的音频和令人印象深刻的视觉效果。这篇文章来了解如何让视频有高级感,高级感视频制作方法。 一、如何让视频有高级感 要让视频有高级感,要注意以下几个要点: 1、剧本和故事性:一个好的剧本和…...
详解|访问学者申请被拒原因有哪些?
访问学者项目为全球科研人员提供了一个难得的机会,让他们能够跨越国界,深入不同的学术环境,进行学术交流和合作。然而,并非所有申请者都能如愿以偿地获得这一机会。本文将对访问学者申请中常见的被拒原因进行详细解析,…...
[鹤城杯 2021]BabyRSA
题目: from Crypto.Util.number import getPrime, bytes_to_long from secret import flagp getPrime(1024) q getPrime(1024) n p * q e 65537 hint1 p >> 724 hint2 q % (2 ** 265) ct pow(bytes_to_long(flag), e, n) print(hint1) print(hint2) p…...
西安市工业倍增引导基金子基金申报条件流程和材料程序指南(2024年)
一、基本情况 产业投资基金是以产业发展为首要目标,围绕经济社会发展规划和产业发展政策,发挥“有效市场”作用,支持重点领域、重点产业、重点区域(如:全市六大支柱产业、五大新兴产业领域成熟期重点规模以上企业以及“…...
微型丝杆的耐用性和延长使用寿命的关键因素!
无论是机械设备,还是精密传动元件,高精度微型丝杆是各种机械设备中不可或缺的重要组件。它的精度和耐用性直接影响着工作效率和产品品质,在工业技术不断进步的情况下,对微型丝杆的性能要求也越来越高,如何提升微型丝杆…...
音频文件下载后,如何轻松转换格式?
在我们日常的数字生活中,下载各种音频文件是司空见惯的事情。然而,有时候我们可能需要将这些音频文件转换为不同的格式,以适应不同的设备或编辑需求。无论您是希望将下载的音频文件转换为通用的MP3格式,还是需要将其转换为高保真的…...
Intel平台,13600KF+3060Ti,虚拟机安装macOS 14(2024年6月)
距离上次装macOS虚拟机已经有一段时间了,macOS系统现在大版本升级的速度也是越来越快了,由于Office只支持最新三个版本的macOS,所以现在保底也得安装macOS 12了,我这次是用macOS 14做实验,13和12的安装方式和macOS 14一…...
Cookie、Session、Token的关系和区别
关系 Session与Cookie:Session通常依赖于Cookie来工作。当服务器为客户端创建一个Session时,它会在服务器上存储与客户端相关的信息,并将一个唯一的SessionID通过Cookie发送给客户端。客户端在后续的请求中会携带这个Cookie(包含…...
Windows 11 中安装 Docker Desktop 并安装镜像
本该主要介绍在 Windows 11 中安装 Docker Desktop 时的一些准备工作,以及该如何下载和安装,然后分别使用管理界面和 Docker 命令安装两个镜像。 一、准备工作 在 Windows 11 中安装 Docker Desktop 前,需要做一些准备。打开 【Windows 功能…...
深入剖析Java线程池之“newWorkStealingPool“
1. 概述 newWorkStealingPool 是Java 8中引入的一个新型线程池,它基于ForkJoinPool实现,并采用了“工作窃取”(Work-Stealing)算法。这种线程池特别适用于可并行化且计算密集型的任务,能够充分利用多核CPU资源,提高任务执行效率。 2. 工作窃取算法(Work-Stealing Algor…...
《跟我一起学“网络安全”》——安全设备
安全设备 一、安全设备–IDS IDS入侵检测 (1)什么是入侵检测: 入侵检测系统(intrusion detection system,简称“IDS”)是一种对网络传输进行即时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。…...
猜测Tomcat如何实现WebSocket协议
一、WebSocket协议的实现 (一)WebSocket是官方的协议接口标准。 (二)如果一门编程语言可以网络连接和并发,就能创建一种WebSocket实现。 (三)同一种编程语言,有不同的协议实现版本和框架。 二、Tomcat实现 在Tomcat容器中实现了对应的WebSocket版本&am…...
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
Mac软件卸载指南,简单易懂!
刚和Adobe分手,它却总在Library里给你写"回忆录"?卸载的Final Cut Pro像电子幽灵般阴魂不散?总是会有残留文件,别慌!这份Mac软件卸载指南,将用最硬核的方式教你"数字分手术"࿰…...
【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...
解读《网络安全法》最新修订,把握网络安全新趋势
《网络安全法》自2017年施行以来,在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂,网络攻击、数据泄露等事件频发,现行法律已难以完全适应新的风险挑战。 2025年3月28日,国家网信办会同相关部门起草了《网络安全…...
C语言中提供的第三方库之哈希表实现
一. 简介 前面一篇文章简单学习了C语言中第三方库(uthash库)提供对哈希表的操作,文章如下: C语言中提供的第三方库uthash常用接口-CSDN博客 本文简单学习一下第三方库 uthash库对哈希表的操作。 二. uthash库哈希表操作示例 u…...
阿里云Ubuntu 22.04 64位搭建Flask流程(亲测)
cd /home 进入home盘 安装虚拟环境: 1、安装virtualenv pip install virtualenv 2.创建新的虚拟环境: virtualenv myenv 3、激活虚拟环境(激活环境可以在当前环境下安装包) source myenv/bin/activate 此时,终端…...
【Redis】Redis 的持久化策略
目录 一、RDB 定期备份 1.2 触发方式 1.2.1 手动触发 1.2.2.1 自动触发 RDB 持久化机制的场景 1.2.2.2 检查是否触发 1.2.2.3 线上运维配置 1.3 检索工具 1.4 RDB 备份实现原理 1.5 禁用 RDB 快照 1.6 RDB 优缺点分析 二、AOF 实时备份 2.1 配置文件解析 2.2 开启…...
夏普比率(Sharpe ratio)
具有投资常识的人都明白,投资光看收益是不够的,还要看承受的风险,也就是收益风险比。 夏普比率描述的正是这个概念,即每承受一单位的总风险,会产生多少超额的报酬。 用数学公式描述就是: 其中࿱…...
Vue3 hooks
export default function(){ let name; function getName(){ return name; } return {name,getName} } use it ----------------------------------------------- import useName from hooks/useName const {name,getName} useName(); 这段代码展示了一个自定义 Vue3钩…...
