CVPR 2025 | 文本和图像引导的高保真3D数字人高效生成GaussianIP
小小宣传一下CVPR 2025的工作GaussianIP。
arXiv:https://arxiv.org/abs/2503.11143
Github:https://github.com/silence-tang/GaussianIP
欢迎star, issue~
摘要
文本引导的3D人体生成随着高效3D表示及2D升维方法(如SDS)的发展而进步。然而,当前的方法存在训练时间长且结果往往缺乏细腻的面部和服装细节的问题。本文提出了GaussianIP,一个有效的两阶段框架,用于从文本和图像提示中生成保持身份特征的高真实度3D人体模型。我们的核心见解是利用以人类为中心的知识来促进生成过程。在第一阶段,我们提出了一种新颖的自适应人体蒸馏采样(AHDS)方法,可以快速生成与图像提示具有高身份一致性的、外观真实的3D人体模型。相比传统的SDS方法,AHDS更好地符合以人为中心的生成过程,在显著减少训练步骤的同时提升了视觉质量。为了进一步提升脸部和衣物区域的视觉质量,我们在第二阶段设计了一个视图一致性细化(VCR)策略。具体来说,它通过相互注意力和距离引导注意力融合,迭代地产生来自第一阶段多视角图像的细节增强结果,确保跨视角的3D纹理一致性。然后可以通过直接使用refine后的图像执行重建任务,从而获得优化后的3D人体。广泛实的验表明GaussianIP在视觉质量和训练效率上均优于现有方法,特别是在生成保持身份特征的结果方面表现突出。我们的代码已开源。
方法

Adaptive Human Distillation Sampling
Gaussian Initialization
在SMPL-X neutral的mesh表面密集地采样100000个空间位置作为三维人体高斯的初始位置,其余属性的初始化参考HumanGaussian。
Distillation Sampling with Human-centric Prior
由于3D人类生成任务的独特性,直接从通用扩散先验中蒸馏可能不是最佳选择。因此,GaussianIP结合了一个专注于面部特征的扩散模型和姿态条件控制网络(ControlNet),创建了一个特定于人类的扩散先验。为了准确表示不同视角下面部特征(如眼睛、耳朵等)的可见性,本方法采用了一种视视角感知的姿态骨架修剪策略。
在训练过程中,GaussianIP通过重新设计原始SDS的得分差异提出了人体蒸馏采样(HDS)引导机制,以充分利用给定的文本和图像条件。这种方法将得分差异 分解为校正项 和条件项 ,并根据不同的时间步长应用不同的得分差异建模策略。通过我们重新设计的得分差异,生成的人体面部会更加真实,没有过饱和的问题,并且与给定的身份图像提示具有较好的对齐程度。
Adaptive Human-specific Timestep Scheduling

为了加速3D人体生成的训练过程,我们提出了一种自适应的人体特定时间步长调度策略。这一策略专为3D人体生成任务量身定制,通过构建非递增的时间步长与训练步骤(t-i)曲线,使得整个生成过程更加高效且精确。
我们将整个3D人体生成流程自然划分为三个协同阶段:首先是几何形状和基础纹理的建立,接着是中级纹理的发展,最后是精细面部特征及服装细节的完善。针对每个阶段,我们分配了特定的时间步长范围,以确保更多的训练步骤被用于模型几何结构的建立和复杂细节的表现上,而过渡阶段则相对减少步骤需求。
为了达到理想的训练效果,我们采用了一个经过优化的权重概率密度函数(PDF),即双段高斯函数WDG(t; s1, s2, T),来表示时间步长的概率分布。这不仅有助于避免过大的初始时间步长导致的过度模糊,也防止了过小的时间步长引起的梯度方差过高问题。通过解决一个优化问题,我们确定了最佳参数设置,确保每个阶段的累积概率符合预期的训练步骤比例。
此外,为了确保不同阶段间的平滑过渡并防止纹理过度饱和,我们为每个阶段设定了下限值,并在这个范围内采样最终的时间步长。AHDS可减少大约30%的训练步骤,并提升了生成结果的视觉质量。
View-consistent Refinement Mechanism
我们设计一种为了解决由AHDS训练结果中可能存在的轻微纹理平滑问题而设计的refine策略。该机制旨在进一步增强基于AHDS训练结果的细节表现,并确保多视角图像间的一致性。
首先,我们提出了关键视图细化(Key Views Refinement)方法,通过将主视图(前、后、左、右)的注意力键值注入到特定关键视图的去噪过程中,保证关键视图与主视图之间外观的一致性。为了避免因不可见区域特征导致的纹理漂移,我们扩展了自注意力键值,使得两个视图可以互相作为参考。
其次,为了实现相邻关键视图间平滑过渡的细化效果,我们设计了一个中间特征传播(Intermediate Features Propagation)过程。此过程根据相对距离引导注意力融合,将相邻关键视图的注意力特征融合进中间视图的去噪过程中,以确保中间视图具有与其邻近视图一致的高纹理一致性。
最终,这些经过细化且在纹理和语义上相互对齐的多视角图像,可以直接应用于第一阶段生成的3D人体高斯优化,通过直接应用重建损失来进一步提升模型质量。整个视图一致性细化机制不仅提升了服装等细节的表现力,同时也增强了不同视角下视觉效果的一致性和真实性,从而提高了整体3D人体模型的质量。
实验
定性比较

定量比较

相关文章:
CVPR 2025 | 文本和图像引导的高保真3D数字人高效生成GaussianIP
小小宣传一下CVPR 2025的工作GaussianIP。 arXiv:https://arxiv.org/abs/2503.11143 Github:https://github.com/silence-tang/GaussianIP 欢迎star, issue~ 摘要 文本引导的3D人体生成随着高效3D表示及2D升维方法(如SDS)的发展…...
MySQL密码修改的全部方式一篇详解
本文将详细介绍多种修改MySQL密码的方式。 本文目录 一、alter user 语句操作步骤 二、set password操作步骤 三、直接修改 mysql.user表操作步骤 一、alter user 语句 当你以 root 用户或者拥有足够权限的用户登录 MySQL 时,可以使用 ALTER USER 语句来修改密码。…...
Cursor从小白到专家
文章目录 1:简单开发一个贪吃蛇游戏规则设置提示词 cursor开发小工具开发整体步骤创建.cursorrules输入提示词composer模式chat模式 执行cursor accept all发布到线上进行分享 cursor开发一个浏览器插件创建.cursorrulescursor rules范例集工具 输入提示词执行curso…...
使用C++在Qt框架下调用DeepSeek的API接口实现自己的简易桌面小助手
项目背景 随着DeepSeek的爆火,最近的DeepSeek也进行了新一轮技术的更新,为了拥抱新时代,我们也要不断学习新的知识,难的底层原理我们接触不到,简单的调用还能难住我们? 因为在网络上搜集到的资源都是用Py…...
Kotlin 协程基础知识汇总(一)
1、协程基础 Kotlin 是一门仅在标准库中提供最基本底层 API 以便其他库能够利用协程的语言。与许多其他具有类似功能的语言不同,async 与 await 在 Kotlin 中并不是关键字,甚至都不是标准库的一部分。此外,Kotlin 的挂起函数概念为异步操作提…...
Deepseek训练成AI图片生成机器人
目录 内容安全层 语义理解层 提示词工程层 图像生成层 交付系统 训练好的指令(复制就可以) 内容安全层 理论支撑:基于深度语义理解的混合过滤系统 敏感词检测:采用BERT+CRF混合模型,建立三级敏感词库(显性/隐性/文化禁忌),通过注意力机制捕捉上下文关联风险 伦…...
关于MTU的使用(TCP/IP网络下载慢可能与此有关)
参考链接:告诉你mtu值怎么设置才能网速最好! -Win7系统之家 出现网络速度被限制,可能与MTU值相关,先查看下本机的MTU winR,然后输入:netsh interface ipv4 show subinterfaces ,查看自己网络中的MTU&…...
【信息系统项目管理师】【高分范文】【历年真题】论信息系统项目的风险管理
【手机端浏览】☞【信息系统项目管理师】【高分范文】【历年真题】论信息系统项目的风险管理 2023年上半年考题 【题目】 论信息系统项目的风险管理 项目风险管理旨在识别和管理未被项目计划及其他过程所管理的风险,如果不妥善管理,这些风险可能导致项…...
Debain-12.9使用vllm部署内嵌模型/embedding
Debain-12.9使用vllm部署内嵌模型/embedding 基础环境准备下载模型部署模型注册dify模型 基础环境准备 基础环境安装 下载模型 modelscope download --model BAAI/bge-m3 --local_dir BAAI/bge-m3部署模型 vllm serve ~/ollama/BAAI/bge-m3 --served-model-name bge-m3 --t…...
香橙派连接摄像头过程
在香橙派上下载NoMachine 在控制电脑上也下载NoMachine sudo nmcli dev wifi connect "你的WiFi名称" password "你的WiFi密码" 连接上wifi后就可以在NoMachine连上香橙派了 (不过前提是香橙派有安装桌面端系统(非仅窗口端&…...
Milvus学习整理
Milvus学习整理 一、度量类型(metric_type) 二、向量字段和适用场景介绍 三、索引字段介绍 (一)、概述总结 (二)、详细说明 四、简单代码示例 (一)、建立集合和索引示例 (二)…...
MySQL事务全解析:从概念到实战
在数据库操作中,事务是一个至关重要的概念,它确保了数据的完整性和一致性。今天,就让我们深入探讨MySQL事务的方方面面,从基础概念到实际应用,全面掌握这一技能。 一、为什么需要事务 假设张三要给李四转账100元&…...
重叠构造函数 、JavaBean模式、建造者模式、Spring的隐性大手
构造函数 重叠构造函数JavaBean模式建造者模式构造Spring看起来为什么简单番外篇为什么在JavaBean中 无参构造函数是必须的呢 小结 构造函数对我来讲是很平常的一个东西,今天来谈谈新的收获。 重叠构造函数 通常我们定义好实体类后,不会特意的去调整构造…...
题单:精挑细选
题目描述 小王是公司的仓库管理员,一天,他接到了这样一个任务:从仓库中找出一根钢管。这听起来不算什么,但是这根钢管的要求可真是让他犯难了,要求如下: 1.1. 这根钢管一定要是仓库中最长的; …...
GGUF 和 llama.cpp 是什么关系
这是个非常关键的问题,咱们来细说下:GGUF 和 llama.cpp 是什么关系,它们各自干什么,如何配合工作。 🔧 一、llama.cpp 是什么? llama.cpp 是 Meta 的开源大语言模型 LLaMA(Language Model from…...
手机怎么换网络IP有什么用?操作指南与场景应用
在数字化时代,手机已经成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,手机都扮演着至关重要的角色。而在手机的使用过程中,网络IP地址作为设备在互联网上的唯一标识符,其重要性和作用不容忽视。本文将…...
强化学习中的深度卷积神经网络设计与应用实例
I. 引言 强化学习(Reinforcement Learning,RL)是机器学习的一个重要分支,通过与环境的交互来学习最优策略。深度学习,特别是深度卷积神经网络(Deep Convolutional Neural Networks,DCNNs&#…...
软考程序员-操作系统基本知识核心考点和知识重点总结
以下是软考程序员考试中操作系统基本知识章节的核心考点和知识重点总结,结合历年真题和考试大纲整理而成: 一、操作系统基本概念与功能 定义与作用 操作系统是管理计算机软硬件资源的核心系统软件,负责协调程序执行、优化资源利用,…...
思源配置阿里云 OSS 踩坑记
按照正常的配置IAM,赋予OSS权限,思源笔记还是无法使用,缺少ListBuckets权限。 正常配置权限,又无法覆盖,因此需要手动配置权限。 {"Version": "1","Statement": [{"Effect":…...
科技赋能安全:慧通测控的安全带全静态性能测试
汽车的广泛普及给人们的出行带来了极大便利,但交通事故频发也成为严重的社会问题。据世界卫生组织统计,全球每年约有 135 万人死于道路交通事故,而安全带在减少事故伤亡方面起着不可替代的作用。正确使用安全带可使前排驾乘人员的死亡风险降低…...
记录修复一个推拉门滑轮
推拉门有个滑轮的固定螺丝不知什么时候掉了,也找不到,这就导致推拉门卡在轨道上。 这种滑轮在夕夕上很便宜,比哈罗单车还划算,但是现在缺的只是螺丝,如果买就会多出来一个轮… 这种螺丝比较长,大概是m4的…...
压缩壳学习
壳是什么 壳就是软件的一个保护套,防止软件被进行反编译或被轻易地修改。 其作用就是为了保护软件。 常见的大类壳有压缩壳、加密壳、VM 壳的分类。 压缩壳顾名思义就是用来减小软件的文件大小的;加密壳,通过加密软件来保护软件ÿ…...
深入理解 Linux ALSA 音频架构:从入门到驱动开发
文章目录 一、什么是 ALSA?二、ALSA 系统架构全景图核心组件详解:三、用户空间开发实战1. PCM 音频流操作流程2. 高级配置(asound.conf)四、内核驱动开发指南1. 驱动初始化模板2. DMA 缓冲区管理五、高级主题1. 插件系统原理2. 调试技巧3. 实时音频优化六、现代 ALSA 发展七…...
#13【CVPR2024】“不确定性不是敌人”:深入剖析多模态融合中的不确定性
📜 Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion 本文没有源码,适合基础好的读者 🍞 1:研究背景与问题定义 🍫 1.1 多模态融合的黄金承诺与现实落差 在人工智能的迅猛发展浪潮中,多模态学习(Multimodal Learning)扮演着越来越重要的角…...
使用 QR-Code-Styling 在 Vue 3 中生成二维码
使用 QR-Code-Styling 在 Vue 3 中生成二维码 1. 前言 二维码广泛应用于网站跳转、支付、身份认证等场景。普通的二维码较为单调,而 qr-code-styling 允许我们自定义二维码的颜色、Logo、样式,使其更具个性化。本文将介绍如何在 Vue 3 Element Plus 中…...
CCF-CSP认证 202206-2寻宝!大冒险!
题目描述 思路 有一张绿化图和藏宝图,其中绿化图很大(二维数组在限定的空间内无法存储),而藏宝图是绿化图中的一部分,对于绿化图和藏宝图,左下角的坐标为(0, 0),右上角的坐标是(L, L)、(S, S)&…...
Redis项目:秒杀业务(优化)
当用户发起请求,此时会请求nginx,nginx会访问到tomcat,而tomcat中的程序,会进行串行操作,分成如下几个步骤 1、查询优惠卷 2、判断秒杀库存是否足够 3、查询订单 4、校验是否是一人一单 5、扣减库存 6、创建订单…...
《Gradio Python 客户端入门》
《Gradio Python 客户端入门》 Gradio Python 客户端使将任何 Gradio 应用程序用作 API 变得非常容易。例如,考虑这个 Hugging Face Space,它转录从麦克风录制的音频文件。 使用该库,我们可以轻松地将 Gradio 用作 API 以编程方式转录音频文…...
仿函数 VS 函数指针实现回调
前提: 本博客对比 函数指针实现回调 和 仿函数 ,突出仿函数的优势。 目的: 一个类要能够灵活的调用两个函数,essfc 和 greaterfc,分别用于比较两个整数的大小: ①:lessfc:判断 x …...
MQTT的安装和使用
MQTT的安装和使用 在物联网开发中,mqtt几乎已经成为了广大程序猿必须掌握的技术,这里小编和大家一起学习并记录一下~~ 一、安装 方式1、docker安装 官网地址 https://www.emqx.com/zh/downloads-and-install/broker获取 Docker 镜像 docker pull e…...
