106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation
简介

很多工作在扩散先验中注入跨视图一致性,但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。
实现过程

简单而言,论文工作是 Dreamfusion+Zero123。
使用两种不同的分数蒸馏进行监督:文本条件下的多视图扩散模型(维护文本的多视图一致性)和图像条件下的新视图扩散模型(维护视图之间的一致性)。
对于3D表示,实现了threeststudio的隐式体积方法,该方法由多分辨率哈希网格和用于预测体素密度和RGB值的MLP网络组成
文本条件下的多视图扩散模型

对一组相机姿势 c 进行采样,并渲染这些视图 x = g(φ, c),称之为参考视图,视图 x 的选择使它们彼此正交。对于每个视图,采样一个时间步长 t,并计算扩散过程 z t i z^i_t zti 的正演过程,给定文本 y 和NeRF渲染的带噪视图集 z t z_t zt,文本条件扩散模型 x ^ θ 1 ( z t ; y , c , t ) \hat{x}_{θ_1} (z_t;y, c, t) x^θ1(zt;y,c,t) 计算分数函数 w.rt 到 z t z_t zt,得到一个向高密度区域的更新方向。
使用MVDream 的预训练模型作为多视图扩散模型
图像条件下的新视图扩散模型

将其作为额外的监督来指导不同的视图,并确保细粒度的多视图一致性。在相机位姿 c j c_j cj渲染额外的视图 x j x_j xj ,计算表示从相机位置 i 到 j 的相对相机外部 c ( j → i ) c^{(j→i)} c(j→i)。公式中,图像条件扩散模型以渲染图像 x j x_j xj 和相对相机外部 c ( j → i ) c^{(j→i)} c(j→i)作为条件。从均匀分布中抽样 t 。训练模型计算新视图 z t i z^i_t zti 的分数函数,记为 x ^ θ 2 ( z t i ; x j , c ( j → i ) , t ) \hat{x}_{\theta_2}(z^i_t;x^j,c^{(j\rightarrow i)},t) x^θ2(zti;xj,c(j→i),t)
使用Zero-1-to-3 提供的Zero123-xl作为图像条件扩散模型
score distillation
总的分数函数如下:

式中 λ t λ_t λt 和 λ i λ_i λi 分别为文本扩散模型和图像扩散模型的比例因子
实验
在视图选择方面,首先随机选择视场(fov)在[15,60]和高度在[0,30]之间的摄像机,用于多视图扩散模型,相机距离设置为物体大小(0.5)乘以NDC焦距和一个随机缩放因子,范围为[0.8,1.0],从上述集合中随机选择视图作为新视图扩散模型的参考视图。对于每个参考视图,在应用新的视图图像条件扩散模型之前,选择一个具有相同视场和海拔在[- 30,80]之间的额外随机摄像机。对于多视图模型和新视图模型,批处理大小分别从8和12开始,然后在5000次迭代后减少到4和4
3D模型使用AdamW 优化器优化10000步。哈希网格和MLP组件的学习率分别设置为0.01和0.001。应用分数蒸馏采样,在前8000步中,最大和最小时间步分别从0.98减少到0.5和0.02。损失尺度因子λt和λi均设为1.0。渲染分辨率从64×64开始,在5000步之后增加到256×256。多视角模型和新视角模型的指导尺度分别为50.0和3.0。



相关文章:
106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation
简介 很多工作在扩散先验中注入跨视图一致性,但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。 实现过程 简单而言,论文工作是 DreamfusionZero123。 使用两种不同的分数…...
MAC通过终端,使用python3建立本地Web服务
实现局域网Web服务,很简单几句命令,一起看看。 1. 我相信你已经有 brew(Homebrew 包管理器) 了对么? 如果没有可以执行这个方法 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"2. 安…...
闲鱼宝库亮相!闲鱼商品详情关键词搜索电商API接口助你畅享无尽好货!
随着互联网的快速发展,电商平台的崛起已经改变了人们的购物习惯。而在众多电商平台中,闲鱼作为一款社区二手交易平台,一直备受用户喜爱。如今,闲鱼宝库正式亮相,为用户带来了更加全面、详细的商品详情关键词搜索电商AP…...
后台生成随机验证码验证登录
web get请求获取图片 <div class"p2"><img id"imgId" src"/get/code"><a href"#">看不清,换一张</a> </div> 后台代码: /*获取动态验证码*/ ResponseBody RequestMapping(value "/…...
常见的HTTP接口超时问题出现原因及解决办法
HTTP接口超时问题是指在HTTP请求发送到服务器后,由于等待服务器响应的时间超过了预设的超时时间,导致请求被中断。以下是可能导致HTTP接口超时问题的原因和解决方法: 网络延迟或不稳定:网络延迟或不稳定可能导致请求在传输过程中…...
Pandas实战100例 | 案例 54: 日期时间运算
案例 54: 日期时间运算 知识点讲解 当处理带有 datetime 类型数据的 DataFrame 时,Pandas 提供了多种方法来提取和计算日期时间组件。这包括提取年份、月份、日期、星期几以及小时等。 提取日期时间组件: 使用 .dt 访问器,可以从 datetime 类型的列中…...
SDL2 连续帧图像显示
QT使用SDL多窗口显示视频(linux,ubuntu)_linux qt sdl-CSDN博客 QT使用SDL播放YUV视频 - C - QT C 使用SDL显示RGB图像数据_c sdl-CSDN博客 SDL库入门:掌握跨平台游戏开发和多媒体编程_sdl开发-CSDN博客 SDL教程零基础入门 简单…...
回归预测 | MATLAB实现SSA-CNN-GRU-Attention多变量回归预测(SE注意力机制)
回归预测 | MATLAB实现SSA-CNN-GRU-Attention多变量回归预测(SE注意力机制) 目录 回归预测 | MATLAB实现SSA-CNN-GRU-Attention多变量回归预测(SE注意力机制)预测效果基本描述程序设计参考资料 预测效果 基本描述 1.Matlab实现SSA…...
使用composer构建软件包时文件(夹)权限设置
在构建软件包的时候你可能会需要对包源内文件或文件夹的权限做出相应的调整,以确保软件包在部署到客户端后可以正常运行。在此之前我们先来了解一下Apple文件系统内文件或文件夹的权限设定。 常见的文件或文件夹会有Owner, Group, Everyone这三种类型的所有权&#…...
【C#】面向对象的三大特性,还记得吗,简单代码举例回顾
欢迎来到《小5讲堂》 大家好,我是全栈小5。 这是《C#》序列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握。…...
235.【2023年华为OD机试真题(C卷)】机器人搬砖(二分查找-JavaPythonC++JS实现)
🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目二.解题思路三.题解代码Python题解代码JAVA题解…...
git hooks
介绍 当我们在执行git管理仓库代码时,想规范下每个用户的commit内容?想检查下提交的代码规范?想检查下PR是否通过,那么这个时候就需要用到git hooks,git hooks可以在我们进行git操作的关键时机插入我们想要执行的“脚…...
法规更新美国玩具标准ASTM F963-17有更新,最新标准为ASTM F963-23
美国材料试验协会 (ASTM)在10月13日发布了新的玩具安全标准:ASTM F963-23,ASTM F963-17美国联邦法规16 CFR 1250还在使用当中,出口美国的玩具的厂商要引起重视。 ASTM F963-17是什么标准? ASTM F963-17是美国玩具检测标准&#…...
【grpc】利用protobuf实现java或kotlin调用python脚本,含实现过程和全部代码
前言 在一些特殊场景中,我们可能需要使用java或者其他任意语言调用python脚本或sdk等。本文的需求衍生也不例外于此,python端有sdk,但只能在python中调用,于是就有了本文章。 常见的调用方式如jython、python提供http rest接口、…...
Linux网络 ----- 网络文件共享服务之FTP服务
引言 FTP服务是Internet上最早应用于主机之间进行数据传输的基本服务之一。是目前Internet上使用最广泛的文件传送协议 一、FTP概述 FTP(File TransferProtocol,文件传输协议)是典型的C/S架构的应用层协议,需要由服务端软件、客户端软件两个部分共同实…...
如何避免知识付费小程序平台的陷阱?搭建平台的最佳实践
随着知识经济的兴起,知识付费已经成为一种趋势。越来越多的人开始将自己的知识和技能进行变现,而知识付费小程序平台则成为了一个重要的渠道。然而,市面上的知识付费小程序平台琳琅满目,其中不乏一些不良平台,让老实人…...
第89讲:MySQL数据库迁移方面需要考虑的因素以及XBK企业级备份参数
文章目录 MySQL数据库迁移方面需要考虑的因素1.MySQL数据库迁移方面要考虑的因素2.MySQL5.6升级到5.7版本的方法3.MySQL迁移到其他数据库的方法4.为什么要从XBK备份中还原某张表的数据5.从XBK备份中还原某张表的数据6.XtrBackup企业级备份参数 MySQL数据库迁移方面需要考虑的因…...
Python爬虫经典实战项目——电商数据爬取!
电商数据采集爬虫背景 在如今这个网购风云从不间歇的时代,购物狂欢持续不断,一年一度的“6.18年中大促”、“11.11购物节”等等成为了网购电商平台的盛宴。在买买买的同时,“如何省钱?”成为了大家最关心的问题。 比价、返利、优…...
Qt 快捷键设置
以 “在编辑时自动补齐”快捷键 为例: 位置:红色 搜索快捷键:蓝色 修改方式:绿色 快捷键:黄色...
【C++】取整函数ceil(),floor(),round()
使用 //引入头文件 #include <cmath> //函数使用 double around(double x) double afloor(double x) double aceil(double x) 结果取值 floor(x) 返回是小于或等于x的最大整数,如floor(-9.9)-10,floor(9.9)9;若为整数,最后的结果等于本…...
PvZWidescreen深度解析:Rust实现的植物大战僵尸宽屏改造实战指南
PvZWidescreen深度解析:Rust实现的植物大战僵尸宽屏改造实战指南 【免费下载链接】PvZWidescreen Widescreen mod for Plants vs Zombies 项目地址: https://gitcode.com/gh_mirrors/pv/PvZWidescreen 在游戏修改领域,宽屏支持一直是提升经典游戏…...
终极ModTheSpire指南:如何轻松为《杀戮尖塔》添加无限模组
终极ModTheSpire指南:如何轻松为《杀戮尖塔》添加无限模组 【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 想要让《杀戮尖塔》的爬塔体验焕然一新?ModTheSpire这…...
AI与机器学习在软件测试中的实战应用与工具选型指南
1. 项目概述:当AI遇见软件测试,一场效率革命正在发生干了十几年软件测试,从最初的手动点点点,到后来的脚本录制回放,再到现在的持续集成流水线,我亲眼见证了测试这个行当的变迁。但说实话,最近几…...
基于开源大模型的自动化定性分析:GATOS工作流实践指南
1. 项目概述:当定性研究遇上开源大模型如果你做过定性研究,比如分析访谈记录、开放式问卷反馈或者社交媒体评论,你肯定对“主题分析”和“编码”这两个词又爱又恨。爱的是,它能让你从海量文本中提炼出深刻的、人性化的洞察&#x…...
R3nzSkin Failed to find pattern 根本原因与实战修复指南
1. 这不是“找不到特征码”的报错,而是皮肤加载器在向你发出求救信号“Failed to find pattern”——当你第一次在R3nzSkin控制台里看到这行红色报错时,大概率会本能地以为:“哦,又一个特征码匹配失败”,然后下意识去改…...
终极指南:使用Xenos实现Windows进程DLL注入的完整教程
终极指南:使用Xenos实现Windows进程DLL注入的完整教程 【免费下载链接】Xenos Windows dll injector 项目地址: https://gitcode.com/gh_mirrors/xe/Xenos 在Windows系统开发和安全研究中,DLL注入技术是实现进程监控、调试和功能扩展的核心手段。…...
本地化RAG系统构建:从原理到实践,赋能大型系统开发与运维
1. 项目概述:当RAG遇上大型系统开发在大型计算系统的开发与运维中,我们常常面临一个经典困境:系统日益复杂,文档堆积如山,但当你需要快速定位一个特定配置的来龙去脉,或是排查一个偶发的异常时,…...
量子机器学习在网络安全中的实践评估:从数据加载瓶颈到系统化分析框架
1. 量子机器学习在网络安全中的应用:从理论加速到现实瓶颈量子机器学习(QML)这几年在学术界和工业界都挺火的,尤其是在网络安全这种数据量大、计算复杂度高的领域。大家总说量子计算能带来指数级加速,听起来像是解决一…...
C#中预处理器指令的实现示例
1. 什么是编译器?编译器是一种将高级编程语言代码(如 C#、Java、Python)翻译成计算机可执行代码(如机器码或中间语言)的程序。它的核心作用包括:语法检查:验证代码是否符合语言规范。优化&#…...
保姆级避坑指南:在Ubuntu 20.04上搞定TensorRT 8.2.5.1和CUDA 11.3的版本匹配
深度解析Ubuntu 20.04下TensorRT 8.2.5与CUDA 11.3的兼容性实战在深度学习模型部署的实践中,TensorRT作为NVIDIA推出的高性能推理优化器,能够显著提升模型执行效率。然而,版本兼容性问题常常成为开发者面临的首要挑战。本文将聚焦Ubuntu 20.0…...
