105、Zero-1-to-3: Zero-shot One Image to 3D Object
简介
官网

使用合成数据集来学习相对摄像机视点的控制,这允许在指定的摄像机变换下生成相同对象的新图像,用于从单个图像进行三维重建的任务。
实现流程
输入图像 x ∈ R H × W × 3 x \in \R^{H \times W \times 3} x∈RH×W×3,所需视点的相对摄像机旋转和平移 R ∈ R 3 × 3 , T ∈ R 3 R\in \R^{3 \times 3},T \in \R^3 R∈R3×3,T∈R3,合成视点图像的函数公式表示为:

难点:
- 尽管在不同视点的大量对象上训练了大规模生成模型,但其表示并未明确编码视点之间的对应关系。
- 如下图所示,Stable Diffusion倾向于生成具有规范姿势的面向前方的椅子的图像

Learning to Control Camera Viewpoint
给定初始图像,目标图像及其相机位姿数据集 { ( x , x ( R , T ) , R , T ) } \{(x,x_{(R,T)},R,T)\} {(x,x(R,T),R,T)},如下图微调预训练的扩散模型,以便在不破坏其余表示的情况下学习对相机参数的控制。

扩散目标公式表示为:

View-Conditioned Diffusion
输入图像的CLIP嵌入与(R, T)连接,形成一个“pose CLIP”嵌入 c(x, R, T)。使用交叉注意来调节去噪的U-Net,它提供了输入图像的高级语义信息。输入图像与被去噪的图像进行通道连接,帮助模型保持被合成对象的身份和细节
3D Reconstruction
采用框架Score Jacobian Chaining (SJC)来优化具有文本到图像扩散模型先验的3D表示,SJC中使用的一项关键技术是将无分类器的引导值设置为显著高于通常值。这种方法减少了每个样本的多样性,但提高了重建的保真度。

如上图所示,输入图片 x,CLIP嵌入 c ( x , R , T ) c(x,R,T) c(x,R,T) 和时间 t,以便向无噪声输入 X π X_{\pi} Xπ 近似得分。

▽ L S J C \triangledown L_{SJC} ▽LSJC 是【Score jacobian chaining: Lifting pretrained 2D diffusion models for 3D generation】引入的PAAS分数。
使用MSE损失来优化输入视图,对每个采样视点应用深度平滑损失,对near-view consistency loss进行正则化,以规范nearby views 之间的变化。
实验
使用Objaverse 数据集(100K+艺术家创建的800K+ 3D模型),对于数据集中的每个对象,随机采样12个指向对象中心的相机外部矩阵,并使用光线追踪引擎渲染12个视图,训练时,每个对象的两个视图形成一个图像对 ( x , x R , T ) (x, x_{R,T}) (x,xR,T)。对应的相对视点变换(R, T)定义了两个透视图之间的映射,可以很容易地从两个外部矩阵中导出。



相关文章:
105、Zero-1-to-3: Zero-shot One Image to 3D Object
简介 官网 使用合成数据集来学习相对摄像机视点的控制,这允许在指定的摄像机变换下生成相同对象的新图像,用于从单个图像进行三维重建的任务。 实现流程 输入图像 x ∈ R H W 3 x \in \R^{H \times W \times 3} x∈RHW3,所需视点的相…...
scala 安装和创建项目
Scala,一种可随您扩展的编程语言:从小型脚本到大型多平台应用程序。Scala不是Java的扩展,但它完全可以与Java互操作。在编译时,Scala文件将转换为Java字节码并在JVM(Java虚拟机)上运行。Scala被设计成面向对…...
Python办公自动化 – 自动化文本翻译和Oracle数据库操作
Python办公自动化 – 自动化文本翻译和Oracle数据库操作 以下是往期的文章目录,需要可以查看哦。 Python办公自动化 – Excel和Word的操作运用 Python办公自动化 – Python发送电子邮件和Outlook的集成 Python办公自动化 – 对PDF文档和PPT文档的处理 Python办公自…...
如何在Win10电脑接收苹果手机日程提醒呢?
有很多小伙伴手机使用的是iPhone苹果手机,但办公电脑使用的win10系统的电脑,这时候如果想要在win10电脑上同步接收苹果手机上设置的日程提醒,该怎么操作呢?如何在win10电脑接收苹果手机日程提醒呢? 如果你设置的日程提…...
227.【2023年华为OD机试真题(C卷)】小明找位置(二分查找-JavaPythonC++JS实现)
🚀点击这里可直接跳转到本专栏,可查阅顶置最新的华为OD机试宝典~ 本专栏所有题目均包含优质解题思路,高质量解题代码(Java&Python&C++&JS分别实现),详细代码讲解,助你深入学习,深度掌握! 文章目录 一. 题目-小明找位置二.解题思路三.题解代码Python题解代…...
【现代密码学】笔记3.4-3.7--构造安全加密方案、CPA安全、CCA安全 《introduction to modern cryphtography》
【现代密码学】笔记3.4-3.7--构造安全加密方案、CPA安全、CCA安全 《introduction to modern cryphtography》 写在最前面私钥加密与伪随机性 第二部分流加密与CPA多重加密 CPA安全加密方案CPA安全实验、预言机访问(oracle access) 操作模式伪随机函数PR…...
服务器带宽有什么用? 带宽不足怎么办?
服务器带宽是指服务器能够接收和传输数据的速率,通常以每秒传输的数据量来衡量。它是支持特定应用服务器网络和因特网(Internet)访问的单一网络线路,对网络速度、响应时间、应用程序处理速度等方面都有影响。 服务器带宽有什么作…...
Alphafold2蛋白质结构预测AI工作站配置推荐
AlphaFold2计算特点 蛋白质三维结构预测是一项计算量非常巨大的任务,科学家多年的探索研究,形成了X射线晶体学法、核磁共振法、冷冻电镜等。 2021年底,谷歌的DeepMind团队的采用人工智能方法的AlphaFold2算法在生物界引起了极大的轰动…...
如何让ArcGIS Pro启动显示空白页面
刚接触ArcGIS Pro的你是否会觉得在操作上有那么一些不习惯,从一开始软件启动就发现和ArcGIS差距很大:丰富的欢迎页面,加上默认加载的地图让你眼花缭乱,这里教你如何去掉这些繁杂的内容,还你一个干净的启动页面。 跳过…...
超市账单管理系统产品数据新增Servlet实现
超市账单管理系统产品数据新增Servlet实现 package com.test.controller; import java.io.IOException; import java.util.List; import javax.servlet.ServletException; import javax.servlet.http.HttpServlet; import javax.servlet.http.HttpServletRequest; import ja…...
计算机组成原理之计算机硬件发展和计算机系统的组成
学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…...
《JVM由浅入深学习【七】 2024-01-11》JVM由简入深学习提升分享
亲爱的读者们,欢迎来到本篇博客,这是JVM第七次分享,下面是七个JVM常用常面的分享,请笑纳 目录 1. 几个与JVM 内存相关的核心参数2.如何计算一个对象的大小3.堆为什么要分为新生代和老年代4.JVM堆的年轻代为什么要有两个 Survivor…...
Golang leetcode142 环形链表 暴力map 快慢指针法
文章目录 环形链表 leetcode142暴力遍历 map哈希记录快慢指针法 环形链表 leetcode142 该题目要求找到入环的第一个节点 我们可以通过map进行记录,没到新的节点查询是否经过原有节点 入环节点,上两个节点的next相同 若有入环节点,则一定能检…...
基于java,springboot的论旅游管理系统设计与实现
环境以及简介 基于java,springboot的论旅游管理系统设计与实现,Java项目,SpringBoot项目,含开发文档,源码,数据库以及ppt 源码下载 环境配置: 框架:springboot JDK版本:JDK1.8 服…...
掌握视频节奏,玩转剪辑艺术!,轻松调整视频播放速度与秒数的技巧大揭秘
你是否经常觉得视频播放得太快或太慢,无法满足你的观看需求?或者想要控制视频的长度,却不知道该如何下手?今天,我们将为你揭秘几种简单又实用的方法,让你轻松调整视频的播放速度和秒数! 首先&a…...
51单片机介绍
1 单片机简介 单片机,英文Micro Controller Unit,简称MCU 内部集成了CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能 单片机的任务是信息采集(依靠传感器)、处理(依靠CPU)和硬件设…...
k8s存储卷之动态
动态pv需要两个组件 1、卷插件,k8s本身支持的动态pv创建不包含NFS,需要声明和安装一个外部插件 Provisioner 存储分配器,动态创建pv,然后根据pvc的请求自动绑定和使用 2、StorageClass,用来定义pv的属性,…...
base64 图片进行编码、解码;api调用
1、base64 图片进行编码、解码 编码 import base64# 假设您有一个图像文件,例如 image.jpg with open(r"C:\Users\l****1686722996428308480-1 (1).jpg", rb) as image_file:# 读取图像文件的二进制数据image_data image_file.read()# 将二进制数据编码…...
鸿蒙OS应用开发之百分比显示组件
前面学习了动态加载的组件,在本文里将要学习百分比显示组件,这个组件可以把数据按百分比的情况进行图形显示出来。百分比图形显示还是很有用的,比如一个班里学生的成绩占比,还有软件项目开发进度的情况,还有软件下载进度等等。 在鸿蒙系统里定义这个组件接口如下: DataP…...
网络多线程开发小项目--QQ登陆聊天功能(私聊群发)
9.1.4、QQ登陆聊天功能(私聊群发) 9.1.4.1、私聊功能 1、需求说明 2、思路分析 3、代码实现 QQClient: 1)cn.com.agree.qqclient.QQView.QQView case "3":log.debug("请输入想给谁发消息(在线用户):");St…...
紫光同创FPGA网络摄像头方案中,RGMII转GMII模块的Verilog实现与调试避坑指南
紫光同创FPGA网络摄像头方案中RGMII-GMII转换模块的深度解析与实战指南 当你在调试紫光同创FPGA网络摄像头方案时,是否遇到过这样的场景:PHY芯片与FPGA之间的物理层连接已经建立,但网络数据始终无法正常传输?或者上位机接收到的视…...
7步掌握listmonk API认证:从令牌生成到权限验证实战指南
7步掌握listmonk API认证:从令牌生成到权限验证实战指南 listmonk是一款高性能、自托管的新闻通讯和邮件列表管理器,具有现代化的仪表板,采用单一二进制应用形式。本文将详细介绍如何通过7个简单步骤掌握listmonk的API认证,包括令…...
大语言模型驱动SVG代码生成:原理、实践与应用前景
1. 项目概述:当大语言模型遇上SVG图形生成最近在开源社区里,一个名为“ximinng/LLM4SVG”的项目引起了我的注意。这个项目名字直译过来就是“用于SVG的大语言模型”,它瞄准了一个非常具体且有趣的交叉领域:利用大语言模型来生成或…...
命令行集成AI代码审查:基于Gemini的Git工作流自动化实践
1. 项目概述:当命令行遇上代码审查在开发者的日常工作中,代码审查是保证代码质量、促进知识共享的关键环节。然而,传统的代码审查流程往往伴随着频繁的上下文切换:你需要离开终端,打开浏览器,登录代码托管平…...
ViGEmBus:终极Windows游戏控制器模拟解决方案,彻底改变游戏输入体验
ViGEmBus:终极Windows游戏控制器模拟解决方案,彻底改变游戏输入体验 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 在游戏开发和输入…...
《流浪的梦想家》的传播入口:漂泊感如何形成记忆点
从内容传播角度看,《流浪的梦想家》的入口在两个词的拉扯:流浪意味着还在路上,梦想家意味着心里仍有方向。这个反差足够形成记忆点。这首歌不适合被写成空泛远方。更准确的场景,是一个人背着行李、换城市、换工作、或者在深夜车窗…...
3大核心功能解密:HS2-HF_Patch如何让Honey Select 2游戏体验焕然一新
3大核心功能解密:HS2-HF_Patch如何让Honey Select 2游戏体验焕然一新 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 如果你正在玩Honey Select 2却…...
Ship-Score:自动化项目健康度评估工具的设计、实现与工程实践
1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫cwklurks/ship-score。乍一看这个标题,你可能会有点摸不着头脑,这“ship-score”到底是个啥?是给船打分?还是某种评分系统?作为一个在软件开…...
环境科学家都在偷偷用的NotebookLM技巧(2024中科院实测TOP5插件清单)
更多请点击: https://codechina.net 第一章:NotebookLM在环境科学研究中的范式变革 传统环境科学研究长期受限于多源异构数据整合困难、跨学科知识理解门槛高、因果推断缺乏可解释性支持等瓶颈。NotebookLM 作为基于用户自有文档构建的语义增强型AI协作…...
从鱼眼到广角:相机畸变公式的实战拆解与参数调优
1. 相机畸变:从鱼眼到广角的视觉魔法 第一次用鱼眼镜头拍照片时,我被画面边缘夸张的弯曲效果震撼到了——直线变成了弧线,方形门框变成了圆润的拱门。这种"变形魔法"其实就是相机畸变最直观的体现。作为算法工程师,我花…...
