当前位置: 首页 > news >正文

CVPR 2024最佳论文候选-pixelSplat论文解读

目录

一、概述

二、相关工作

1、单场景下的视角合成

2、基于先验的三维重建和视图合成

3、多视图几何测量

三、3DGS的缺点

1、容易陷入最小值

2、需要大量输入图像

3、尺度模糊性

四、pixelSplat

1、解决尺度模糊性(深度信息生成)

2、编码器

3、外极线采样

4、外极线注意力机制

5、GS预测头

五、数据集

六、实验

1、评价指标

2、深度正则化

3、相机的高斯分布转换为世界空间

4、三视图对重构


一、概述

        本文提出一种前馈模型pixelSplat,可以从输入图像对中重建参数化为3D高斯模型的辐射场,并具有实时和内存高效的渲染能力,可以实现可扩展的训练和快速的3D重建。

(1)为了克服稀疏和局部支持表示固有的局部最小值问题,该模型预测了一个密集的 3D 概率分布,并通过重参数化技巧从该概率分布中采样高斯均值,从而使梯度可以反向传播到高斯溅射表示中 。

(2)提出了一种前馈模型pixelSplat,使得从图像对中重建3DGS辐射场。

(3)重建了一个可解释和可编辑的3DGS辐射场。

二、相关工作

1、单场景下的视角合成

        对于单视图深度估计方面,使用微分器反向传播图像空间光度误差来创建三维场景表示。

        早期的方法采用体素网格和学习渲染技术,而最近的方法更多使用神经网络和体渲染方法。

        但这些方法依赖于高计算需求,而离散的数据不能实时渲染一个pixel,使用3DGS可以通过三维高斯表示辐射场的方式,解决这个问题。

基于学习的渲染

        基于学习的渲染使用机器学习算法生成RGBA体积(RGB+alpha不透明度),然后通过光线投射算法进行渲染,没有学习的参数,而一般的神经网络+体渲染的方法存在大量的参数,导致可解释性困难。

2、基于先验的三维重建和视图合成

        这一部分考虑从每个场景少量的图像中实现三维重建以及新视图合成。

        首先是提供一些先验,比如深度图作为代理几何信息,然后与图像渲染结合,得到不错的三维重建。

        另外使用神经网络来直接回归多平面图像,来实现小的视角合成。

        对于大视角的生成,需要完整的三维重建,早期的基于神经辐射场的工作职能将三维场景编码成隐式编码,而且仅限于单个物体的场景。

        对于无界场景,考虑到使用像素对齐特征来保持端到端的局部性和变换偏移,另外也通过transformer来进行泛化。

        另外收到多视图立体视觉的启发,神经网络也与成本体积相结合,来匹配更多不同视角的特征,但最近的光场场景用可解释性换取更快地渲染,而我们的论文提到了一个可解释的3D场景表示,同时保证渲染质量和速度。

3、多视图几何测量

        多视图几何测量,是指从多个视角获取的图像中恢复3D场景的几何信息,这也通常存在尺度模糊性的问题。

        而在该论文,提出了一种基于双视图编码器的方法,通过利用沿着像素对应的极线的深度信息,来记录场景的真实尺度,从而在3D重建和视图合成中恢复到正常的尺度,解决尺度模糊性的问题。

三、3DGS的缺点

1、容易陷入最小值

        由于Gaussian的几何结构参数(论文称为primitive,包括均值、均方差、不透明度、球谐系数,用于建立3DGS场景辐射场)在空间中移动时,梯度会迅速消失。在3DGS算法中使用了自适应密度控制方法来解决这个问题,但在泛化场景中并不适用(无界场景)。

2、需要大量输入图像

        3DGS算法需要数十张图片,才能实现高质量视角合成。

3、尺度模糊性

        由于3DGS是使用Sfm进行初始化点云的,而没有考虑深度问题,所以只能保持比例一致性,不能保证场景尺度一致,不能得到真实尺度。

四、pixelSplat

        下图为pixelSplat的网络结构。由单一图片的编码器、外极线采样、外极线注意力机制和GS预测头四部分构成。

1、解决尺度模糊性(深度信息生成)

        使用双视角来计算第一视角的图片的深度,之后进行位置编码作为Attention的位置编码。

        原理:

(1)假设两个图像分别是I\tilde{I},我们将对于I图像的每一个像素点利用\tilde{I}的视角来标注对应的深度关系。

(2)对于第二张图像\tilde{I}的每个像素坐标u,根据其相机射线在第一张图像的投影,得到对应的外极线。

(3)在第二张图像\tilde{I}上沿着外极线(epipolar line)采样一系列像素\tilde{u}_l,并根据三角测量计算出该像素点到第一张图像相机原点的距离\tilde{d}_{\tilde{u}l},作为深度信息。

(4)将深度信息进行位置编码\gamma(\cdot)作为后续attention的位置编码的输入。

2、编码器

        对于输入的双视角图片分别进行编码,同时使用resnet(被DINO预训练过的backbone)以及DINO VIT-B/8作为编码器。

        resnet50以图片作为输入,输出不同layers的特征。

        DINO VIT-B/8以图片的全局信息输入到一个MLP结构中输出整个图像的上下文或全局特征,另外输入图像中的除了全局token外的局部区域信息到同样的一个MLP,得到局部区域信息。

        之后对他们进行concat并上采样得到图像的特征。

3、外极线采样

        通过计算深度信息后,将深度信息编码后叠加到第二个图像的特征上作为key和value,第一个图像的特征作为query,作为后续多头注意力机制的输入。

4、外极线注意力机制

        看图就行。先一次多头注意力机制然后一次第一张图片的自注意力机制,重复两遍。对第一张图片的输出特征用来后续的3DGS原语的预测。

5、GS预测头

(1)首先将外极线注意力机制的输出特征输入到一个神经网络中,输出四个参数,一般来说会预测三个高斯模型,并取三个高斯模型的并集,而下面我们只对一个高斯模型进行介绍

        \phi:离散深度概率分布的参数向量,表示对每个深度桶z的离散概率分布p_{\phi}(z)

        \delta:偏移向量,用于调整采样后得到的深度值

        \Sigma:3D高斯的协方差矩阵

        S:3D高斯的球谐系数。

(2)深度桶:将深度空间离散化为多个深度区间桶。设定近平面d_{near}和远平面d_{far},在这两个平面之间离散化为Z个深度桶,每个深度桶z对应一个深度值b_z。通过计算可以看到第0个桶是d_{near},第Z个桶是d_{far}(这个东西不太理解!)

        b_z=((1-\frac{z}{Z})(\frac{1}{d_{near}}-\frac{1}{d_{far}})+\frac{1}{d_{far}})^{-1}

(3)高斯椭球位置计算\mu,其中o是原始位置,b_z代表深度值,\delta_z代表第z个桶的偏移量,由神经网络预测出来,d_u是根据相机内参和外参计算出来的3D光线方向向量,u是光线上的采样点坐标位置。

        \mu=o+(b_z+\delta_z)d_u

        d_u=TK^{-1}[u,1]^T

        原来的高斯椭球位置预测会存在陷入局部最小值的方法,过去的3DGS算法预测μ时,由于3DGS与正确位置的距离超过几个标准差的时候梯度就会消失,另外就算足够接近正确位置,也需要存在一条沿着损失函数单调递减的路径才能到达最终位置,所以本文提出了一种新的方法。

(4)不透明度计算\alpha,根据采样概率计算不透明度\alpha =\phi_z

五、数据集

1、RealEstate10k

        一个YouTube上的家庭步行视频组成的数据集,从1万个Youtube视频中收集到大约8万个视频片段,对应1000万帧。

2、ACID

        由航拍景观视频组成的数据集

这两个数据集均由SfM软件计算的相机姿态,后续也使用这两个数据集进行训练和评估。

六、实验

1、评价指标

        PSNR:(Peak Signal-to-Noise Ratio,峰值信噪比)评估图像质量的客观指标,衡量的是图像中信号强度和噪声强度的比值,PSNR越高,图像质量越好。

        PSNR=10 \times log_{10}(\frac{Max_1^2}{\sqrt{MSE}}),其中Max_1^2代表图片可能得最大像素值。

        SSIM:(Structural Similarity Index,结构相似性指数) 是一种评估图像质量的指标,它考虑了图像的亮度、对比度和结构三个方面。SSIM值越接近1,表示两幅图像越相似。

        SSIM公式以前写过。

        LPIPS:(Learned Perceptual Image Patch Similarity,感知相似性) 是一种基于深度学习的图像质量评估指标,它能够更好地模拟人类视觉感知。LPIPS值越小,表示两幅图像越相似。

        LPIPS使用预训练的卷积神经网络,一般是VGG和AlexNet,同时提取不同层的特征,并计算L2距离或者相似度度量,然后对不同层的特征差异计算加权求和,权值通过学习得到。

2、深度正则化

        对于模型进行5w次的微调,并计算深度正则化损失L_{reg.depth},对于每一个渲染的视角,我们生成一个对应的深度图D,并且计算深度图D的损失。

        分别计算深度图D在x轴和y轴方向的深度梯度,以及计算原图像在x轴和y轴方向的梯度。并且计算深度正则化损失。

        另外也做了消融实验,证明深度正则化损失是有效的。 

3、相机的高斯分布转换为世界空间

        其中D_R代表球谐函数的转换矩阵Wigner D矩阵。

4、三视图对重构

        三视图对重构效果一定是好于二视图对的,有显著的提升,但是数据量的增加可能会对内存造成影响。

参考文献: https://arxiv.org/abs/2312.12337

参考代码:https://github.com/dcharatan/pixelsplat

相关文章:

CVPR 2024最佳论文候选-pixelSplat论文解读

目录 一、概述 二、相关工作 1、单场景下的视角合成 2、基于先验的三维重建和视图合成 3、多视图几何测量 三、3DGS的缺点 1、容易陷入最小值 2、需要大量输入图像 3、尺度模糊性 四、pixelSplat 1、解决尺度模糊性(深度信息生成) 2、编码器…...

在Android中如何切割一张图片中的不规则“消息体/图片/表情包等等”?

在Android应用中,判断一张图片中“消息体”的大小,可以通过图像处理技术来实现。主要的步骤包括:将图像转换为灰度图,进行二值化处理,接着使用轮廓检测或边缘检测来识别消息体的边界,最后计算消息体的大小。…...

Jenkins+Ant+Jmeter接口自动化集成测试

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、Jenkins安装配置 1、安装配置JDK1.6环境变量; 2、下载jenkins.war,放入C:\jenkins目录下,目录位置随意; J…...

JavaSE——集合4:List接口实现类—LinkedList

目录 一、LinkedList的全面说明 二、LinkedList的底层操作机制 (一)LinkedList添加结点源码 (二)LinkedList删除结点源码 三、LinkedList常用方法 四、ArrayList与LinkedList的选择 一、LinkedList的全面说明 LinkedList底层实现了双向链表和双端队列的特点可以添加任意…...

FPGA图像处理之三行缓存

文章目录 一、前言二、FPGA实现三行缓存的架构三、Verilog代码实现四、仿真验证五、输入图像数据进行仿真验证 一、前言 在 FPGA 做图像处理时,行缓存是一个非常重要的一个步骤,因为图像输入还有输出都是一行一行进行的,即处理完一行后再处理…...

10月15日,每日信息差

第一、《哈利・波特与魔法石》在中国内地总票房突破 3 亿元,包括 2002 年首映的 5600 万,2020 年重映的 1.923 亿,以及 2024 年重映的 5170 万。 第二、全国铁路实施新货物列车运行图,增开城际班列至 131 列,多式联运…...

4G、5G通信中,“网络侧“含义

在5G通信中,"网络侧"这个术语可以指代不同的网络元素,具体取决于上下文。通常,网络侧可以包括以下两个主要部分: 基站(gNB): 基站是无线接入网(RAN)的一部分&a…...

spring boot核心理解-各种starter

理解 Spring Boot 的 Starter 机制以及如何选择和使用各种 starter,是开发 Spring Boot 应用的重要一环。Spring Boot Starter 是一组方便的依赖组合,用于简化 Spring 项目中的依赖管理。它们可以帮助开发者快速引入所需的库和自动配置,从而加…...

解决海外社媒风控问题的工具——云手机

随着中国企业逐步进入海外市场,海外社交媒体的风控问题严重影响了企业的推广效果与账号运营。这种背景下,云手机作为一种新型技术解决方案,正日益成为企业应对海外社媒风控的重要工具。 由于海外社媒的严格监控,企业经常面临账号流…...

全能PDF工具集 | PDF Shaper Ultimate v14.6 便携版

软件简介 PDF Shaper是一款功能强大的PDF工具集,它提供了一系列用于处理PDF文档的工具。这款软件使用户能够轻松地转换、分割、合并、提取页面以及旋转和加密PDF文件。PDF Shaper的界面简洁直观,使得即使是新手用户也能快速上手。它支持广泛的功能&…...

Maven入门

Maven Maven Wrapper 版本一致性: Maven Wrapper 允许你在项目中指定一个特定的 Maven 版本。这意味着所有开发人员和 CI/CD 环境都将使用相同版本的 Maven,从而避免由于版本不一致导致的问题。 简化设置: 新开发者克隆项目时&#xff0c…...

Chromium 中window.DOMParser接口说明c++

一、DOMParser DOMParser 可以将存储在字符串中的 XML 或 HTML 源代码解析为一个 DOM Document。 备注: XMLHttpRequest 支持从 URL 可寻址资源解析 XML 和 HTML,在其response 属性中返回Document。 你可以使用XMLSerializer 接口执行相反的操作 - 将…...

linux 安装gitlab

安装环境 CentOS 7.7 (centos6.10会报错)2g内存防火墙关闭 安装步骤: 1 安装gitlab # yum install -y git curl policycoreutils-python openssh-server # 安装依赖 # wget https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-10.2.2-ce…...

java基础(5)继承与多态

目录 ​编辑 1.前言 2.正文 2.1继承 2.1.1继承概念 2.1.2继承语法 2.1.3子类访问父类 2.1.4super关键字 2.2多态 2.2.1多态概念 2.2.2多态条件 2.2.3重写 2.2.4向上转型与向下转型 2.2.5为什么要使用多态 3.小结 1.前言 哈喽大家好啊,今天继续来为大…...

Flink消费Kafka实时写入Doris

本文模拟实际生产环境,通过FileBeat采集日志信息到Kafka,再通过Flink消费Kafka实时写入Doris。 文章目录 Filebeat采集日志到KafkaFlink消费Kafka实时写入Doris总结 Filebeat采集日志到Kafka 常见的日志采集工具有以下几种:Flume、Logstash和…...

实现Web QQ音乐打开现有新标签页切换音乐

若没有打开播放音乐标签页&#xff0c;则打开新标签页播放所选音乐如果已打开新标签页&#xff0c;则直接切换所选音乐 pageA.vue <script setup lang"ts"> const tab2 ref<any>(null); const router useRouter();interface Track {id: number;name: …...

从底层结构开始学习FPGA(15)----时钟结构(通俗版)

目录 0、前言 1、IO Bank和Clock Region(时钟区域)是一个东西吗? 2、时钟输入管脚 3、时钟架构 3.1、全局时钟BUFG 3.2、水平时钟BUFH 3.3、IO时钟BUFIO 3.4、区域时钟BUFR/BUFMR 4、总结 《从底层结构开始学习FPGA》目录与传送门 0、前言 我思来想去,总觉…...

MacOS Sublime Text 解决中乱码

1. 安装Package Control 官方安装指南 手动安装 通过以此点击菜单 Sublime Text > Preferences > Browse Packages 打开Packages目录找到Packages的同级目录Installed Packages下载PackageControl.sublime-package并保存到Installed Packages中在菜单 Sublime Text &g…...

Python画笔案例-084 绘制 3D立方体

1、绘制 3D立方体 通过 python 的turtle 库绘制 3D立方体,如下图: 2、实现代码 绘制 3D立方体,以下为实现代码: import turtle import timeviewfactor = 150 xshift = 0 yshift = 0 zshift = 50...

“八股文”面试:助力、阻力还是空谈?

在当今的IT行业&#xff0c;面试程序员时提及“八股文”已成为一种普遍现象。所谓“八股文”&#xff0c;通常指的是一系列固定的、标准化的面试问题及其解答&#xff0c;这些问题往往涵盖了计算机科学和软件工程的基础知识&#xff0c;以及一些流行的技术框架和算法。然而&…...

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用&#xff0c;操作系统&#xff1a;Ubuntu24.04&#xff0c;Neofj版本&#xff1a;2025.04.0。 Apt安装 Neofj可以进行官网安装&#xff1a;Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

JVM垃圾回收机制全解析

Java虚拟机&#xff08;JVM&#xff09;中的垃圾收集器&#xff08;Garbage Collector&#xff0c;简称GC&#xff09;是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象&#xff0c;从而释放内存空间&#xff0c;避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流&#xff0c;定义在 <sstream> 中&#xff1a; std::istringstream&#xff1a;输入流&#xff0c;从已有字符串中读取并解析。std::ostringstream&#xff1a;输出流&#xff0c;向内部缓冲区写入内容&#xff0c;最终取…...

今日科技热点速览

&#x1f525; 今日科技热点速览 &#x1f3ae; 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售&#xff0c;主打更强图形性能与沉浸式体验&#xff0c;支持多模态交互&#xff0c;受到全球玩家热捧 。 &#x1f916; 人工智能持续突破 DeepSeek-R1&…...

Angular微前端架构:Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例&#xff0c;其中使用的是 Module Federation 和 npx-build-plus 实现了主应用&#xff08;Shell&#xff09;与子应用&#xff08;Remote&#xff09;的集成。 &#x1f6e0;️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

计算机基础知识解析:从应用到架构的全面拆解

目录 前言 1、 计算机的应用领域&#xff1a;无处不在的数字助手 2、 计算机的进化史&#xff1a;从算盘到量子计算 3、计算机的分类&#xff1a;不止 “台式机和笔记本” 4、计算机的组件&#xff1a;硬件与软件的协同 4.1 硬件&#xff1a;五大核心部件 4.2 软件&#…...

零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程

STM32F1 本教程使用零知标准板&#xff08;STM32F103RBT6&#xff09;通过I2C驱动ICM20948九轴传感器&#xff0c;实现姿态解算&#xff0c;并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化&#xff0c;适合嵌入式及物联网开发者。在基础驱动上新增…...

tauri项目,如何在rust端读取电脑环境变量

如果想在前端通过调用来获取环境变量的值&#xff0c;可以通过标准的依赖&#xff1a; std::env::var(name).ok() 想在前端通过调用来获取&#xff0c;可以写一个command函数&#xff1a; #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...