[SIGGRAPH-23] 3D Gaussian Splatting for Real-Time Radiance Field Rendering

pdf | proj | code
- 本文提出一种新的3D数据表达形式3D Gaussians。每个Gaussian由以下参数组成:中心点位置、协方差矩阵、可见性、颜色。通过世界坐标系到相机坐标系,再到图像坐标系的仿射关系,可将3D Gaussian映射到相机坐标系,通过对z轴积分,可得到对应Splatting 2D分布。
- 针对3D Gaussians,提出对应的优化方法。去除可见性太低的高斯,对回传梯度较大的高斯,通过复制,克隆等操作,增强表达能力。
- 针对3D Gaussians,提出对应的光栅化方法。将图像切分为16 x 16的块,每个块内对高斯根据深度进行排序。光栅时,从前向后遍历,当可见性累加到某个阈值即停止。梯度回传时从停止块开始,有后向前遍历。
目录
摘要
引言
近期工作
Traditional Scene Reconstruction and Rendering
Neural Rendering and Radiance Fields
Point-Based Rendering and Radiance Fields
Overview
Differentiable 3D Gaussian Splatting
Optimization with Adaptive Density Control of 3D Gaussians
Fast Differentiable Rasterizer for Gaussians
Implementation, Results and Evaluation
Implementation
Results and Evaluation
Real-World Scenes
Synthetic Bounded Scenes
Ablations
Initialization from SfM
Densification
Unlimited depth complexity of splats with gradients
Anisotropic Covariance
Limitations
摘要
- NeRF效果好,但是训练和渲染很花时间;特别是对1080p分辨率渲染的场景,现有方法无法实现实时渲染。
- 本文引入三个关键部分,实现sota视觉质量、较短训练时间和1080p分辨率下新视角实时渲染。
- 3D Gaussians。通过camera calibration中产生的稀疏点进行初始化。这种新的3D表达形式在保存NeRF优点的同时,避免了空白空间不必要的计算开销;
- Optimization。实现3D Gaussian的交替优化和密度控制,优化各向异性协方差矩阵实现对场景的准确表达;
- Rendering。实现快速可见感知渲染算法(fast visibility-aware rendering algorithm),支持各向异性飞溅(anisotropic splatting),同时加速训练和渲染。
- 本文在多个数据集上,实现sota视觉质量和实时渲染。
引言
- Mesh和点云是最常用的3D场景表达,这种显式表达非常适合快速GPU/CUDA-based rasterization。另一方面,NeRF可建立连续的场景表达,用volumetric ray-marching优化MLP,实现新视角生成。基于NeRF的高效算法,通常会引入一些新的表达形式,用插值的方式实现连续表达,例如:体素(voxel),hash grids,或点云。这些方法效果不错,但是渲染中要求的随机采样计算开销大、并且会导致噪声。本文提出的方法:3D Gaussian可以实现sota的视觉质量和具有竞争力的训练时间;tile-based splatting solution可以实现1080p的实时渲染。
- 本文所提方法由三个主要部分组成。
- 3D Gaussians:通过Structure-from-Motion (SfM) 相机标定得到的稀疏点云初始化,对于NeRF-synthetic dataset,本文方法在随机初始化情况下,也可取得较好的结果。3D Gaussian的优点在于(a)可导的体表示;(b)通过映射至2D,实现高效栅格化;(c)可以实施标准的alpha-blending;
- 优化:提出一种优化3D Gaussians参数的方法,参数包括:3D position,opacity alpha,anisotropic covariance和球谐系数(spherical harmonic coefficients)。优化方法:交替执行密度控制步,在优化过程中增加或去除3D Gaussians。
- 渲染:提出一种快速GPU排序算法,受tile-based rasterization方法启发。实现各向异性纹理飞溅(anisotropic splatting),一种可见性排序(visibility ordering)。受益于排序和alpha-blending,可以实现快速和准确的反向传播。
近期工作
Traditional Scene Reconstruction and Rendering
- light fields (1996) -> Structure-from-Motion (SfM,2006) -> multi-view stereo (MVS,2007)
- MVS-based方法会重投影(re-project)并融合(blend)输入图片到新相机视角,使用几何引导重投影。
Neural Rendering and Radiance Fields
- Soft3D (2017,首次提出Volumetric representations) -> 将深度学习技术应用到volumetric ray-marching(2019)-> NeRF (2020,提出importance sampling和postional encoding,但是较大MLP影响了速度) -> MipNeRF360(2022,sota视觉效果,但训练和渲染时间太长)
- 为了加速训练或渲染,现有的探索集中在三个方向:稀疏数据结构存储特征,不同的编码器和MLP容量。其中,值得一提的方法是InstantNGP(2022),该方法使用hash grid和occupancy grid来加速计算,用一个较小的MLP表示密度和外观。Plenoxels(2022),使用稀疏体素网格,插值表示连续密度场,并且能够不使用MLP。
- 尽管上述方法产生了很好的结果,这些方法仍然不能高效表示空白区域。
Point-Based Rendering and Radiance Fields
-blending和体渲染(volumetric rendering)本质上是相同的成像模型。对于体渲染方法:

其中是密度,
是透光率,
是颜色,
是相邻采样点的间隙。
密度越大,
越接近1,该点越重要;之前点的密度和越大,
越大,该点越不重要。上式可以被重新组织为:

alpha-blending可以表示为:

其中,所有点根据前后关系排序,是该点颜色,
是该点所在2D高斯的概率密度乘以该点的不透明性(opacity)。
相较于之前的-blending栅格化方法,本文提出可见性(visibility)排序。另外,本文反向传播梯度到像素点中的所有splats,栅格化所有各向异性splats。
Overview
- Initialization:给定静态场景的一组图片,和对应经过SfM校准的相机参数,以及SfM在校准过程中产生的稀疏点云;
- 3D Gaussians:给定稀疏点云,初始化3D Gaussians,每个3D Gaussian由位置mean,协方差矩阵和不透明性
决定;辐射场中指向性外观部分(颜色),通过spherical harmonics (SH) 表征;
- Optimization:逐步优化3D Gaussians的参数:位置、协方差矩阵、
和SH系数;
- Rendering:tile-based rasterizer,支持根据可见性顺序的各向异性splats的
-blending

Differentiable 3D Gaussian Splatting
在世界坐标系下,3D Gaussians由三个系数定义:均值,3D协方差矩阵
和
:
![]()
将世界坐标系下的3D Gaussians转换到相机坐标下:
![]()
其中,是世界坐标系坐标到相机坐标系坐标的转换矩阵,
是透视变换的Jacobian矩阵。
参考:EWA Volume Splatting
- View transformation:将世界坐标系下坐标转换到相机坐标系。假设
是世界坐标系下坐标,
是相机坐标系下坐标,则有仿射变换
,可得
。
- Projective Transformation(透视变换):将相机坐标系下坐标转换到图像空间,该转换不是仿射变换。假设
是图像空间下坐标,则有
。由于该变换不是放射变换,因此考虑:
,得到局部放射近似,其中
。最终可得
。
协方差矩阵具有物理含义,需要满足半正定条件。考虑协方差矩阵描述了一个标准球体向椭球体的变化过程,对标准球体先放缩,再旋转
:
![]()
因此,缩放可以用三维向量描述,也即协方差矩阵的三个特征值。旋转其实是三个特征向量,它们两两正交且模为1,通过分析可由四维向量描述。
综上,一个3D Gaussian可由三个缩放系数、四个旋转系数、中心点位置和不透明率
表示。除了上述提到的参数外,本文还用SH系数表示颜色。
Optimization with Adaptive Density Control of 3D Gaussians
- 不透明率
通过sigmoid激活函数映射至0到1之间。
- 损失函数如下:

Gaussian的优化过程中,本文考虑以下两种情况:
异常:移除
小于阈值
的高斯。
- 梯度异常:梯度超过阈值
时,本文认为梯度异常,考虑存在under-reconstruction或over-reconstruction:
- under-reconstruction:Gaussians太小了,不能覆盖必要几何。本文考虑复制相同大小的Gaussian,新Gaussian放至位置梯度所指方向;
- over-reconstruction:对于方差太大的Gaussians,本文将其拆分为两个Gaussians,两个都缩放
,新Gaussian的位置通过在旧Gaussian中采样决定。
- 特殊情况:
- 漂浮物(floaters)会导致Gaussian密度的异常增加。本文提出,每
iter,将所有
设置为近似为0的值。在优化后,对于
没有增大的Gaussian,则根据前述规则去除掉。
- 对于具有非常大worldspace和相机坐标中具有较大footprint的Gaussian也会去除掉。
- 漂浮物(floaters)会导致Gaussian密度的异常增加。本文提出,每


Fast Differentiable Rasterizer for Gaussians
提出一种tile-based rasterizer
- 光栅化:
- 将屏幕划分为16 x 16块,一次性预排序所有primitives,避免针对每个像素排序的开销
- 仅保留有99%置信度的Gaussians
- 用保护带(guard band)拒绝极端位置的高斯,例如:距离平面太近,或在视锥体之外太远的高斯;
- 实例化高斯,并赋予每个高斯一个键值,包括视觉空间深度和块ID
- 根据键值排序高斯。对于每个块,得到一个根据深度由近到深排序的列表
- 在光栅化过程中,每个块使用一个线程去处理,每个线程首先将Gaussians加载到shared memory。对于给定像素点,从前往后遍历列表,根据
加权求和颜色。当
达到目标饱和值时,该进程停止,得到该像素点的颜色。
- 梯度回传:从最后一个点,从后往前遍历列表,选择对应的Gaussian反传梯度。
Implementation, Results and Evaluation
Implementation
Pytorch + 用于光栅化的custom CUDA kernels
Results and Evaluation
Real-World Scenes


Synthetic Bounded Scenes
- 30K迭代后,每个场景由200-500K Gaussians组成


Ablations

Initialization from SfM

Densification

Unlimited depth complexity of splats with gradients

Anisotropic Covariance

Limitations
- 对于缺乏训练数据的场景,存在失真,Mip-NeRF360也存在:

- 存在拉长失真(elongated artifacts),比较脏的高斯(splotchy Gaussians),Mip-NeRF360也有

- 相较于NeRF-based方法,内存开销大,需要20GB GPU memory
相关文章:
[SIGGRAPH-23] 3D Gaussian Splatting for Real-Time Radiance Field Rendering
pdf | proj | code 本文提出一种新的3D数据表达形式3D Gaussians。每个Gaussian由以下参数组成:中心点位置、协方差矩阵、可见性、颜色。通过世界坐标系到相机坐标系,再到图像坐标系的仿射关系,可将3D Gaussian映射到相机坐标系,通…...
大话设计模式C++实现
大话设计模式,讲得非常好,但是作者是用C#写的,为了方便C程序员,使用C写了大话设计模式的代码 详情见Github:https://github.com/liubamboo/BigTalkDesignPattern...
IT 领域中的主要自动化趋势
48%的IT自动化流程属于IT服务管理,过去一年中,IT运维自动化增长了272%。 IT部门从交付者转变为战略伙伴 今年的《工作自动化指数》数据显示,自动化正在蔓延到组织的各个部门,越来越多的部门采用自动化,并且IT以外的员工…...
使用Python解析CAN总线
缘起 在新能源车辆的开发和维护中,经常需要对CAN总线数据进行分析。CANOE等总线软件虽然方便,但功能有限,难以满足数据分析的要求。Matlab的Vehicle Network Toolbox可以方便的进行数据解析和分析,它是闭源且收费的。因此&#x…...
DevExpress中文教程 - 如何在macOS和Linux (CTP)上创建、修改报表(下)
DevExpress Reporting是.NET Framework下功能完善的报表平台,它附带了易于使用的Visual Studio报表设计器和丰富的报表控件集,包括数据透视表、图表,因此您可以构建无与伦比、信息清晰的报表。 DevExpress Reports — 跨平台报表组件&#x…...
RAID的应用场景以及优缺点
RAID 0(条带化): 工作原理: 数据被分成块,每个块写入不同的驱动器,以并行方式提高读写性能。 优势: 卓越的性能提升,特别是对于大型文件的读写操作。 劣势: 完全没有冗余,一个驱动器…...
java SpringCloud版本b2b2c鸿鹄云商平台全套解决方案 小程序商城免费搭建
使用技术: Spring CloudSpring BootMybatis微服务服务监控可视化运营 B2B2C平台: 平台管理端(包含自营) 商家平台端(多商户入驻) PC买家端、手机wap/公众号买家端 微服务(30个通用微服务如:商品、订单、购物车、个人中心、支…...
[Linux] shell脚本的函数和数组
一、函数 1.1 函数的定义 函数是脚本的别名 作用:函数可以避免代码重复,可读性强,可以简化脚本。 格式:函数名(){脚本} 1.2 如何使用函数 1.定义 2.调用 函数一定要先定义再使用 例子:…...
万宾科技智能井盖的效果怎么样?
日常出行过程中,人们最不想看到交通拥堵或者道路维修等现象,因为这代表出行受到影响甚至会导致不能按时赴约等。所以城市路面的安全和稳定,是市民朋友非常关心的话题。骑行在路上的时候,如果经过井盖时发出异常声响,骑…...
nvm切换版本之后npm用不了
原因是 nvm只给你安了对应的node没给你安装对应的node版本的npm 解决办法如下 1找到你安装的node版本号 然后去官网下载对应的版本包 这个网址就是node官网的版本列表 Index of /download/release/ 2下载后解压 把根目录这俩复制到自己的nvm安装目录下 还有那个node_modul…...
【elementui】el-popover在列表里循环使用,取消的doClose无效解决办法
目录 一、需求效果二、代码详情html方法接口 一、需求效果 在使用elementui的Popover 弹出框时,需求是在table列表里使用,循环出来,无法取消。 二、代码详情 html <el-table-column v-if"checkPermission([admin,user:resetPass…...
postgresql安装fdw扩展
最近有同一个服务器不同数据库、不同服务器数据库之间的数据同步需求,使用了fdw 下面举例的是同一个服务器两个不同数据库的同步情况 1、安装扩展 create extension postgres_fdw; 在需要使用fdw的数据库都加上该扩展 2、创建fdw服务器 mlhbase_prd库 CREATE…...
反爬虫机制与反爬虫技术(二)
反爬虫机制与反爬虫技术二 1、动态页面处理与验证码识别概述2、反爬虫案例:页面登录与滑块验证码处理2.1、用例简介2.2、库(模块)简介2.3、网页分析2.4、Selenium准备操作2.5、页面登录2.6、模糊移动滑块测试3、滑块验证码处理:精确移动滑块3.1、精确移动滑块的原理3.2、滑…...
Grails 启动
Grails系列 Grails项目启动 文章目录 Grails系列Grails一、项目创建二、可能的问题1.依赖下载2.项目导入到idea失败3.项目导入到idea后运行报错 Grails Grails是一款基于Groovy语言的Web应用程序框架,它使用了许多流行的开源技术,如Spring Framework、…...
2023年亚太地区数学建模大赛 问题A
采果机器人的图像识别技术 中国是世界上最大的苹果生产国,年产量约为3500万吨。与此同时,中国也是世界上最大的苹果出口国,全球每两个苹果中就有一个,全球超过六分之一的苹果出口自中国。中国提出了一带一路倡议(BRI&…...
基于springboot实现校园在线拍卖系统项目【项目源码】
基于springboot实现校园在线拍卖系统演示 Javar技术 JavaScript是一种网络脚本语言,广泛运用于web应用开发,可以用来添加网页的格式动态效果,该语言不用进行预编译就直接运行,可以直接嵌入HTML语言中,写成js语言&…...
详解ES6的Promise
ES6(ECMAScript 6)是JavaScript的一种标准,也被称为ES2015。它是在2015年发布的第六个ECMAScript标准版本,引入了许多新的语法和特性来增强JavaScript的功能和可读性。 文章目录 一、创建promise 二、处理Promise 三.Promise链…...
多语言快速排序算法
快速排序是一种高效的排序算法,使用分治法策略。它的基本思想是:选择一个元素作为“基准”(pivot),重新排序数列,所有比基准值小的元素摆放在基准前面,所有比基准值大的摆在基准的后面。在这个分…...
opencv-图像梯度
目标 • 图像梯度,图像边界等 • 使用到的函数有:cv2.Sobel(),cv2.Schar(),cv2.Laplacian() 等 原理 梯度简单来说就是求导。 OpenCV 提供了三种不同的梯度滤波器,或者说高通滤波器:Sobel,Schar…...
STM32+rt-thread判断是否联网
一、根据NETDEV_FLAG_INTERNET_UP位判断 static bool is_conncected(void) {struct netdev *dev RT_NULL;dev netdev_get_first_by_flags(NETDEV_FLAG_INTERNET_UP);if (dev RT_NULL){printf("wait netdev internet up...");return false;}else{printf("loc…...
华为OD机试-食堂供餐-二分法
import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...
基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...
【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
docker 部署发现spring.profiles.active 问题
报错: org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...
在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案
这个问题我看其他博主也写了,要么要会员、要么写的乱七八糟。这里我整理一下,把问题说清楚并且给出代码,拿去用就行,照着葫芦画瓢。 问题 在继承QWebEngineView后,重写mousePressEvent或event函数无法捕获鼠标按下事…...
并发编程 - go版
1.并发编程基础概念 进程和线程 A. 进程是程序在操作系统中的一次执行过程,系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...
C++ 设计模式 《小明的奶茶加料风波》
👨🎓 模式名称:装饰器模式(Decorator Pattern) 👦 小明最近上线了校园奶茶配送功能,业务火爆,大家都在加料: 有的同学要加波霸 🟤,有的要加椰果…...
Visual Studio Code 扩展
Visual Studio Code 扩展 change-case 大小写转换EmmyLua for VSCode 调试插件Bookmarks 书签 change-case 大小写转换 https://marketplace.visualstudio.com/items?itemNamewmaurer.change-case 选中单词后,命令 changeCase.commands 可预览转换效果 EmmyLua…...
Pydantic + Function Calling的结合
1、Pydantic Pydantic 是一个 Python 库,用于数据验证和设置管理,通过 Python 类型注解强制执行数据类型。它广泛用于 API 开发(如 FastAPI)、配置管理和数据解析,核心功能包括: 数据验证:通过…...
