当前位置：首页 > news >正文

3D Gaussian Splatting 论文学习

news 2025/7/7 23:34:43

概述

目前比较常见的渲染方法大致可以分为2种：

将场景中的物体投影到渲染平面：传统的渲染管线就是这种方式，主要针对Mesh数据，可以将顶点直接投影成2D的形式，配合光栅化、深度测试、Alpha混合等就可以得到渲染的图像。
从相机到像素发出一条射线与场景物体交互去计算沿着射线的颜色积分：例如光线追踪，去计算光线和Mesh的光学行为（反射等）来得到像素的颜色值；或是体渲染，对于体数据或是隐式的场景表达（NeRF）通过采样的方式来计算一个光线上的离散的积分，得到最终的颜色。

隐式的场景表达因为其连续性天然具有可微性，比较适合放在优化框架中去使用，但是在渲染时由于需要随机采样，会浪费大量时间在无效的采样点上。3D高斯这个方法则结合了连续可微和投影后光栅化渲染的优势，实现了高质量的实时渲染效果。

接下来我以一些关键知识点为章节来进行总结：

3D高斯表示

3D高斯实际上就是点云+概率密度，使得场景离散化表示的同时对不存在顶点的空间有了连续的颜色变化。一个高斯球的数学形式可以表示为
$G(x)=\exp{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))}$
其中 $\Sigma$ 是协方差矩阵， $\mu$ 是高斯球的重心坐标（均值）。论文中省略了高斯分布的归一化系数，这是因为我们并不需要得到严格的概率分布，只需要表达对空间的相对影响就行了。协方差矩阵 $\Sigma$ 是一个正定对称矩阵，是场景学习时的优化参数，如果直接优化一个3x3的矩阵很难满足高斯分布的性质，因此往往将其分解为旋转矩阵 $R$ 和缩放矩阵 $S$ ，即
$\Sigma=RSS^TR^T$
然后缩放用一个三维的向量表示，旋转用一个四元数表示。

以上的概率分布实际上定义了一个类似“椭球”的形状，用来表示某个高斯球对空间的影响程度，除此之外对每个高斯球还需要不透明度 $\alpha$ 和颜色信息。不透明度好理解，一个[0,1]的浮点数，深度排序后用来影响颜色的混合。而颜色信息，论文中用了四阶球谐函数（0, 1, 2, 3，每个颜色分量对应16个参数）来表示。因为我之前对球谐函数不太了解，所以这里简要总结一下球谐函数：

球谐函数（Spherical Harmonics），可以用来拟合球面函数 $\rho=f(\theta,\phi)$ 。实际上球谐函数就是一组基函数，怎么理解基函数呢？类似傅里叶展开的基函数为 $\{sin(p\theta),cos(q\theta)\}$ ，用他们的线性组合可以拟合任意一个周期函数；也类似我们刚接触机器学习的欠拟合和过拟合时都会遇到的例子，用多项式去拟合数据点，也可以把 $\{1,x,x^2,\dots,x^k\}$ 作为基函数，每个基函数前面乘的参数作为可学习的参数。

而用于拟合球面函数常用的基函数就是球谐函数
$S_m^l(\theta,\phi), \ -m\le l\le m$
它的具体形式就不展开了，需要再查吧，总之对于一个 $m$ 阶（ $m\ge0$ ）的球谐函数，它有 $2 m + 1$ 种变化。而对于一个任意的球面函数 $f(\theta,\phi)$ ，我们用 $k$ 阶球谐函数去拟合的方式为
$f(\theta,\phi)=\sum_{m=0}^k \sum_{l=-m}^m C_m^l S_m^l(\theta,\phi)$
注意我这里的阶数是从0开始的。需要学习的参数是 $C_m^l$ ，总共有 $k+1)^2$ 个。

对于某个高斯球的颜色RGB，论文中每个分量用一个3阶（或者说是4阶，看从0还是1开始）球谐函数表示，总共48个参数，这样就可以根据任意视角 $(\theta,\phi)$ ，查询这个高斯球的颜色了。

综上所述，每个3D高斯球有以下几个属性：

位置： $(x, y, z)$
缩放向量，四元数：表示高斯分布的协方差矩阵
不透明度：opacity $\alpha$
颜色：球谐函数拟合 $C(\theta,\phi)$

图片渲染

假设所有的高斯球已经训练好，要怎么渲染成2D的图像呢？前面也讲到过，像NeRF是发射光线，然后沿着光线进行采样对颜色做离散积分，如果套用到3D高斯的话，就要在光线路径上采样，然后计算所有（或者附近）的高斯球在该采样点的颜色。然而论文方法名称里叫“Splatting”，顾名思义就是“溅射”，或者说是“抛雪球”，比较形象的解释了高斯球的渲染方式：直接投影到2D。

给定一个视图变换（世界坐标到相机坐标）矩阵 $W$ ，相机坐标下某个高斯球的协方差矩阵为
$\Sigma'=JW\Sigma W^TJ^T$
其中 $J$ 为投影变换的仿射近似的雅各比矩阵，假设投影变换 $x^{'} = p (x)$ ，那么 $J=\frac{\partial p}{\partial\mu}$ ，投影变换就可以近似为 $x'=p(\mu)+J(x-\mu)$ 。其实就是把一个非线性的投影变换近似成一个线性变换，使得3D高斯投影后还是一个2D高斯。

至此，图片的渲染就可以对每个像素点，按照距离（深度）对所有高斯球排序，然后根据深度和不透明度以及二维高斯分布计算累加的颜色。论文还提出了一种加速方式，就是将图片分为16x16的小块，每一块按照一定置信度找到受影响的所有高斯球进行排序，后续就不再对每个像素单独排序了，并且每个小块只计算被影响的高斯球的颜色叠加。这样GPU上的每个Block处理一个小块，共享内存，每个Thread再处理一个像素点，光栅化过程就会非常非常快。

训练策略

训练流程如下图所示

先用SFM（Structure From Motion，例如Colmap）将多视角图片转为点云，然后进行高斯球的初始化，然后再进行迭代训练以及进行高斯球密度的调整。

高斯球密度调整策略一般每过一定迭代次数调整一次，大致类型如下：

对于不透明度低于一定阈值的高斯球，直接删除（说明是空的，对应区域没有物体）；
对于位置梯度（也就是对高斯球中心坐标那三个参数求导）过大的区域，可能有两种情况：
1. 欠拟合：说明高斯球无法很好的填充周围的空白区域，于是克隆一个新的相同的高斯球；
2. 过拟合，高斯球填满了周围的区域，还溢出了很多，于是分割成两个更小的高斯球

总结

相较于NeRF，3D高斯确实在保证质量的情况下，速度快很多，基本能够达到实时的渲染，并且训练时间也不长（半小时左右）。不过3D高斯是显式的表示，占用的内存和显存更高，保存场景时占用的空间比NeRF高了2个数量级。

3D Gaussian Splatting 论文学习

概述目前比较常见的渲染方法大致可以分为2种： 将场景中的物体投影到渲染平面：传统的渲染管线就是这种方式，主要针对Mesh数据，可以将顶点直接投影成2D的形式，配合光栅化、深度测试、Alpha混合等就可以得到渲染的图像…...

编程日记 2024/9/14 7:07:29

MySQL 安全机制全面解析

‍ 在如今的数字化时代，数据库安全变得越来越重要。为了防止对数据库进行非法操作，MySQL 定义了一套完整的安全机制，包括用户管理、权限管理和角色管理。本文将为你深入浅出地介绍这三大安全机制，帮助你轻松掌握MySQL的安全管…...

编程日记 2024/9/14 7:05:27

vue原理分析（十四）研究new Vue()中的 initProvide

在Vue.prototype._init 中有一些init函数，今天我们来研究这些init函数 Vue.prototype._init function (options) {......{initProxy(vm);}......initLifecycle(vm);initEvents(vm);initRender(vm);callHook$1(vm, beforeCreate, undefined, false /* setContext *…...

编程日记 2024/9/14 7:03:25

Qt控制开发板的LED

Qt控制开发板的LED 使用开发板的IO接口进行控制是嵌入式中非常重要的一点，就像冯诺依曼原理说的一样，一个计算机最起码要有输入输出吧，我们有了信息的接收和处理，那我们就要有输出。我们在开发板上一般都是使用开发板的GPIO接口…...

编程日记 2024/9/14 6:58:21

S3C2440开发板点亮LED灯+PWM定时器

目录 GPIO引脚和寄存器概述点亮LED灯步骤 1.配置GPIO 2.点亮LED 设置引脚为输出控制引脚电平完整代码 PWM GPIO引脚和寄存器概述 GPIO端口： S3C2440的GPIO引脚可被配置为输入或输出（控制LED的引脚通常配置为输出模式）。寄存器&#…...

编程日记 2024/9/14 6:57:20

S-Procedure的基本形式及使用

理论 Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- \textbf{Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- } Lemma 1. ( S- Procedure[ 34] ) : Define the quadratic func- tions w.r.t. x ∈ C M 1 \mathbf{x}\in\mathbb{C}^M\times1 x…...

编程日记 2024/9/14 6:56:19

free -h 查看内存free空间不足

free空间不足大部分被buff/cache占用解决办法一: 手动释放缓存释放页缓存 sudo sync; sudo sysctl -w vm.drop_caches1 释放目录项和inode缓存 sudo sync; sudo sysctl -w vm.drop_caches2 释放所有缓存（页缓存、目录项和inode缓存） sudo sync…...

编程日记 2024/9/14 6:53:17

rust学习笔记

参考资料：https://doc.rust-lang.org/book/ch01-02-hello-world.html 一、编译与运行在 Rust 中，编译和运行代码的常用命令是使用 cargo，这是 Rust 的包管理和构建工具。以下是使用 cargo 和 rustc（Rust 编译器）的具…...

编程日记 2024/9/14 6:51:15

【有啥问啥】复习变分下界即证据下界（Evidence Lower Bound, ELBO）：原理与应用

复习变分下界即证据下界（Evidence Lower Bound, ELBO）：原理与应用变分下界（Variational Lower Bound），也称为“证据下界”（Evidence Lower Bound, ELBO），是概率模型中的…...

编程日记 2024/9/14 6:50:14

Linux shell编程学习笔记78：cpio命令——文件和目录归档工具（上）

0 前言在Linux系统中，除了tar命令，我们还可以使用cpio命令来进行文件和目录的归档。 1 cpio命令的功能，帮助信息，格式，选项和参数说明 1.1 cpio命令的功能 cpio 名字来自 "copy in, copy out"&#xf…...

编程日记 2024/9/14 6:49:13

为什么在 JSON 序列化中不使用 transient

有些小伙伴发现了，明明在返回的实体类中指定了属性为transient。为什么前端得到的返回json中还是有这个属性的值？ 类： private String name; private transient String password;返回结果： { name:"刘大大", password:…...

编程日记 2024/9/14 6:48:12

K8S - Volume - NFS 卷的简介和使用

在之前的文章里已经介绍了 K8S 中两个简单卷类型 hostpath 和 emptydir k8s - Volume 简介和HostPath的使用 K8S - Emptydir - 取代ELK 使用fluentd 构建logging saidcar 但是这两种卷都有同1个限制， 就是依赖于 k8s nodes的空间如果某个service pod中需要的vol…...

编程日记 2024/9/14 6:42:06

IO模型---BIO、NIO、IO多路复用、AIO详解

本篇将想给详细解释一下什么是BIO、NIO、IO多路复用以及AIO~ 同步的阻塞(BIO)和非阻塞(NIO)的区别 BIO：线程发来IO请求后，一直阻塞着IO线程，需要缓冲区这边数据准备好之后，才会进行下一步的操作。举个🌰&#xff1…...

编程日记 2024/9/14 6:41:05

蓝桥杯真题——约翰的牛奶

输入样例： 8 9 10 输出样例： 1 2 8 9 10 本题是宽搜的模版题，不论怎么倒牛奶，A,B,C 桶里的牛奶可以看做一个三元点集我们只要找到A桶是空的，B,C桶中的状态即可 #include <iostream> #include <cstring…...

编程日记 2024/9/14 6:39:03

单机docker-compose部署minio

单机多副本docker-compose部署minio 简单介绍如果服务器有限可以单机挂载多硬盘实现多副本容错（生产不推荐） 部署好的文件状态有两个重要文件 docker-compose.yaml和nginx.conf docker-compose.yaml是docker部署容器的配置信息包括4个minio和1个ng…...

编程日记 2024/9/14 6:38:02

Winform实现弹出定时框功能

1、程序 private void TimeDialogInitialize(){for(int i1; i<30;i){cbbTimeDialog.Items.Add(i);}}private void cbbTimeDialog_SelectedIndexChanged(object sender, EventArgs e){foreach(int i in cbbTimeDialog.Items){if(cbbTimeDialog.SelectedItem!null &&…...

编程日记 2024/9/14 6:37:01

【机器学习(四)】分类和回归任务-梯度提升决策树(GBDT)-Sentosa_DSML社区版

文章目录一、算法概念一、算法原理（一） GBDT 及负梯度拟合原理（二） GBDT 回归和分类1、GBDT回归1、GBDT分类二元分类多元分类 （三）损失函数1、回归问题的损失函数2. 分类问题的损失函数： 三、G…...

编程日记 2024/9/14 6:34:59

Mini-Omni 语言模型在流式传输中边思考边听说应用

引入简介 Mini-Omni 是一个开源的多模态大语言模型，能够在思考的同时进行听觉和语言交流。它具有实时端到端语音输入和流媒体音频输出的对话能力。语言模型的最新进展取得了显著突破。GPT-4o 作为一个新的里程碑，实现了与人类的实时对话，展示了接近人类的自然流畅度。为了…...

编程日记 2024/9/14 6:32:58

vue devtools的使用

vue devtools的使用 Vue Devtools 是一个强大的浏览器扩展，旨在帮助你调试和开发 Vue.js 应用。它支持 Chrome 和 Firefox 浏览器，并提供了一些工具和功能，可以让你更轻松地查看和调试 Vue 应用的状态和行为。以下是如何安装和使用 Vue Devtools 的详细指南。安装 Vue De…...

编程日记 2024/9/14 6:30:56

无人机培训：无人机维护保养技术详解

随着无人机技术的飞速发展，其在航拍、农业、救援、环境监测等领域的应用日益广泛。然而，要确保无人机安全、高效地执行任务，定期的维护保养至关重要。本文将深入解析无人机维护保养的核心技术，涵盖基础构造理解、清洁与防尘、电机…...

编程日记 2024/9/14 6:27:53

React Native 导航系统实战（React Navigation）

导航系统实战（React Navigation） React Navigation 是 React Native 应用中最常用的导航库之一，它提供了多种导航模式，如堆栈导航（Stack Navigator）、标签导航（Tab Navigator）和抽屉…...

编程新知 2025/6/21 7:48:44

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/7/6 14:15:06

postgresql|数据库|只读用户的创建和删除（备忘）

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

编程新知 2025/6/21 18:39:26

华为OD机试-食堂供餐-二分法

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

编程新知 2025/7/7 6:49:47

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/7/7 20:02:31

MySQL 8.0 OCP 英文题库解析（十三）

Oracle 为庆祝 MySQL 30 周年，截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题111~120 试题1…...

编程新知 2025/7/5 5:01:20

python执行测试用例，allure报乱码且未成功生成报告

allure执行测试用例时显示乱码：‘allure’ �����ڲ����ⲿ���Ҳ���ǿ�&am…...

编程新知 2025/7/6 23:59:47

LLMs 系列实操科普（1）

写在前面： 本期内容我们继续 Andrej Karpathy 的《How I use LLMs》讲座内容，原视频时长 ~130 分钟，以实操演示主流的一些 LLMs 的使用，由于涉及到实操，实际上并不适合以文字整理，但还是决定尽量整理一份笔…...

编程新知 2025/7/7 4:04:47

comfyui 工作流中图生视频如何增加视频的长度到5秒

comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗？ 在ComfyUI中实现图生视频并延长到5秒，需要结合多个扩展和技巧。以下是完整解决方案： 核心工作流配置（24fps下5秒120帧） #mermaid-svg-yP…...

编程新知 2025/7/6 23:46:56

Xcode 16.2 版本 pod init 报错

Xcode 版本升级到 16.2 后，项目执行 pod init 报错； ### Error RuntimeError - PBXGroup attempted to initialize an object with unknown ISA PBXFileSystemSynchronizedRootGroup from attributes: {"isa">"PBXFileSystemSynchron…...

编程新知 2025/7/7 15:18:49

概述

3D高斯表示

图片渲染

训练策略

总结

相关文章：