论文阅读笔记——ST-4DGS,WideRange4D
ST-4DGS
ST-4DGS 论文
在 4DGS 中,变形场 F \mathcal{F} F 与运动参数 X 和形状参数 ( S , R ) (S,R) (S,R) 高度耦合,导致训练时高斯表示紧凑型退化,影响动态渲染质量。由此,本文提出两种方法解耦运动与形状参数,保持高斯的紧凑性。
解决时空连续性中的几何撕裂(变形场在时间上分段不可导导致高斯椭球位置或形状的突变;高斯分布密度调整应随运动速度调整,即高速应高斯密集,低速应去除冗余)和闪烁伪影(借助信号处理,增加时域约束)

约束
局部刚性正则化
认为:相邻高斯在短时间内应遵循刚性变换,使用 KNN 构建局部高斯邻域,通过旋转一致性和位移一致性,优化高斯运动,权重 w i , j w_{i,j} wi,j 基于高斯间距离调整,确保邻近高斯运动一致。
L l o c = λ r i g L r i g + λ r o t L r o t , L r i g = 1 k ∣ G ∣ ∑ g i ∈ G ∑ j ∈ N i w i , j ∥ Δ v t − 1 − Δ R i Δ v t ∥ 2 , L r o t = 1 k ∣ G ∣ ∑ g i ∈ G ∑ j ∈ N i w i , j ∥ R i , t − 1 R i , t − 1 − R j , t − 1 R j , t − 1 ∥ 2 , w i , j = e x p ( − λ w ∥ X j , t − 1 − X i , t − 1 ∥ 2 2 ) \begin{gathered} \mathcal{L}_{loc}=\lambda_{rig}\mathcal{L}_{rig}+\lambda_{rot}\mathcal{L}_{rot}, \\ \mathcal{L}_{rig}=\frac{1}{k|\mathcal{G}|}\sum_{g_{i}\in\mathcal{G}}\sum_{j\in\mathcal{N}_{i}}w_{i,j}\|\Delta v_{t-1}-\Delta\mathcal{R}_{\mathrm{i}}\Delta v_{t}\|_{2}, \\ \mathcal{L}_{rot}=\frac{1}{k|G|}\sum_{g_{i}\in\mathcal{G}}\sum_{j\in\mathcal{N}_{i}}w_{i,j}\left\|\mathcal{R}_{i,t-1}\mathcal{R}_{i,t}^{-1}-\mathcal{R}_{j,t-1}\mathcal{R}_{j,t}^{-1}\right\|_{2}, \\ w_{i,j}=exp\left(-\lambda_{w}\left\|X_{j,t-1}-X_{i,t-1}\right\|_{2}^{2}\right) \end{gathered} Lloc=λrigLrig+λrotLrot,Lrig=k∣G∣1gi∈G∑j∈Ni∑wi,j∥Δvt−1−ΔRiΔvt∥2,Lrot=k∣G∣1gi∈G∑j∈Ni∑wi,j Ri,t−1Ri,t−1−Rj,t−1Rj,t−1 2,wi,j=exp(−λw∥Xj,t−1−Xi,t−1∥22)
时间扭曲约束
认为:高斯的 3D 运动应与其在 2D 图像的投影光流一致。使用 RAFT 光流估计计算 2D 像素偏移。
L t e m = ∥ I t − F W ( I t − w ; F t , w ) ∥ 1 \mathcal{L}_{tem}=\left\|I_{t}-\mathcal{F}\mathcal{W}\left(I_{t-w};F_{t,w}\right)\right\|_{1} Ltem=∥It−FW(It−w;Ft,w)∥1
同时,加入各项异形正则化,防止高斯形状过度拉伸,提高几何稳定性:
L a n i = 1 ∣ S ∣ ∑ s i ∈ S max { max ( S i ) min ( S i ) , τ } − τ \mathcal{L}_{ani}=\frac{1}{|S|}\sum_{s_{i}\in S}\max\left\{\frac{\max\left(S_{i}\right)}{\min\left(S_{i}\right)},\tau\right\}-\tau Lani=∣S∣1si∈S∑max{min(Si)max(Si),τ}−τ
最后的损失函数为:
L m = λ t e m L t e m + λ a n i L a n i + L l o c \mathcal{L}_m=\lambda_{tem}\mathcal{L}_{tem}+\lambda_{ani}\mathcal{L}_{ani}+\mathcal{L}_{loc} Lm=λtemLtem+λaniLani+Lloc

密度控制
原始 3DGS 的密度控制主要适用于静态场景,但在动态场景中,该方法容易导致3D 高斯退化(漂浮物增多,几何结构松散)。
- 几何感知修剪:剔除不符合真实结构的漂浮高斯:对每个高斯 g i g_i gi ,计算其 KNN 的局部中心 X ‾ = 1 ∣ N i ∣ ∑ g j ∈ N i \overline{X}=\frac{1}{|N_i|}\sum_{g_j\in N_i} X=∣Ni∣1∑gj∈Ni (假设高斯位置到中心的距离服从 N ( X ‾ i , σ ) \mathcal{N}(\overline{X}_i,\sigma) N(Xi,σ)),若某高斯的距离 d i = ∣ X i − X ‾ i ∣ > 3 σ d_i=|X_i-\overline{X}_i| > 3\sigma di=∣Xi−Xi∣>3σ,则判定为漂浮物剔除
- 运动感知分裂:在动态区域增加高斯密度。基于 RAFT估计生成运动掩膜,标记动态区域。-将 3D 高斯投影到 2D 图像平面,得到 高斯投影图 I t I_t It,在动态区域 均匀采样候选点 U t U_t Ut,并与投影高斯进行匹配。对匹配成功的区域,执行 高斯分裂(Splitting),增加局部高斯密度。
损失函数
因为采用了 HexPlane,所以有 L T V \mathcal{L}_{TV} LTV, L c \mathcal{L}_{c} Lc 为视图合成损失。
L = λ c L c + λ T V L T V + L m \mathcal{L}=\lambda_{c}\mathcal{L}_{c}+\lambda_{TV}\mathcal{L}_{TV}+\mathcal{L}_{m} L=λcLc+λTVLTV+Lm
WideRange4D
WideRange4D 论文
相比4DGS(4D Gaussian Splatting)的所有帧一起暴力优化,这个方法采用分阶段吃蛋糕策略:先搞定静态部分,再像拼拼图一样一块块啃动态部分,避免一口吃撑(误差累积)。
原先的变形场依赖MLP感受野有限,表现为轨迹断裂。且长距离通过多个小变形叠加,误差累积,且存储开销会增加。(局部离散建模全局离散)针对长距离空间位移,通过渐进式控制逐步学习。
在初始化3D场景时,我们对4D场景中所有物体在其静止状态下进行高质量的3D重建,以确保高质量的4D场景重建。

将 4D 场景划分为三种:
- T 0 = { t 0 0 , t 0 1 … … } T_0=\{t_0^0,t_0^1……\} T0={t00,t01……} 已对齐的时间步
- T 1 = { t 1 0 , t 1 1 … … } T_1=\{t_1^0,t_1^1……\} T1={t10,t11……} 当前对齐的时间步
- T 2 = { t 2 0 , t 2 1 … … } T_2=\{t_2^0,t_2^1……\} T2={t20,t21……} 待对齐的时间步
训练中,数据更新策略为:将 T 1 T_1 T1 中已对齐的时间步加入 T 0 T_0 T0,将 T 2 T_2 T2 中与上一轮 T 1 T_1 T1 最接近的时间步加入 T 1 T_1 T1。
基于每帧运动显著性,引入动态掩码 M ( t 1 i , t 0 k ) M(t_1^i,t_0^k) M(t1i,t0k) :
w = w 0 ∣ t 1 i − t 0 k ∣ + 1.0 ⋅ 1 1 + exp ( − ∥ Δ μ t 1 i − Δ μ t 0 k ∥ ) L a l i g n = w ⋅ I ( ∥ Δ μ t 1 i − Δ μ t 0 k ∥ > τ ) ⏟ M ( t 1 i , t 0 k ) ⋅ ∥ Δ μ t 1 i − Δ μ t 0 k ∥ L = L 1 + L t v + L a l i g n \begin{aligned} w=\frac{w_0}{|t_1^i-t_0^k|+1.0}\cdot\frac{1}{1+\exp\left(-\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\|\right)} \\\mathcal{L}_{align}=w\cdot\underbrace{\mathbb{I}\left(\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\|>\tau\right)}_{M(t_1^i,t_0^k)}\cdot\|\Delta\mu_{t_1^i}-\Delta\mu_{t_0^k}\| \\\mathcal{L}=\mathcal{L}_1+\mathcal{L}_{tv}+\mathcal{L}_{align}\end{aligned} w=∣t1i−t0k∣+1.0w0⋅1+exp(−∥Δμt1i−Δμt0k∥)1Lalign=w⋅M(t1i,t0k) I(∥Δμt1i−Δμt0k∥>τ)⋅∥Δμt1i−Δμt0k∥L=L1+Ltv+Lalign

实验效果

相关文章:
论文阅读笔记——ST-4DGS,WideRange4D
ST-4DGS ST-4DGS 论文 在 4DGS 中,变形场 F \mathcal{F} F 与运动参数 X 和形状参数 ( S , R ) (S,R) (S,R) 高度耦合,导致训练时高斯表示紧凑型退化,影响动态渲染质量。由此,本文提出两种方法解耦运动与形状参数,保…...
[python]基于yolov8实现热力图可视化支持图像视频和摄像头检测
YOLOv8 Grad-CAM 可视化工具 本工具基于YOLOv8模型,结合Grad-CAM技术实现目标检测的可视化分析,支持图像、视频和实时摄像头处理。 功能特性 支持多种Grad-CAM方法实时摄像头处理视频文件处理图像文件处理调用简单 环境要求 Python 3.8需要电脑带有…...
五.ubuntu20.04 - ffmpeg推拉流以及Nginx、SRS本地部署
一.本地部署nginx 1.编译ffmpeg,参考这位博主的,编译选项有的enable找不到的不需要的可以直接删除,但是像sdl(包含ffplay)、h264、h265这些需要提前下载好,里面都有下载指令。 Ubuntu20.04 编译安装 FFmp…...
深度神经网络全解析:原理、结构与方法对比
深度神经网络全解析:原理、结构与方法对比 1. 引言 随着人工智能的发展,深度神经网络(Deep Neural Network,DNN)已经成为图像识别、自然语言处理、语音识别、自动驾驶等领域的核心技术。相比传统机器学习方法&#x…...
豪越科技消防一体化平台:打通消防管理“任督二脉”
在城市的车水马龙间,火灾隐患如潜藏的暗礁,威胁着人们的生命财产安全。传统消防管理模式在现代社会的复杂环境下,逐渐显露出诸多弊端。内部管理分散混乱,人员、装备、物资管理缺乏统一标准和高效流程;外部监管困难重重…...
【Matlab】-- 基于MATLAB的美赛常用多种算法
文章目录 文章目录 01 内容概要02 各种算法基本原理03 部分代码04 代码下载 01 内容概要 本资料集合了多种数学建模和优化算法的常用代码资源,旨在为参与美国大学生数学建模竞赛(MCM/ICM,简称美赛)的参赛者提供实用的编程工具和…...
机器学习课程
前言 课程代码和数据文件: 一、机器学习概述 1.1.人工智能概述 机器学习和人工智能,深度学习的关系 机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来 达特茅斯会议-人工智能的起点 1956年8月,在美国汉诺斯小镇宁静…...
AIGC(生成式AI)试用 28 -- 跟着清华教程学习 - AIGC发展研究 3.0
目标:继续学习 - 信息不对称、不平等、隐私泄露和数据滥用 - 问、改、创、优 - “概率预测(快速反应)”模型和“链式推理(慢速思考)”模型 - 思维滞环现象解决思路:1.调整提问:改变问题方式&…...
问题:md文档转换word,html,图片,excel,csv
文章目录 问题:md文档转换word,html,图片,excel,csv,ppt**主要职责****技能要求****发展方向****学习建议****薪资水平** 方案一:AI Markdown内容转换工具打开网站md文档转换wordmd文档转换pdfm…...
【Java】面向对象之static
用static关键字修饰成员变量 有static修饰成员变量,说明这个成员变量是属于类的,这个成员变量称为类变量或者静态成员变量。 直接用 类名访问即可。因为类只有一个,所以静态成员变量在内存区域中也只存在一份。所有的对象都可以共享这个变量…...
解决:在运行 plt.show()`时,程序会等待你手动关闭图片窗口才能继续往下执行
你这个问题本质是: 在运行 plt.show() 时,程序会等待你手动关闭图片窗口才能继续往下执行。 这其实是 matplotlib 的默认行为 —— 它会弹出一个交互式窗口让你“看完图再走”。 ✅ 为什么会这样? 你在程序中使用了: import mat…...
Anaconda安装-Ubuntu-Linux
1、进入Anaconda官网,以下载最新版本,根据自己的操作系统选择适配的版本。 2、跳过注册: 3、选择适配的版本: 4、cd ~/anaconda_download 5、bash Anaconda3-2024.10-1-Linux-x86_64.sh 6、按Enter或PgDn键滚动查看协议&…...
Linux 配置NFS服务器
1. 开放/nfs/shared目录,供所有用户查阅资料 服务端 (1)安装nfs服务,nfs-utils包中包含rpcbind(rpc守护进程) [rootnode1-server ~]# yum install -y nfs-utils # nfs-utils包中包含rpcbind [rootnode…...
css100个问题
一、基础概念 CSS的全称及作用是什么?行内样式、内部样式表、外部样式表的优先级?解释CSS的层叠性(Cascading)CSS选择器优先级计算规则伪类与伪元素的区别?举例说明!important的作用及使用注意事项如何继承父元素字体…...
塔能科技:用精准节能撬动社会效益的行业杠杆
在全球积极践行可持续发展理念的当下,能源高效利用与节能减排,已然成为各行各业实现高质量发展绕不开的关键命题。对企业来说,节能早已不是一道可做可不做的选择题,而是关乎生存与发展、社会责任与竞争力的必答题。塔能科技推出的…...
Java 大视界 -- Java 大数据在自动驾驶高精度地图数据更新与优化中的技术应用(157)
💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…...
Conda配置Python环境
1. 安装 Conda 选择发行版: Anaconda:适合需要预装大量科学计算包的用户(体积较大)。 Miniconda:轻量版,仅包含 Conda 和 Python(推荐自行安装所需包)。 验证安装: co…...
nginx https配置
一.https配置 HTTPS 协议是由HTTP 加上TLS/SSL 协议构建的可进行加密传输、身份认证的网络协议,主要通过数字证书、加密算法、非对称密钥等技术完成互联网数据传输加密,实现互联网传输安全保护。 1.生成证书 openssl genrsa -des3 -out server.key 20…...
每日一题洛谷P10901 [蓝桥杯 2024 省 C] 封闭图形个数c++
排序思想,只不过这时的排序与之前的略有不同,com函数中要先比较封闭图形再比较真实的大小,多了一步,但是原理还是一样的 #include<iostream> #include<algorithm> #include<vector> using namespace std; //统…...
拓展知识六:MetInfo6.0.0目录遍历漏洞原理分析
所需进行代码审计的文件路径: C:\phpStudy\WWW\MetInfo6.0.0\include\thumb.php C:\phpStudy\WWW\MetInfo6.0.0\app\system\entrance.php C:\phpStudy\WWW\MetInfo6.0.0\app\system\include\class\load.class.php C:\phpStudy\WWW\MetInfo6.0.0\app\system\include…...
tar包部署rabbitMQ
部署erlang: 有网使用: sudo apt-get update sudo apt-get install libncurses5-dev libncursesw5-dev sudo yum install ncurses-devel 无网使用 tar zxvf ncurses.tar.gz mkdir ncurses cd ncurses-6.3/ ./configure --with-shared --without-debu…...
天锐蓝盾终端安全防护——企业终端设备安全管控
从办公室的台式电脑到员工手中的移动终端,这些设备不仅是工作的得力助手,更是企业数据的重要载体。然而,随着终端设备的广泛使用,安全风险也如影随形。硬件设备使用不当、数据随意传输等问题频发,使得企业数据面临着泄…...
MySQL高级特性与大数据应用
事务与锁机制 1.1 事务控制 START TRANSACTION; UPDATE account SET balance balance - 500 WHERE user_id 1001; UPDATE account SET balance balance 500 WHERE user_id 2002; COMMIT; -- 显式提交事务 ROLLBACK; -- 异常时回滚 1.2 锁机制 锁类型:共…...
小智机器人关键函数解析,Application::OutputAudio()处理音频数据的输出的函数
以下是对 Application::OutputAudio() 函数的详细解释: 源码: void Application::OutputAudio() { // 扬声器的输出auto now std::chrono::steady_clock::now();auto codec Board::GetInstance().GetAudioCodec();const int max_silence_seconds 10;…...
玛卡巴卡的k8s知识点问答题(五)
17. Init 类型容器有什么特点,主要用途? 特点: 启动顺序:Init 容器在普通容器启动之前运行,必须先完成所有 Init 容器后,Pod 的主容器才会启动。 顺序执行:如果定义了多个 Init 容器ÿ…...
3.27学习总结 爬虫+二维数组+Object类常用方法
高精度: 一个很大的整数,以字符串的形式进行接收,并将每一位数存储在数组内,例如100,即存储为[1][0][0]。 p2437蜜蜂路线 每一个的路线数前两个数的路线数相加。 #include <stdio.h> int a[1005][1005]; int …...
kafka零拷贝技术的底层实现
什么是 Sendfile? sendfile 是一种操作系统提供的系统调用(system call),用于在两个文件描述符(file descriptor)之间高效传输数据。它最初由 Linux 内核引入(从 2.1 版本开始)&…...
MFC中CMap类的用法和原理
1、CMap 的原理 CMap 是一个基于哈希表的映射类,它将唯一键映射到对应的值。其内部实现依赖于哈希算法,通过哈希函数将键转换为哈希值,然后将哈希值映射到哈希表中的某个位置。如果多个键的哈希值相同(即哈希冲突)&am…...
elementplus的el-tabs路由式
在使用 Element Plus 的 el-tabs 组件,实现路由式的切换(即点击标签页来切换不同的路由页面)。下面是一个基于 Vue 3 和 Element Plus 实现路由式 el-tabs 的基本步骤和示例。 步骤 1: 安装必要的库 在vue3项目安装 Vue Router 和 Element …...
数据结构初阶:单链表
序言: 本篇博客主要介绍单链表的基本概念,包括如何定义和初始化单链表,以及如何进行数据的插入,删除和销毁等操作。 1.单链表 1.1 概念与结构 概念:链表是一种非顺序的存储结构,数据元素的逻辑顺序是通过…...
