当前位置: 首页 > article >正文

西交大开源PAS3R|1000帧长视频流式3D 重建新SOTA,彻底解决轨迹漂移!

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入0.这篇文章干了啥这篇文章提出了PAS3R一种用于长视频序列的姿态自适应流式3D重建框架旨在解决在线单目3D重建中稳定性与适应性的两难问题。现有流式重建方法在处理长序列时难以平衡快速适应新视角和保留先前积累的场景结构常导致轨迹漂移和几何不一致。PAS3R的核心思想是根据相机运动和场景结构动态调节状态更新使贡献显著几何新颖性的帧对重建状态产生更强影响而视角变化较小的帧优先保留历史上下文。该框架主要由三部分组成一是姿态自适应状态更新调制通过结合帧间相机运动和图像频率线索估计帧的重要性动态调整更新强度二是轨迹一致的模型优化引入相对姿态约束和加速度正则化的训练目标提高重建过程中的时间稳定性三是轻量级在线稳定模块在推理过程中减少轨迹抖动和几何伪影。实验结果表明PAS3R在多个基准测试中显著提高了长视频序列的轨迹准确性、深度估计和点云重建质量同时在短序列上也具有竞争力。不过PAS3R仍存在一些局限性如当前基准对多样化长视频流的覆盖有限旋转轨迹精度有待进一步提高。下面一起来阅读一下这项工作~1. 论文信息论文题目PAS3R: Pose-Adaptive Streaming 3D Reconstruction for Long Video Sequences作者Lanbo Xu, Liang Guo, Caigui Jiang, Cheng Wang论文链接https://arxiv.org/pdf/2603.214362. 摘要在线单目3D重建能够从流式视频中实现密集场景恢复但从根本上受限于稳定性 - 适应性困境重建模型必须在保留先前积累的场景结构的同时快速纳入新的视角。现有的流式方法依赖于统一或基于注意力的更新机制这些机制往往无法应对突然的视角转换从而导致在长序列中出现轨迹漂移和几何不一致的问题。我们提出了PAS3R这是一个姿态自适应的流式重建框架它根据相机运动和场景结构动态调整状态更新。我们的关键见解是对几何结构有显著新贡献的帧应在重建状态中发挥更强的影响而视角变化较小的帧应优先保留历史上下文。PAS3R通过一种运动感知的更新机制来实现这一原则该机制结合帧间姿态变化和图像频率线索来估计帧的重要性。为了进一步稳定长时程重建我们引入了轨迹一致的训练目标其中包含相对姿态约束和加速度正则化。一个轻量级的在线稳定模块在不增加内存消耗的情况下进一步抑制高频轨迹抖动和几何伪影。在多个基准测试中的大量实验表明PAS3R在长视频序列中显著提高了轨迹精度、深度估计和点云重建质量同时在较短序列上也保持了有竞争力的性能。源代码可在[https://pas - 3r.github.io/PAS3R.io/](https://pas - 3r.github.io/PAS3R.io/)获取。3. 效果展示图2自适应状态更新加权的效果。我们在真实世界室内视频序列中评估了自适应更新加权的影响。红色边界框突出显示了相机经历显著姿态变化的关键帧区域。理想情况下该区域之后的轨迹应保持大致平行。然而CUT3R [69] 和 TTT3R [13] 都表现出与真实轨迹的明显漂移而自适应加权策略TTTWL 表示仅使用自适应更新的 PAS3R有助于在视角突变时保持轨迹连续性。图9三维重建结果的定性比较。在楼梯场景中IVGGT 和 CUT3R 等方法存在较大的空间漂移。在办公室和厨房场景中IVGGT、TTT3R 和 CUT3R 都在墙角处出现不同程度的结构坍塌而 PAS3R 与真实值GT保持良好对齐。4. 主要贡献我们提出了PAS3R这是一种流式3D重建框架可根据相机运动和场景结构动态调节状态更新实现从单目视频流进行稳定的长时重建。我们提出了一种姿态自适应更新机制该机制利用帧间相机位移和图像频率信息来估计帧的重要性使模型能够在快速适应新视点和保留历史几何信息之间取得平衡。我们在训练过程中引入了相对姿态和加速度正则化提高了长视频序列的时间连贯性并减少了轨迹漂移。我们设计了一种高效的时空稳定策略该策略在不增加内存开销的情况下抑制了轨迹抖动和几何伪影。5. 基本原理是啥1. 姿态自适应状态更新调制流式重建模型有一个内部状态用于编码累积的场景信息。在测试时间训练TTT范式中该状态类似于一组快速权重在推理期间模型参数慢速权重固定时动态更新。状态更新可表示为先前状态减去学习率与梯度函数的乘积其中梯度函数代表先前状态和当前观察之间的关联学习率控制更新幅度。传统框架具有固定的更新幅度或使用内部注意力机制未考虑每帧的几何新颖性。为了解决这个问题PAS3R引入了姿态自适应状态更新调制。它根据两个线索调整更新幅度帧间相机运动包括平移和旋转。计算平移位移幅度与旋转变化幅度的加权和。图像结构丰富度首先将当前帧转换为灰度图像。对灰度图像执行离散傅里叶变换DFT并居中。构建高通滤波矩阵以滤除低频信号。确定高频信号的比例并计算最终的图像质量得分。得出当前帧的总得分相机运动得分与图像质量得分的乘积最大值限制为1.0。此限制后的总得分用作最终的学习率权重。2. 轨迹一致的模型优化姿态自适应状态更新机制可能导致一个潜在问题。如果模型在稳定的视频序列期间具有较小的学习率权重然后相机发生突然的大规模位移模型可能会分配一个明显更高的权重导致轨迹出现急剧的、不自然的突变。为了解决这个问题引入了轨迹一致的训练目标。总损失由置信度感知回归损失、相机姿态损失和RGB损失组成。绝对轨迹误差ATE衡量预测的平移向量和旋转四元数与真实值之间的差异。相对姿态误差RPE衡量当前帧与前一帧之间的预测平移向量和旋转四元数的差异与真实差异之间的误差。加速度稳定约束通过约束平移和旋转的二阶导数来稳定加速度。置信度感知回归损失衡量预测点云和真实点云之间的差异RGB损失衡量模型预测的RGB像素与真实的RGB像素之间的差异。姿态损失具有三个互补的组成部分最终的姿态损失是这三个组件的加权和总损失是置信度感知回归损失、RGB损失和姿态损失的加权和。3. 在线时空稳定序列推理过程中可能会积累微小的预测噪声表现为重建点云中的小轨迹抖动或几何伪影。时间轨迹稳定相机轨迹抖动通常是由于细微的帧级预测波动引起的。将One Euro滤波应用于预测的相机平移。对于旋转四元数将当前帧的预测四元数和前一帧的平滑四元数归一化并应用球面线性插值Slerp函数进行时间平滑。空间几何细化模型预测的点云数据通常在物体边界处有伪影或在光滑表面上有不自然的突起。在推理过程中对点云应用在线双边空间滤波。该方法结合了空间接近度因子和几何相似度因子防止边缘不同侧的数据相互干扰在保持物体轮廓清晰的同时实现平坦区域的平滑。6. 实验结果该文章围绕PAS3R方法开展了一系列实验以评估其在长视频序列单目3D重建中的性能实验结果如下1. 相机位姿估计ScanNet数据集在50 - 1000帧的序列评估中随着序列长度增加多数方法轨迹漂移逐渐增大而PAS3R的轨迹误差增长缓慢其提出的自适应位姿更新机制有效减轻了长期误差积累。Sintel和TUM数据集PAS3R在平移相对位姿误差RPE上表现最佳绝对轨迹误差ATE也具有竞争力。尽管在某些情况下旋转RPE略高于最佳基线但长序列上整体轨迹更稳定。TUM数据集补充实验PAS3R的旋转RPE略低于竞争方法但在ATE和RPE平移方面大幅领先竞争方法在长视频序列中优势明显。在ScanNet数据集上PAS3R的预测相机轨迹与真实轨迹的拟合效果在多数场景中最优。2. 深度估计Bonn数据集PAS3R在原始深度预测设置下表现最佳表明预测的几何形状无需额外缩放即可与真实值良好对齐。而部分竞争方法在原始评估中误差大但缩放对齐后有显著改善。在Sintel、Bonn和KITTI数据集的短序列上PAS3R性能与现有先进方法相当。Kitti数据集在原始设置下PAS3R性能略低于部分竞争方法但在缩放对齐和缩放平移对齐评估中始终表现最佳。3. 3D重建7 - Scenes数据集在50 - 400帧的序列评估中随着序列长度增加竞争方法的重建质量逐渐下降而PAS3R的重建指标保持相对稳定在准确性和完整性方面表现最佳法向一致性也具有竞争力。在定性比较中竞争方法在大视角变化区域常出现空间漂移或结构失真而PAS3R重建的场景几何更连贯结构伪影更少。短序列基准测试在7 - Scene和NRGBD两个短序列基准测试中PAS3R与现有先进方法相比仍具有很强的竞争力。定性结果显示PAS3R不仅在长序列上表现出色在短序列点云重建中也极具竞争力。4. 消融实验自适应位姿状态更新调制显著提高了相机位姿估计、深度预测和点云重建质量。轨迹一致训练在所有指标上都带来了持续改进提升了框架的整体性能。移除在线时空稳定模块会使某些单个指标略有改善但会降低整体轨迹稳定性凸显了该模块在流式场景中提高重建鲁棒性的互补作用。5. GPU使用和FPS估计在ScanNet数据集上随着序列长度从50增加到1000帧PAS3R保持了稳定的运行时性能和恒定的内存消耗满足在线3D重建的效率要求且能很好地适应长视频序列。7. 总结 未来工作总结我们提出了PAS3R这是一个用于流式单目3D重建的姿态自适应框架解决了长视频序列中的稳定性 - 适应性困境。通过根据几何新颖性动态调节帧的影响PAS3R能够快速适应新的视角同时保留先前积累的场景结构。结合轨迹一致训练和轻量级在线稳定化该框架显著提高了多个基准测试中的相机姿态估计、深度预测和重建质量特别是在长序列上。这些结果凸显了姿态感知更新策略对于稳健流式重建的重要性。局限性与未来展望尽管PAS3R有效但仍存在局限性。当前的基准测试对多样化长视频流的覆盖有限旋转轨迹精度还有待进一步提高。本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

相关文章:

西交大开源PAS3R|1000帧长视频流式3D 重建新SOTA,彻底解决轨迹漂移!

点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、3DGS独家系列视频教程、顶会论文最新解读、海量3D视觉行业源码、项…...

C++26反射元编程成本封顶术:4种编译期剪枝模式+1个编译器补丁级优化,已获ISO WG21非正式采纳

更多请点击: https://intelliparadigm.com 第一章:C26反射元编程成本封顶术全景导览 C26 正式引入静态反射(std::reflexpr)与编译期计算增强机制,使元编程从“类型推导黑箱”迈向“可审计、可截断、可封顶”的新范式。…...

潮乎盲盒商城开源源码|支持H5+小程序+APP三端打包|Laravel+UniApp架构

温馨提示:文末有联系方式潮乎盲盒商城全平台开源源码发布 本套潮乎盲盒商城系统提供完整可商用级源码,全面支持H5网页端、小程序及原生APP(通过UniApp跨端打包)三端部署,开箱即用,无二次限制。技术架构说明…...

容器日志总在延迟?VSCode 2026实时查看全链路优化指南,从毫秒级卡顿到亚秒级响应

更多请点击: https://intelliparadigm.com 第一章:容器日志延迟的底层归因与VSCode 2026日志架构演进 容器日志延迟并非孤立现象,其根源深植于 Linux 内核 I/O 调度、容器运行时(如 containerd)的日志驱动缓冲策略&a…...

CSS如何实现Bootstrap进度条自定义动画_利用keyframe关键帧

...

VSCode 2026量子语法高亮上线倒计时:微软QDK团队亲授3个未文档化API钩子,现在配置可提前解锁2027年特性预览通道

更多请点击: https://intelliparadigm.com 第一章:VSCode 2026量子编程语法高亮的架构演进与技术定位 VSCode 2026 引入了原生支持量子计算语言(如 Q#、OpenQASM 3.0 和 Quil)的语法高亮引擎,其核心并非简单扩展 Tex…...

RP2040实现I2C-USB桥接:低成本传感器数据采集方案

1. 项目概述:RP2040变身I2C-USB桥接器 去年在调试一个环境监测项目时,我遇到了一个棘手问题:需要将多个I2C传感器(温湿度、气压、空气质量)的数据实时采集到笔记本电脑进行分析,但手头的开发板没有USB主机…...

NVIDIA Nemotron如何优化RAG系统的查询重写技术

1. RAG系统面临的挑战与NVIDIA Nemotron的解决方案 检索增强生成(RAG)系统在实际应用中面临的核心难题是用户查询的模糊性和隐含意图。当用户提出"告诉我NVIDIA NeMo模型训练的最新更新"这样的问题时,系统很难准确判断用户真正关心…...

DeepSeek V4写论文不被检测攻略,2026年4月3款工具配

DeepSeek V4 在 2026 年 4 月 24 日刚发布,写出来的论文比 V3 顺多了,但 AI 率却没真正降下去。很多人把生成的稿子直接交上去,知网、维普、万方一查,AIGC 疑似度 50% 起步,不少人甚至冲到 70%。这篇是 2026 年 4 月最…...

DeepSeek V4降AI完全手册,2026年4月从0到95分实测

DeepSeek V4 在 2026-04-24 凌晨发布,写论文的同学群里直接炸了。新版本的语义连贯性比 V3 提升了一个台阶,写出来的段落读起来更顺,但也带来一个让人头疼的副作用:AI 痕迹更整齐、更规整,知网 AIGC 检测命中率明显上升…...

DeepSeek V4降AI痕迹避坑指南,2026年4月8个常见错误

DeepSeek V4降AI痕迹避坑指南,2026年4月8个常见错误 DeepSeek V4 在 2026 年 4 月 24 日正式发布,新版本的语言流畅度比 V3 又上了一个台阶,但也因此让"AI 痕迹"问题变得更隐蔽。很多同学拿 DeepSeek V4 写完论文,第一次…...

终极解决方案:如何用MaaAssistantArknights实现游戏日常任务自动化

终极解决方案:如何用MaaAssistantArknights实现游戏日常任务自动化 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址:…...

SWE-agent:基于LLM的自主代码修复智能体实战指南

1. 从GitHub问题到自动修复:SWE-agent深度解析与实战 如果你是一名开发者,每天打开GitHub看到待处理的issue列表,是不是偶尔会想,要是能有个“数字实习生”自动把这些bug修了该多好?或者,作为一名安全研究…...

OpenRGB终极指南:一个软件统一控制所有RGB设备,告别多软件混乱时代

OpenRGB终极指南:一个软件统一控制所有RGB设备,告别多软件混乱时代 【免费下载链接】OpenRGB Open source RGB lighting control that doesnt depend on manufacturer software. Supports Windows, Linux, MacOS. Mirror of https://gitlab.com/CalcProg…...

基于LLM的浏览器智能体Index:从原理到实战部署指南

1. 项目概述:一个能“看懂”网页并自主操作的AI智能体 最近在折腾AI自动化工具,发现了一个让我眼前一亮的开源项目—— Index 。简单来说,它是一个 基于大语言模型(LLM)的浏览器智能体 。你可以把它理解为一个拥有…...

3个步骤彻底解决Android应用下载安全隐患:APKMirror客户端深度解析

3个步骤彻底解决Android应用下载安全隐患:APKMirror客户端深度解析 【免费下载链接】APKMirror 项目地址: https://gitcode.com/gh_mirrors/ap/APKMirror 在Android生态中,你是否曾为寻找安全可靠的应用下载渠道而烦恼?面对网络上良莠…...

用STM32CubeMX快速配置SDIO+FATFS,实现SD卡文件系统读写(附工程源码)

STM32CubeMX实战:5分钟完成SDIOFATFS配置实现高速SD卡读写 在物联网设备和边缘计算场景中,本地数据存储是不可或缺的功能模块。传统基于SPI接口的SD卡操作不仅速度受限,还需要开发者手动处理底层协议。本文将演示如何通过STM32CubeMX工具&am…...

2026年餐饮外卖小程序选型:从成本、功能到避坑,5家平台全解析

2026年餐饮外卖小程序选型:从成本、功能到避坑,5家平台全解析 在移动互联网全面渗透餐饮行业的今天,小程序已成为餐饮商家不可或缺的线上经营阵地。从堂食到外卖,从到店自提到私域流量沉淀,一款功能完备、稳定可靠的外…...

# 2026年SaaS小程序制作平台对比:乔拓云、有赞、微盟

2026年SaaS小程序制作平台对比:乔拓云、有赞、微盟 SaaS小程序制作平台对比:乔拓云、有赞、微盟的深度剖析 在数字化转型浪潮中,微信小程序已成为企业触达用户、拓展线上业务的核心载体。面对市场上琳琅满目的SaaS小程序制作平台,…...

创想三维携AI教育全矩阵亮相第87届教装展,构建3D打印教育新范式

在教育数字化转型进入深化阶段后,围绕“如何培养创新能力”的讨论,正从课程设计延伸至工具体系本身。 4月24日至26日,第87届中国教育装备展示会在成都举行。多家厂商围绕人工智能、数字制造等方向集中展示解决方案。其中3D打印相关产品的呈现…...

Python测试中如何控制顺序_使用pytest-ordering自定义执行流

...

找了 3 年的网安资源站!一次性全公开,被删即绝版

黑客网站大全!都在这了!速看被删就没了 我们学习网络安全,很多学习路线都有提到多逛论坛,阅读他人的技术分析帖,学习其挖洞思路和技巧。但是往往对于初学者来说,不知道去哪里寻找技术分析帖,也…...

DeepSeek V4 全解析:百万上下文背后的技术牌,国产算力正式迈过临界点

等了几个月的 DeepSeek V4 终于落地。同一天,OpenAI 也发布了 GPT‑5.5。当长上下文成为标配,真正的分水岭不再是“能不能装下”,而是“装下之后还能不能跑得动”。目录一、跳票三次之后:DeepSeek 终于亮牌二、本质变化&#xff1…...

测试工程师真的比开发低一等吗?

很多在校生第一次了解软件行业时,脑子里大概会有一个排序:开发最好,算法更高级,测试像是退而求其次。甚至还有人会觉得:“我代码不太强,是不是只能去做测试?”这句话听上去很现实,但…...

TV Bro:专为电视遥控器优化的智能浏览器,彻底改变大屏上网体验

TV Bro:专为电视遥控器优化的智能浏览器,彻底改变大屏上网体验 【免费下载链接】tv-bro Simple web browser for android optimized to use with TV remote 项目地址: https://gitcode.com/gh_mirrors/tv/tv-bro 还在为智能电视上网的糟糕体验而烦…...

3分钟恢复Windows 11任务栏拖放功能:简单高效的终极解决方案

3分钟恢复Windows 11任务栏拖放功能:简单高效的终极解决方案 【免费下载链接】Windows11DragAndDropToTaskbarFix "Windows 11 Drag & Drop to the Taskbar (Fix)" fixes the missing "Drag & Drop to the Taskbar" support in Windows…...

2026最权威的六大降AI率助手推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 核心要点是,削弱生成文本规律性特征,以降低AIGC检测率。首先&#x…...

跨国团队必备:3步将飞书国际版文档转换为Markdown

跨国团队必备:3步将飞书国际版文档转换为Markdown 【免费下载链接】feishu2md 一键命令下载飞书文档为 Markdown(寻找维护者) 项目地址: https://gitcode.com/gh_mirrors/fe/feishu2md 当新加坡分公司的产品经理Sarah需要将Lark文档转…...

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间,指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2025届毕业生推荐的六大AI学术助手实测分析

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 要将人工智能生成内容里的机械感以及冗余性给消除掉,就得从指令的源头着手进行降…...