当前位置: 首页 > article >正文

ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈

击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达作者张子程(授权发布) | 编辑3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统视频课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入导读在机器人感知的世界里看得快和建得好从来是一对不可兼得的矛盾。现有的单目高斯SLAM方法虽然能用一颗RGB摄像头重建出逼真的三维场景但它们有一个致命的瓶颈——每一帧都要从零训练高斯速度被死死卡在1 FPS以下。这就好比让一个画家每画一幅画都要从磨颜料开始无论多有天赋也快不起来。更要命的是单帧深度估计天生没有统一的尺度帧与帧之间的几何各说各话累积下来就是严重的漂移——地图越长越歪。这一次复旦大学、上海科技大学、上海交通大学联合提出了Flash-Mono——一个彻底颠覆传统范式的单目高斯SLAM系统。它用一个循环前馈大模型直接预测相机位姿和每像素的高斯属性将从零训练变为预测精调一举实现了10倍以上的速度提升首次让单目GS-SLAM迈入真正的实时10 FPS时代。不仅如此它还创造性地利用隐状态作为子地图描述符来实现回环检测通过Sim(3)全局优化彻底消除累积漂移在跟踪精度和建图质量上全面碾压现有方法。该工作已被ICLR 2026接收。Flash-Mono在复杂多房间场景中的重建效果与各项指标雷达图对比。右侧雷达图展示了渲染质量PSNR、SSIM、LPIPS和轨迹跟踪精度ATEFlash-Mono在各维度上全面领先同时速度提升10倍。论文出处ICLR 2026论文标题Flash-Mono: Feed-Forward Accelerated Gaussian Splatting Monocular SLAM论文作者Zicheng Zhang, Ke Wu, Xiangting Meng, Keyu Liu, Jieru Zhao, Wenchao Ding作者单位复旦大学、上海科技大学、上海交通大学项目主页https://victkk.github.io/flash-mono1 — 为什么现有方法这么慢一个范式级的瓶颈要理解Flash-Mono的突破性我们首先要搞清楚为什么当前最好的单目GS-SLAM方法连1 FPS都跑不到答案藏在一个词里Train-from-Scratch从零训练。现有方法如MonoGS、DepthGS、S3PO-GS等每来一帧新图像都需要随机初始化高斯属性 → 渲染 → 计算loss → 反向传播 → 更新参数重复数百次。一次迭代大约20ms一帧下来就需要将近一秒。这还没算跟踪、回环等开销。更棘手的是这些方法依赖单帧深度估计网络来提供几何先验但单目深度本质上是尺度不一致的——第一帧预测的1米和第十帧预测的1米可能差了好几倍。随着序列变长漂移像滚雪球一样越积越大最终地图面目全非。Flash-Mono的核心洞察是与其让高斯从零学习不如用一个强大的前馈模型直接预测出来然后只做轻量化精调。这就是从Train-from-Scratch到Predict-and-Refine的范式跃迁。2 — Flash-Mono三大核心模块重塑单目SLAMFlash-Mono的系统架构由三个精心设计的核心模块组成循环前馈前端、隐状态回环检测和2DGS建图后端。下面逐一拆解。Flash-Mono系统架构。对于每帧新图像循环前馈模型基于隐状态联合推断相机位姿和每像素2DGS属性。流式输入被切分为子地图历史隐状态缓存在隐状态集合中。回环检测时只需基于历史隐状态做一次前向传播即可完成重定位随后通过位姿图优化校正全局轨迹。2.1 循环前馈前端一次前向传播搞定一切这是Flash-Mono的灵魂所在。传统方法对每一帧做数百次迭代优化Flash-Mono只需一次前向传播就能同时输出相机位姿每像素2D高斯属性位置、颜色、透明度、旋转、尺度更新后的隐状态其核心是一个有状态的Transformer架构。每帧图像先通过ViT编码器提取视觉token再通过双解码器与持久化隐状态进行交叉注意力交互。隐状态像一个记忆体不断聚合历史帧的几何和外观信息让模型在预测当前帧时拥有多帧上下文从根本上解决了单帧预测缺乏一致性的痛点。数学上整个过程简洁到令人震撼一个公式搞定位姿估计稠密建图状态更新。为什么这么快因为它完全绕开了传统方法中耗时的渲染→反传→更新循环。模型在大规模数据集DL3DV、ScanNet上经过充分训练后已经学会了看一眼就知道怎么建图的能力。后端只需在此基础上做20次精调迭代对比MonoGS的250次即可获得高质量的渲染结果。2.2 隐状态回环检测SLAM界的过目不忘单目SLAM最头疼的问题之一是累积漂移——走了一大圈回到起点却发现地图对不上了。传统回环检测依赖特征匹配PnPRANSAC不仅计算量大而且在单目系统中无法感知尺度变化。Flash-Mono提出了一个极其巧妙的方案把隐状态当作子地图的身份证。具体来说系统将输入流切分为多个子地图submap每个子地图结束时将其最终隐状态缓存到一个隐状态集合Bag of Hidden States中。当系统通过外观匹配SalAD检测到回访旧区域时取出历史隐状态将当前帧送入模型做一次前向传播模型会自动在历史坐标系下重定位当前帧输出跨子地图的位姿约束通过比较同一帧在两个坐标系下的点云鲁棒地估计相对尺度将完整的Sim(3)约束输入位姿图优化一次性校正整条轨迹这个方案的精妙之处在于一次前向传播就能拿到精确的回环约束而传统方法需要特征匹配几何验证多次优化。消融实验证明这种隐状态回环检测方案显著优于传统PnPRANSAC方案在跟踪精度上有大幅领先。2.3 2D高斯后端更好的几何更少的飞点在场景表示上Flash-Mono放弃了传统的3D高斯椭球转而采用2D高斯面元Surfel。为什么因为3D高斯本质上是体积基元缺乏显式的表面约束容易产生漂浮伪影floater。而2D高斯面元天然是平面的提供了更强的表面先验在几何重建精度上有本质优势——对于SLAM这种小误差会快速累积的场景这一点尤为关键。后端流程包括四个阶段自适应体素化将过于密集的前端预测进行2×2合并减少58%的高斯数量PSNR仅下降0.26地图融合将新帧的高斯变换到世界坐标系并融入全局地图自动跳过已充分重建的区域轻量化精调仅需20次迭代即可获得高质量渲染因为前端预测已提供了极强的先验回环校正回环后通过刚性变换高效更新高斯地图无需耗时的重新渲染优化3 — 实验全面碾压速度与质量双丰收Flash-Mono在三个极具挑战性的数据集上进行了全面评估ScanNet大规模室内、BundleFusion域外室内和KITTI大规模户外。所有实验在单张RTX 4090上完成。渲染质量定性对比。Flash-Mono重建的RGB图像在纹理细节、边缘清晰度上均优于MonoGS、DepthGS和S3PO-GS。跟踪精度力压MASt3R-SLAM在ScanNet和BundleFusion上Flash-Mono的ATE RMSE全面超越了所有传统SLAM(ORB-SLAM3、DROID-SLAM)和GS-SLAM(MonoGS、DepthGS、S3PO-GS)基线。值得注意的是它在大多数场景上还超越了MASt3R-SLAM——这是一个同样基于前馈模型的最新SLAM系统。方法ScanNet 0054ScanNet 0106BundleFusion copyroomBundleFusion office0ORB-SLAM3243.26178.1327.60116.33DROID-SLAM161.2289.1119.7131.41MonoGS70.19150.8953.4162.67MASt3R-SLAM13.2515.839.289.97Flash-Mono11.6910.837.348.74ATE RMSE (cm)越低越好建图质量用1/10的优化量打出更好的效果在LPIPS指标感知相似度上Flash-Mono在ScanNet和BundleFusion的所有11个场景上均取得第一名。PSNR指标同样在绝大多数场景上排名第一。要知道Flash-Mono每帧只做20次后端优化迭代而MonoGS和S3PO-GS需要250次。用1/10的计算量打出更好的效果——这就是Predict-and-Refine范式的威力。速度10倍加速碾压全场这是最震撼的数字方法ScanNet FPSBundleFusion FPSMonoGS0.691.00S3PO-GS0.710.94DepthGS1.571.28Flash-Mono12.7111.99Flash-Mono在ScanNet上达到12.71 FPS是最快基线DepthGS的8倍是主流方法MonoGS的18倍。这意味着单目GS-SLAM第一次真正达到了实时运行的标准。几何精度深度重建更准深度渲染定性对比。Flash-Mono的深度图更加平滑、边界更锐利其他方法的深度图存在明显的噪声和孔洞在Depth L1误差指标上Flash-Mono在ScanNet上的平均误差为0.34m远低于DepthGS的0.49m和S3PO-GS的0.52m说明2DGS面元表示带来了实质性的几何精度提升。户外泛化KITTI上同样强劲在大尺度户外场景KITTI上Flash-Mono同样全面领先S3PO-GS唯一能在户外跑通的GS-SLAM基线。特别地S3PO-GS在KITTI 07上直接失败而Flash-Mono依然稳定运行。轨迹估计定性对比。彩色轨迹为各方法的估计结果蓝色低误差红色高误差灰色虚线为真值。Flash-Mono的轨迹几乎与真值完全重合而其他方法存在明显的偏离和漂移。ScanNet 0054场景重建对比。该场景为多房间公寓含光照变化所有基线方法均未能完整重建而Flash-Mono成功重建出完整场景。4 — 更多亮点部署友好笔记本也能跑Flash-Mono整个模型约7.96亿参数推理仅需3GB显存。经过FP16量化和CUDA Graph加速后在笔记本级显卡RTX 4060上也能达到85ms/帧的推理速度接近桌面RTX 4090的62ms。这为边缘端部署打开了大门。5 — 总结Flash-Mono完成了一次真正的范式革命它让单目高斯SLAM从每帧从零训练的笨拙模式跃迁到一次预测轻量精调的优雅范式。10倍的速度提升不是靠牺牲质量换来的——恰恰相反Flash-Mono在跟踪精度、渲染质量、几何精度上同时达到了SOTA水平。隐状态回环检测机制更是优雅地解决了单目SLAM中长期存在的漂移问题展示了前馈大模型在SLAM领域的巨大潜力。一个有趣的未来方向是如果将这种隐状态记忆机制与语义理解相结合是否能让机器人不仅记住去过哪里还能理解到过什么地方从空间记忆到场景语义或许正是具身智能走向成熟的下一步。论文链接https://victkk.github.io/flash-mono作者团队复旦大学、上海科技大学、上海交通大学本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

相关文章:

ICLR 2026 | 复旦上交上科等提出Flash-Mono:10倍加速!单目高斯SLAM首次突破实时瓶颈

击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达作者:张子程(授权发布) | 编辑:3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统视频课程、300场顶会讲解、顶会论文最…...

SSM框架在零售业数字化转型中的实践:超市管理系统全流程解析

1. 为什么零售业需要数字化转型? 最近几年我走访了不少中小型超市,发现一个共同痛点:很多老板还在用纸质小本本记录进货和销售数据,月底对账时经常出现"货卖完了但钱对不上"的情况。有个开社区超市的张老板跟我吐槽&am…...

基于STC89C52与ADC0832的智能浇花系统设计与实现(附完整工程)

1. 智能浇花系统设计背景与核心思路 养花爱好者最头疼的问题莫过于出差或旅行时植物无人照料。传统定时浇水方案无法感知土壤实际湿度,容易导致浇水不足或过度。我在三年前第一次尝试用STC89C52制作自动浇花装置时,就遇到过水泵频繁误启动把多肉植物淹死…...

5分钟快速上手eRPC:从零构建你的第一个RPC服务

5分钟快速上手eRPC:从零构建你的第一个RPC服务 【免费下载链接】erpc An efficient, extensible and easy-to-use RPC framework. 项目地址: https://gitcode.com/gh_mirrors/er/erpc eRPC是一个高效、可扩展且易于使用的RPC框架,让开发者能够快速…...

[Windows] 【灵犀Claw生成】酷狗加密音乐批量转换工具 Xy Music Converter

[Windows] 【灵犀Claw生成】酷狗加密音乐批量转换工具 Xy Music Converter 链接:https://pan.xunlei.com/s/VOpuKcE0FNYMKlwilQJVdXdIA1?pwddbwa# Xy Music Converter 是一款免费、绿色、免安装的 Windows 桌面工具,专门用于将酷狗音乐下载的加密格式…...

工业视觉光源频闪同步:三种主流触发模式的实战选型与调优

1. 工业视觉光源频闪同步的核心价值 在高速产线飞拍、精密装配检测等工业视觉场景中,光源频闪同步技术就像给高速运动的物体按下"暂停键"。想象一下拍摄飞驰的子弹——如果使用普通连续光,照片上只会得到一条模糊的轨迹;而采用精准…...

机器人跟随算法

REF:基于多机器人路径规划与编队控制的优化研究1. 基础模型RRT(快速随机树)算法:模拟树的生长过程,起始点为树的根节点,在环境中随机采样作为树的叶节点,从最近节点到目标点的方向上&#xff0c…...

3大难题如何破解:猫抓浏览器资源嗅探扩展终极指南

3大难题如何破解:猫抓浏览器资源嗅探扩展终极指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓(cat-catch&#xff…...

从零开始:基于TensorFlow和卷积神经网络的交通标志识别实战指南

1. 环境配置与工具安装 第一次接触深度学习项目时,环境配置往往是最让人头疼的环节。记得我刚开始做图像识别项目时,光是配环境就折腾了两天。现在回想起来,其实只要掌握正确的方法,整个过程可以非常顺畅。 对于交通标志识别项目&…...

ArcGIS Pro2.5深度学习实战:从数据标注到模型部署全流程解析

1. 数据标注:为深度学习准备高质量训练样本 在ArcGIS Pro2.5中进行深度学习的第一步就是数据标注,这相当于给AI准备"学习资料"。我刚开始接触时,以为随便标注几个样本就能训练出好模型,结果踩了不少坑。这里分享几个关键…...

如何用Zotero Style插件高效管理文献:从阅读追踪到智能标签的完整攻略

如何用Zotero Style插件高效管理文献:从阅读追踪到智能标签的完整攻略 【免费下载链接】zotero-style Ethereal Style for Zotero 项目地址: https://gitcode.com/GitHub_Trending/zo/zotero-style Zotero Style插件是一款能够彻底改变你文献管理体验的Zoter…...

COSEM/DLMS协议栈解析:从对象模型到APDU的通信之旅

1. 从电表读数看COSEM/DLMS协议栈 想象一下这样的场景:你拿着手机APP查看家里电表的实时用电量,这个看似简单的操作背后,其实隐藏着一套精密的通信协议体系。这就是我们今天要拆解的COSEM/DLMS协议栈,它就像电能计量领域的"普…...

告别手动记录:5分钟掌握椰羊cocogoat自动化圣遗物管理

告别手动记录:5分钟掌握椰羊cocogoat自动化圣遗物管理 【免费下载链接】cocogoat-client A toolbox for Genshin Impact to export artifacts automatically. 支持圣遗物全自动导出的原神工具箱,保证每一行代码都是熬夜加班打造。 项目地址: https://g…...

Huntarr实战案例:如何从零搭建完整的媒体自动化系统

Huntarr实战案例:如何从零搭建完整的媒体自动化系统 【免费下载链接】Sonarr-Hunter Assists Sonarr to check for missing TV Shows 项目地址: https://gitcode.com/gh_mirrors/so/Sonarr-Hunter Huntarr是一款强大的媒体自动化工具,能够帮助用户…...

别再死记硬背‘电角度=机械角度*极对数’了!用Python模拟一个7对极无刷电机,带你直观理解FOC核心概念

用Python模拟7对极无刷电机:从代码透视FOC核心公式的本质 当你第一次在FOC控制文档中看到"电角度机械角度极对数"这个公式时,是否也曾困惑于它背后的物理意义?传统教材往往直接抛出这个定义,却很少解释为什么多极电机中…...

终极指南:如何用GPT-Author快速生成专业EPUB电子书

终极指南:如何用GPT-Author快速生成专业EPUB电子书 【免费下载链接】gpt-author 项目地址: https://gitcode.com/GitHub_Trending/gp/gpt-author GPT-Author是一款强大的电子书生成工具,能帮助用户快速创建专业的EPUB格式电子书。本指南将详细介…...

终极Saasfly第三方服务集成指南:如何快速添加支付网关和认证提供商

终极Saasfly第三方服务集成指南:如何快速添加支付网关和认证提供商 【免费下载链接】saasfly Your Next SaaS Template or Boilerplate ! A magic trip start with bun create saasfly . The more stars, the more surprises 项目地址: https://gitcode.com/GitHu…...

给大家普及下大模型微调需达到的学习强度

🌟个人背景:非双一流本科计算机专业,线性代数曾勉强及格。90 天内精读 100 篇论文,成功复现 LLaMA 架构,还跻身 Kaggle LLM 赛道前 5%。每日从早 8 点忙到午夜 12 点,代码实操与 GPU 持续运转,…...

建议大家都去油管学ai agent真的能打破信息差

① Jeff su 视频节奏快、内容直给,特别适合普通人想用AI做点实际事儿的,比较入门和实用;比如他用8分钟说清楚怎么写好prompt、怎么用AI agent,讲得清楚又好跟,新手照做就能上手。 ② Andrej Karpathy 大神本神&…...

MusePublic人像生成全攻略:提示词技巧与参数设置详解

MusePublic人像生成全攻略:提示词技巧与参数设置详解 1. 理解MusePublic的核心能力 MusePublic是一款专为艺术感时尚人像创作优化的AI图像生成系统。与通用型AI绘画工具不同,它更像是一位专攻人像摄影的艺术大师,经过特殊训练能够精准捕捉人…...

终极任务栏分组工具:5分钟掌握桌面高效管理

终极任务栏分组工具:5分钟掌握桌面高效管理 【免费下载链接】taskbar-groups Lightweight utility for organizing the taskbar through groups 项目地址: https://gitcode.com/gh_mirrors/ta/taskbar-groups Taskbar Groups 是一款轻量级的任务栏分组管理工…...

终极指南:Adafruit GFX库带你轻松玩转嵌入式图形编程

终极指南:Adafruit GFX库带你轻松玩转嵌入式图形编程 【免费下载链接】Adafruit-GFX-Library Adafruit GFX graphics core Arduino library, this is the core class that all our other graphics libraries derive from 项目地址: https://gitcode.com/gh_mirror…...

Marketch终极指南:如何快速将Sketch设计稿转换为HTML页面

Marketch终极指南:如何快速将Sketch设计稿转换为HTML页面 【免费下载链接】marketch Marketch is a Sketch 3 plug-in for automatically generating html page that can measure and get CSS styles on it. 项目地址: https://gitcode.com/gh_mirrors/ma/marketc…...

如何用CubeMX+Keil快速搞定DS1302时钟驱动?超详细配置教程

STM32CubeMX与Keil协同开发:DS1302实时时钟模块高效驱动指南 1. 实时时钟模块选型与DS1302核心特性解析 在嵌入式系统设计中,实时时钟(RTC)模块的选择往往需要权衡精度、功耗和接口复杂度。DS1302作为一款经典的串行接口时钟芯片,以其独特的…...

如何用Flow重新定义你的ePub阅读体验:终极开源解决方案

如何用Flow重新定义你的ePub阅读体验:终极开源解决方案 【免费下载链接】flow Browser-based ePub reader 项目地址: https://gitcode.com/gh_mirrors/flo/flow Flow是一款基于浏览器的开源ePub阅读器,它彻底改变了我们在数字设备上阅读电子书的方…...

GLM-4.1V-9B-Base实战案例:短视频封面图内容审核与敏感要素识别

GLM-4.1V-9B-Base实战案例:短视频封面图内容审核与敏感要素识别 1. 短视频封面审核的行业痛点 在短视频内容爆炸式增长的今天,封面图作为吸引用户点击的第一道门面,其内容质量直接影响平台生态和用户体验。然而,人工审核海量封面…...

bitcoin-arbitrage自动化交易实战:TraderBot和TraderBotSim详解

bitcoin-arbitrage自动化交易实战:TraderBot和TraderBotSim详解 【免费下载链接】bitcoin-arbitrage Bitcoin arbitrage - opportunity detector 项目地址: https://gitcode.com/gh_mirrors/bi/bitcoin-arbitrage 在加密货币交易领域,利用不同交易…...

DeepChat技术亮点:锁定ollama-python客户端版本解决API不兼容问题

DeepChat技术亮点:锁定ollama-python客户端版本解决API不兼容问题 1. 项目概述 DeepChat是一个基于本地化部署的深度对话引擎,它集成了业界领先的Ollama大模型运行框架,并默认搭载了Meta AI强大的llama3:8b模型。这个解决方案从零开始构建了…...

sslscan实战:5个真实场景教你检测TLS安全漏洞

sslscan实战:5个真实场景教你检测TLS安全漏洞 【免费下载链接】sslscan sslscan tests SSL/TLS enabled services to discover supported cipher suites 项目地址: https://gitcode.com/gh_mirrors/ss/sslscan sslscan是一款强大的SSL/TLS安全检测工具&#…...

Asian Beauty Z-Image Turbo开箱即用:浏览器访问即启东方人像生成服务

Asian Beauty Z-Image Turbo开箱即用:浏览器访问即启东方人像生成服务 1. 项目简介 Asian Beauty Z-Image Turbo是一款专注于东方美学人像生成的本地化工具,基于通义千问Tongyi-MAI Z-Image底座模型,结合专门训练的Asian-beauty权重开发而成…...