当前位置: 首页 > article >正文

告别穿模与漂移!南洋理工团队提出HMR新框架:用视觉大模型对齐人体姿态

点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文一作投稿发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入单靠一张RGB照片还原精准的3D人体模型究竟有多难虽然基于扩散模型Diffusion Models的人体姿态估计方法让生成结果变得多样化但“幻觉”也随之而来人体四肢莫名穿透身体、脚底悬空、或者在复杂遮挡下姿态完全走样。针对这些顽疾来自南洋理工大学(NTU)、香港科技大学(广州)、商汤科技以及A * STAR的研究团队提出了一种全新方案VLM-Guided Group Preference Alignment。他们开发了一个具备“双重记忆”和“自我反思”能力的VLM裁判代理并提出了一套全新的群体偏好对齐Group Preference Alignment框架。该框架灵感源自大语言模型中爆火的 GRPO 技术并将其首次成功适配到 3D 人体网格恢复HMR领域显著提升了模型在野外复杂场景下的表现。目前该论文已被 CVPR 2026 接收。01 痛点为什么扩散模型也会“飘”在单目HMR任务中由于深度信息的缺失同一个2D观察在数学上可能对应无数种3D姿态。现有的扩散模型虽然能生成多个候选结果来覆盖这种不确定性但由于缺乏显式的3D几何约束生成的模型往往“中看不中用”物理不可行四肢比例失调或者手脚穿过身体穿模。深度歧义在侧面视角下人体与背景或自身的深度关系完全错乱。图像漂移虽然3D姿态看上去还行但投影回2D画面时与原图人像无法重合。传统的优化方法或判别网络Scorer往往只看2D特征容易被遮挡和杂乱背景误导。那么能不能请一位懂几何、懂语义、还懂物理常识的“老师”来指点模型呢02 创新一给VLM裁判装上“双重记忆”与“反思脑”研究团队发现多模态大模型VLM本身就蕴含了丰富的人体语义和空间逻辑。但直接让它打分往往会遇到“标准不统一”、“打分随性”的问题。 为了让裁判更专业、更稳定研究人员为VLM裁判构建了双重记忆机制规则记忆Rule Memory这相当于一本“避坑指南”存储了如“肢体长度比例一致性”、“关节极限角度”、“深度一致性”等硬性物理准则。原型记忆Prototype Memory这相当于一套“错题本”和“范文集”存储了过去判断过的典型成功案例和失败反面教材。更核心的设计在于自我反思Self-reflection能力。在探索阶段裁判会自动对比预测结果与真实值GT的差异如果发现自己判断失误它会通过反思自主总结并提炼出新的判断规则。 有了这套机制裁判在评价野外复杂场景时能表现出更好的逻辑一致性。03 创新二HMR领域的“GRPO”实验受 DeepSeek 等模型中 GRPO 算法的启发团队提出了专为人体重建设计的群体偏好对齐框架。 这种方法不再局限于“两两比较DPO”因为在HMR这种多假设生成任务中 pairwise 比较难以捕捉全方位的最优方向。该框架针对同一张图生成的一组Group候选预测进行整体评估群体“内卷”通过 VLM 裁判打分并转化为相对优势Advantages精准识别最自然的姿态。无标签训练该过程完全不需要 3D 真值标签模型可以直接利用海量无标注的野外照片进行微调打破了实验室数据集的局限。04 效果实测遮挡再重逻辑不乱实验结果显示该方法在 3DPW 和 Human3.6M 等权威数据集上均刷新了记录。特别是在野外场景的 3DPW 测试集上其 MPJPE 误差相比之前的生成式 SOTA 模型降低了 8.2%。看这几个细节在极端遮挡下如冲浪、打电话即便手臂被挡住大半新模型依然能推导出符合生理逻辑的3D姿态。在复杂交互中有效消除了人体自有的“穿模”现象让模型在侧面观察下也显自然。05 总结与展望从人体到万物一种通用的空间逻辑对齐范式这项研究证明了大模型裁判群体偏好对齐在极度依赖空间逻辑的 3D 感知领域潜力巨大。这种架构更展示了一种通用的视觉对齐范式其应用场景远不止于HMR3D 场景重建纠正家具重建中的畸变或悬空。机器人交互引导机器人学习更符合生物力学的交互动作。AIGC 物理对齐解决视频生成中的形体崩溃和物理违和感。将视觉常识与生成模型的灵活性通过偏好学习相结合是通往物理真实感 AI 的关键一步。当然这一方法仍有其局限性由于提出的群体偏好对齐框架在偏好数据集构造阶段涉及多样本生成与频繁的 VLM 调用其计算成本相对较高且对齐效果上限仍受限于底层 VLM 对 3D 几何的理解深度。未来随着多模态大模型能力的进一步增强这种“以智治智”的范式进化或许将彻底改变 AI 生成与理解 3D 物理世界的方式。团队介绍该论文的作者来自南洋理工大学S-Lab、香港科技大学广州、商汤科技及 A* STAR 研究所。发表CVPR 2026论文链接https://arxiv.org/abs/2602.19180.本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。

相关文章:

告别穿模与漂移!南洋理工团队提出HMR新框架:用视觉大模型对齐人体姿态

点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达本文一作投稿发布 | 来源:3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉…...

CPAL脚本自动化测试 ———— 深度解析Test Report系列函数与应用场景

1. 为什么我们需要定制化测试报告? 在车载网络测试领域,特别是涉及自动驾驶功能的验证时,一个标准的测试报告往往无法满足工程师的需求。想象一下,当你花了三天三夜跑完2000个测试用例后,拿到的报告却只有简单的"…...

OpenClaw与千问3.5-35B-A3B-FP8低成本方案:自建模型接口替代OpenAI高价调用

OpenClaw与千问3.5-35B-A3B-FP8低成本方案:自建模型接口替代OpenAI高价调用 1. 为什么需要替代OpenAI高价调用 去年冬天的一个深夜,我盯着OpenAI API账单上那个刺眼的数字——$127.83,这只是一个月的测试费用。当时我正在用OpenClaw做一个自…...

提升效率:用快马一键生成模块化openclaw控制代码库

最近在做一个机器人项目,需要控制openclaw机械爪完成各种抓取任务。刚开始自己从头写控制代码时,发现光是启动流程就要处理一堆底层细节,比如初始化通信、校准位置、设置默认参数等等,不仅重复劳动,还容易出错。后来尝…...

STM32标准库开发入门与实战指南

1. STM32入门指南:从零开始掌握标准库开发作为一名嵌入式开发者,我深知STM32的学习曲线有多陡峭。记得我第一次接触STM32时,面对密密麻麻的寄存器手册和复杂的开发环境,完全不知从何入手。经过多年的项目实践和教学经验&#xff0…...

OpenClaw跨平台控制:Qwen3.5-9B管理多台电脑

OpenClaw跨平台控制:Qwen3.5-9B管理多台电脑 1. 为什么需要跨设备自动化管理 去年夏天,我同时处理三个项目时遇到了一个典型问题:每天需要在三台不同电脑上重复执行数据同步、日志收集和报告生成。手动操作不仅耗时,还经常遗漏步…...

Vivado Linux版安装空间不足?手把手教你如何优化磁盘空间分配

Vivado Linux版安装空间优化实战指南:从130G到80G的瘦身方案 当你在Linux系统上第一次看到Vivado安装程序提示需要130GB以上的磁盘空间时,那种震惊感我至今记忆犹新。作为一名长期在ThinkPad X1 Carbon上工作的FPGA开发者,我深刻理解空间受限…...

STM32精准延时实现与Keil调试技巧

1. 精准延时在单片机开发中的重要性在STM32等嵌入式系统开发中,精准延时是基础但至关重要的功能。我最近调试一块自制的STM32开发板时,就遇到了需要精确控制时序的场景。比如在驱动LCD屏幕时,某些控制信号需要维持15ms的精确延时,…...

Winbond W25N/W25M系列SPI NAND Flash驱动开发指南

1. Winbond W25N系列SPI NAND Flash驱动库技术解析Winbond W25N系列(含W25N01GV、W25N02GV等)与W25M系列(如W25M02GW双芯片封装)是工业级高可靠性SPI NAND Flash存储器,广泛应用于嵌入式系统中替代传统并行NAND或eMMC方…...

DLSS Swapper:3步解锁游戏性能倍增的AI优化工具

DLSS Swapper:3步解锁游戏性能倍增的AI优化工具 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper DLSS Swapper是一款专为PC游戏玩家设计的深度学习超级采样(DLSS)版本管理工具,通过智能环境诊断、…...

AI绘画工作流:OpenClaw调度千问3.5-35B-A3B-FP8生成SD提示词

AI绘画工作流:OpenClaw调度千问3.5-35B-A3B-FP8生成SD提示词 1. 为什么需要自动化提示词生成 在Stable Diffusion创作中,最耗时的环节往往不是渲染过程,而是反复调试提示词(prompt)。我曾在一次商业插画项目中&#…...

抖音视频批量下载终极指南:5分钟掌握免费去水印技巧

抖音视频批量下载终极指南:5分钟掌握免费去水印技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…...

OpenClaw截图分析进阶:千问3.5-9B识别UI元素与操作建议

OpenClaw截图分析进阶:千问3.5-9B识别UI元素与操作建议 1. 为什么需要截图分析能力? 上周我在测试一个内部工具时遇到了一个典型问题——某个按钮在特定分辨率下会消失不见。手动排查需要反复调整窗口尺寸并肉眼检查,效率极低。这时我想到了…...

嵌入式轻量级数值优化库:面向MCU的确定性参数寻优方案

1. 项目概述Optimization 是一个面向嵌入式平台的轻量级数值优化库,专为 Arduino 及兼容 MCU(如 STM32、ESP32、nRF52 等)设计,其核心目标是在资源受限环境下,对用户定义的单目标标量函数 f(x₁, x₂, ..., xₙ) 进行参…...

OpenClaw自动化测试:Kimi-VL-A3B-Thinking多模态交互验证框架

OpenClaw自动化测试:Kimi-VL-A3B-Thinking多模态交互验证框架 1. 为什么需要AI驱动的自动化测试 去年接手一个客户端项目时,我遇到了一个典型痛点——每次发版前的手动回归测试需要3个人天。更麻烦的是,UI微调导致的视觉差异很难通过传统断…...

嵌入式系统XIP技术:原理、实现与优化

1. XIP技术核心概念解析eXecute In Place(XIP)技术是现代嵌入式系统中的一项关键创新。简单来说,它允许CPU直接从非易失性存储器(如NOR Flash)中读取并执行代码,而无需先将代码复制到RAM中。这种技术最早应…...

GetQzonehistory:终极QQ空间回忆一键保存指南

GetQzonehistory:终极QQ空间回忆一键保存指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 还在担心QQ空间里那些珍贵的青春记忆会随着时间消失吗?GetQzonehis…...

边缘检测算法选型指南:从Sobel到Canny的5个实际场景对比(含医疗/自动驾驶案例)

边缘检测算法实战选型:医疗影像与自动驾驶场景下的Sobel与Canny深度评测 在计算机视觉领域,边缘检测作为图像处理的基础环节,直接影响着后续特征提取和目标识别的准确性。面对医疗影像分析、自动驾驶感知等对精度和实时性要求极高的场景&…...

Figma Make 提示词工程化:构建从布局、组件、交互到风格的稳定设计系统

1. 从零散到系统:为什么需要工程化提示词 刚开始用Figma Make做设计时,我和大多数人一样,每次生成页面都要重新写一遍提示词。最头疼的是明明想要类似的风格,结果生成的页面总是"飘忽不定"——今天按钮圆角是8px&#x…...

Python数据分析实战:用Seaborn绘制炫酷相关性热力图(附完整代码)

Python数据分析实战:用Seaborn绘制炫酷相关性热力图 数据分析工作中,相关性分析是理解变量间关系的核心技能。而热力图作为直观展示相关性的工具,已经成为数据科学家和商业分析师的标准配置。本文将带你从零开始,掌握用Seaborn绘…...

DICOM序列实时渲染从28fps到126fps:C++无锁队列+GPU命令缓冲复用+ROI局部重绘的工业级调优日志

第一章:DICOM序列实时渲染性能跃迁全景概览 现代医学影像工作流对DICOM序列的实时可视化提出严苛要求:从百层CT扫描到高分辨率MRI动态序列,传统CPU软渲染方案常遭遇帧率跌破15 FPS、交互延迟超300ms的瓶颈。近年来,GPU加速管线、零…...

OpenClaw安全防护指南:Qwen3.5-9B-AWQ-4bit执行权限管控

OpenClaw安全防护指南:Qwen3.5-9B-AWQ-4bit执行权限管控 1. 为什么需要安全防护? 当我第一次在本地部署OpenClaw对接Qwen3.5-9B-AWQ-4bit模型时,最让我后怕的是发现它竟然能直接删除我的工作目录。这个开源智能体框架赋予了AI像人类一样操作…...

Windows 11上保姆级教程:用Ollama本地部署DeepSeek-R1 8B,再也不用担心API费用和网络延迟了

Windows 11本地AI部署实战:OllamaDeepSeek-R1 8B全流程指南 在AI技术快速发展的今天,越来越多的开发者和中小企业开始关注如何在本地环境中部署和运行大型语言模型。对于预算有限但对数据隐私有高要求的团队来说,本地部署不仅能显著降低成本&…...

仅限首批内测开发者获取:CPython无GIL预编译二进制+无锁标准库API速查表(含ABI兼容性矩阵与降级熔断方案)

第一章:Python无锁GIL环境下的并发模型概览Python 的全局解释器锁(GIL)长期被视为多线程 CPU 密集型任务的瓶颈。然而,随着 CPython 3.13 的正式引入“实验性无锁 GIL”(--without-pymalloc 配合 --with-gildisabled 构…...

OpenClaw多终端同步:手机遥控Phi-3-mini-128k-instruct执行电脑任务

OpenClaw多终端同步:手机遥控Phi-3-mini-128k-instruct执行电脑任务 1. 为什么需要手机遥控电脑? 上周五晚上十点半,我正躺在沙发上刷手机,突然想起有个重要文档忘在办公室电脑里了。如果按传统方式,我需要&#xff…...

C++27执行策略演进全图谱(从C++17到C++27 TS23742的5次关键修订与ABI兼容性断崖预警)

第一章:C27执行策略的范式跃迁与标准定位C27正将执行策略(Execution Policies)从“并行化提示”升格为“可验证执行契约”,标志着标准库算法语义模型的根本性重构。这一转变不再仅依赖实现对std::execution::par_unseq等策略的启发…...

家庭知识库中心:OpenClaw+Qwen3.5-9B管理个人数字资产

家庭知识库中心:OpenClawQwen3.5-9B管理个人数字资产 1. 为什么需要家庭知识库 去年搬家时,我在整理纸质文件的过程中发现一个严重问题:孩子的疫苗接种记录、房产合同、医疗报告等重要文档分散在多个文件夹中,紧急情况下根本找不…...

成本控制实战:OpenClaw+Qwen3.5-9B的Token消耗优化指南

成本控制实战:OpenClawQwen3.5-9B的Token消耗优化指南 1. 为什么需要关注Token消耗? 第一次用OpenClaw执行整夜自动化任务时,早上看到账单差点从椅子上跳起来——单次任务消耗了接近18万Token。这让我意识到,如果不加控制&#…...

隐私优先方案:OpenClaw+Qwen3-14B镜像处理敏感数据的5层防护

隐私优先方案:OpenClawQwen3-14B镜像处理敏感数据的5层防护 1. 为什么需要本地化隐私方案 去年处理一批客户调研数据时,我犯过一个致命错误——把包含联系方式的原始表格上传到某公有云AI平台进行清洗。三天后,公司邮箱突然收到匿名勒索邮件…...

千问3.5-2B部署教程:GPU利用率监控脚本(nvidia-smi + prometheus exporter)

千问3.5-2B部署教程:GPU利用率监控脚本(nvidia-smi prometheus exporter) 1. 引言 在部署和使用千问3.5-2B这类视觉语言模型时,GPU资源的高效利用至关重要。本教程将手把手教你如何搭建一个轻量级的GPU监控系统,实时…...