当前位置: 首页 > article >正文

最佳论文提名!DancingBox:一台手机,从任意物体捕捉角色动画!

点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐角色动画创作是现代影视游戏行业中艺术张力的基石。然而创作角色动画并非易事。现有动画创作流程中动作捕捉系统需要专门的设备和演出团队导致成本高昂3D 动画软件则需要专业动画师来操作因为在 2D 屏幕内编辑 3D 骨骼运动并不符合人类直觉此类软件往往学习曲线陡峭、经验要求极高。实践中一段动画从设计到交付的周期较长一段 15 秒的角色动画往往需要迭代数天才能完工。为了简化动作创作流程部分研究者们提出 “数字木偶戏” 问题希望通过直观操作物理代理如玩偶、手机、物理传感器、手指等将物理世界中直观演绎的动作转化为虚拟世界中角色的骨骼动画。然而现有系统往往采用基于小样本的、特定规则的、手工设计的传统机器学习算法只能够针对特定的输入物体产出特定预设的有限几种角色动画。这一技术路线不具有泛化能力极大限制了此类系统的实际应用价值。针对这一现状一个来自爱丁堡大学、蔚蓝海岸大学、清华大学的联合研究团队提出了 DancingBox并获得了人机交互Human-Computer Interaction领域顶会 ACM CHI 2026 的最佳论文提名。项目主页https://yyyyyhc.github.io/DancingBox-project-page论文链接https://arxiv.org/html/2603.17704v1代码链接https://github.com/YYYYYHC/DancingBoxDancingBox 第一次实现了仅需 RGB 相机对任意物体生效产出高质量角色动画的能力。下表 1 给出了其与现有工作的对比。表 1DancingBox 与现有工作的对比该团队重新思考了大模型时代的数字木偶戏问题与动作捕捉系统。他们发现将现有的几个视觉大模型结合已经可以实现对任意物体的粗略动作捕捉包围盒运动序列。考虑到视觉大模型空间精度有限且木偶戏类的演出往往缺失细节本研究进一步利用动作生成模型将粗略动捕结果 “翻译” 成对应的、精细的角色骨骼动画。图 1系统概览。本文展示的带模型角色动画使用默认 mesh 模型并由 Blender 插件自动重定向。如图 1DancingBox 系统仅需一台普通相机如手机地面标定如本文使用的视觉标定板等任意平坦物体及任意演出物体即可工作。能够将粗略的物体演出通过包围盒做中介转化为对应的真实感角色动画。系统实现DancingBox 系统分为两个模块基于视觉基础模型的粗略动作捕捉MoCap与基于扩散模型的精细动作生成MoGen。粗略动作捕捉MoCap图 2MoCap 系统。如图 2给定一段用户操作的物体视频该团队的做法是结合三个视觉基础模型SAM2 CoTracker3π3从 2D 输入中估计出 3D 包围盒运动序列。具体而言先使用 π3将视频逐帧转化为 3D 单目点云。而后为了定位感兴趣的物体和抽象层次用户与 SAM2-video 交互将感兴趣物体的各个部分在第一帧内分割出来。结合这二者能够获取各个运动部位的逐帧 3D 点云。此后为了估计出时空中连续的包围盒序列从起始帧估计 PCA 包围盒作为初始化并用 CoTracker3 提取出像素级别的追踪关系这一关系通过 π3 提供的像素-点云对应转化为空间中点与点间的帧间对应关系。通过 SVD 分解便可以解出完整的包围盒运动序列。读者也许会疑惑计算包围盒的动机既然 π3 和 SAM2 已经能够给出每帧的空间信号粗略点云似乎可以直接将这些点云作为后续精细动作生成的输入从而省略掉 CoTracker3 模块。图 3通过包围盒桥接动作估计模块与动作生成模块解除数据稀缺的限制。如图 3使用包围盒的核心考虑是数据问题为了训练由空间信号点云/包围盒序列约束的动作生成模型需要该空间信号和真实动作来自动捕数据集的数据对。然而由于视觉重建方案得出的点云是表面而非骨骼的部分采样仅从动作捕捉数据集的骨骼无法构造出合理的数据对即无法估计骨骼的 “粗细” 和观测时的 “正反面”。包围盒序列就是为了解决这一问题一方面给定点云的视觉跟踪信号CoTracker3包围盒运动信息能够从粗略点云中估计出来另一方面从动捕数据集的骨骼运动数据中可以直接算出对应包围盒序列。只要约定好包围盒大小范围这一中间表示就能够完美桥接两个系统。精细动作生成MoGen承接上文现在我们需要训练以包围盒序列为条件的精细动作生成模型。基于动作捕捉数据集 HumanML3D先从数据集中真实采集的人体骨骼动画中按照图 4 所示的包围盒合并策略计算同一段骨骼运动在各种排布方式下产生的包围盒运动序列。为了模拟真实场景中估计不准确的问题再随机放大/缩小/丢弃掉部分包围盒并向包围盒运动中加入随机速度/位置噪声。图 4初始包围盒生成逻辑。接着再训练一个 ControlNet向预训练好的文本生成动作模型 (Human-Motion-Diffusion-Model简称 MDM注入额外的包围盒控制信号。图 5MoGen 系统。特别地考虑到包围盒内部的顶点顺序、同一时刻包围盒之间的排列顺序不应该影响该时刻提取出的特征如图 5 所示该团队参考 PointNet用平均与最大值运算保证特征的顺序无关性。用户调研本文进行了广泛的用户调研。在用户反馈中DancingBox 符合直觉易于使用即使是新手也可以在短时间内使用系统自由创作。部分问卷结果如图 6。图 6部分问卷结果。特别地从用户调研中该团队发现用户希望有更灵活自由的物体实现精细的多样演出。用户认为双手控制多关节物体运动存在困难。同时物体是否容易站立很大程度上影响操作便利性。该团队表示「自由度与交互简易度构成了一组 trade-off我们希望这能够启发后续研究进一步探索可交互设备的更多可能。」视频结果展示更多视频结果包括正文中各个图片的对应案例请见项目主页。作者信息本文的第一作者袁浩程是爱丁堡大学三年级的博士生他的研究兴趣是用户友好的计算机辅助设计CAD指导老师为爱丁堡大学李昌健助理教授。DancingBox 系统处于持续研究升级中欢迎感兴趣的研究人员与动画/游戏行业人员联系作者团队。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看

相关文章:

最佳论文提名!DancingBox:一台手机,从任意物体捕捉角色动画!

点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…...

网络监控告警设置指南:如何配置智能告警规避“告警风暴”?

当网络监控系统在深夜突兀地发出数百条告警,而真正的故障却在信息洪流中被淹没,运维团队的焦虑便不言而喻。告警风暴------并非预警的胜利,而是效率的灾难:大量低价值、重复或无关的告警不仅消耗团队精力,更导致关键故…...

终极指南:3分钟零代码实现专业音频分离的完整教程

终极指南:3分钟零代码实现专业音频分离的完整教程 【免费下载链接】demucs Code for the paper Hybrid Spectrogram and Waveform Source Separation 项目地址: https://gitcode.com/gh_mirrors/de/demucs 你是否曾经想要从一首歌曲中提取纯净的人声&#xf…...

基于Yalmip+Matlab的主从博弈优化:电动汽车充电定价策略实战解析

1. 主从博弈与电动汽车充电定价的实战背景 当你在手机APP上查看不同时段的充电价格时,背后其实隐藏着一场精妙的数学博弈。充电站运营商希望最大化收益,而车主则追求最低充电成本,这种"定价-响应"的互动关系,正是典型的…...

Tencent Kona SM Suite:Java国密应用开发指南

Tencent Kona SM Suite:Java国密应用开发指南 【免费下载链接】TencentKonaSMSuite Tencent Kona SM Suite contains a set of Java security providers, which support algorithms SM2, SM3 and SM4, and protocols TLCP/GMSSL, TLS 1.3 (with RFC 8998) and TLS 1…...

实用指南:使用applera1n安全绕过iOS 15-16激活锁的完整教程

实用指南:使用applera1n安全绕过iOS 15-16激活锁的完整教程 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n iOS设备的激活锁是Apple保护用户隐私的重要安全功能,但当您忘记Appl…...

新手零压力:跟着快马生成的交互式指南,轻松搞定wsl2安装与初体验

作为一个刚接触开发的新手,第一次听说WSL2时完全摸不着头脑。什么虚拟化、PowerShell命令、Linux发行版,这些名词听着就让人头大。好在最近发现了InsCode(快马)平台,用它生成的交互式WSL2安装指南简直拯救了我这个小白。下面就把我的完整体验…...

企业级Leantime容器化部署完整指南:从架构设计到生产环境最佳实践

企业级Leantime容器化部署完整指南:从架构设计到生产环境最佳实践 【免费下载链接】docker-leantime Official Docker Image for Leantime https://leantime.io 项目地址: https://gitcode.com/gh_mirrors/do/docker-leantime Leantime是一款开源的PHPJavaSc…...

如何通过ReadCat实现纯净小说阅读:开源无广告解决方案

如何通过ReadCat实现纯净小说阅读:开源无广告解决方案 【免费下载链接】read-cat 一款免费、开源、简洁、纯净、无广告的小说阅读器 项目地址: https://gitcode.com/gh_mirrors/re/read-cat 在信息过载的数字时代,每打开一个阅读应用都要面对弹窗…...

如何快速评估网络性能:Windows平台iperf3完整指南

如何快速评估网络性能:Windows平台iperf3完整指南 【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds iperf3是一款专业的网络性能测试工具&…...

避开这3个坑!用Llama-7B低成本部署InteRecAgent的完整指南

低成本部署InteRecAgent的三大误区与实战解决方案 1. 从开源小模型到商业级应用的鸿沟 许多技术团队在尝试构建交互式推荐系统时,往往陷入"拿来即用"的思维陷阱。面对Llama-7B这类开源小模型,最常见的三个认知误区包括:认为预训练模…...

Win11Debloat:高效优化Windows系统的实用工具指南

Win11Debloat:高效优化Windows系统的实用工具指南 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and custom…...

如何在5分钟内从零创建专业解说视频?Auto-Video-Generator让AI为你完成所有繁重工作

如何在5分钟内从零创建专业解说视频?Auto-Video-Generator让AI为你完成所有繁重工作 【免费下载链接】auto-video-generateor 自动视频生成器,给定主题,自动生成解说视频。用户输入主题文字,系统调用大语言模型生成故事或解说的文…...

Youtu-VL-4B-Instruct惊艳效果展示:同一张图连续追问‘文字内容→主色调→人物数量→情绪判断’

Youtu-VL-4B-Instruct惊艳效果展示:同一张图连续追问‘文字内容→主色调→人物数量→情绪判断’ 你有没有想过,如果给AI一张图片,它能像人一样“看懂”并回答你一连串的问题吗?比如,先问它图片里写了什么字&#xff0…...

告别机械操作:AhabAssistantLimbusCompany重新定义游戏自动化体验

告别机械操作:AhabAssistantLimbusCompany重新定义游戏自动化体验 【免费下载链接】AhabAssistantLimbusCompany AALC,PC端Limbus Company小助手。AALC,Limbus Company Assistant on PC 项目地址: https://gitcode.com/gh_mirrors/ah/AhabA…...

深入浅出理解注意力机制:原理、实战、应用及训练与推理阶段差异

深入浅出理解注意力机制:原理、实战、应用及训练与推理阶段差异 摘要:注意力机制是深度学习领域的核心创新,更是Transformer架构的灵魂,其灵感源自人类的“选择性关注”能力,解决了传统模型长距离依赖捕捉不足、并行计…...

comsol三元锂离子电池模型 NCA111三元锂离子电池21700 电化学-热耦合模型 老化...

comsol三元锂离子电池模型 NCA111三元锂离子电池21700 电化学-热耦合模型 老化模型 容量衰减模型 参数已经设置好 自己更改参数即可进行使用学习 可进行多倍率充放电仿真 有对应参考文献 A17打开COMSOL看到电池仿真模型时,老玩家都知道参数调教才是灵魂。今天咱们来…...

为什么在银河麒麟上配置telnet?安全风险与替代方案探讨

银河麒麟系统中Telnet协议的深度安全剖析与现代替代方案 在国产操作系统银河麒麟上配置传统网络服务时,技术决策者常面临一个经典困境:是沿用熟悉的Telnet协议快速解决问题,还是投入资源迁移到更安全的现代方案?这个问题看似简单&…...

解决SAP ABAP RFC外部调用调试难题:User权限与断点设置技巧

SAP ABAP RFC外部调用调试实战:权限配置与断点优化全指南 在SAP系统集成项目中,RFC(Remote Function Call)作为跨系统通信的核心技术,其调试过程往往让开发者头疼不已。想象一下这样的场景:你开发的RFC接口…...

2026本科论文降AI率工具哪个好用?实测推荐

这篇是我实测了主流降AI率工具之后写的,不是广告,数据都是我自己测的。 2026年的降AI工具市场,鱼龙混杂。有些号称免费的用完没效果,有些价格贵但退款流程复杂。我帮你们踩过这些坑了,这里把真正有用的列出来。 先说…...

VSCode CLine插件深度配置:灵活切换OpenAI GPT与Claude 3.5模型进行智能编程

1. 为什么开发者需要多模型切换能力 在当今的AI辅助编程领域,OpenAI的GPT系列和Anthropic的Claude系列无疑是两大主流选择。我在实际项目中发现,不同模型在代码生成、错误修复和文档解释等方面各有千秋。比如GPT-4o擅长处理复杂算法逻辑,而Cl…...

SEO_掌握这5个SEO核心技巧,让你的流量翻倍

SEO: 掌握这5个SEO核心技巧,让你的流量翻倍 在互联网时代,如何让你的网站在众多竞争者中脱颖而出,成为用户搜索结果的首选,是每一个网站主的首要任务。搜索引擎优化(SEO)是实现这一目标的关键。本文将详细…...

[解决系统休眠中断]的NoSleep工具:5种创新用法

[解决系统休眠中断]的NoSleep工具:5种创新用法 【免费下载链接】NoSleep Lightweight Windows utility to prevent screen locking 项目地址: https://gitcode.com/gh_mirrors/nos/NoSleep 问题:那些被打断的关键工作时刻 凌晨三点,服…...

用AI辅助编程踩坑记:CH32V003驱动WS2812B,PWM+DMA配置避雷指南

CH32V003驱动WS2812B避坑实战:当AI生成的PWMDMA代码遇到现实 第一次尝试用AI辅助编写CH32V003驱动WS2812B的代码时,我天真地以为只要把芯片手册扔给AI就能得到完美运行的代码。直到LED灯带显示出诡异的彩虹乱码,我才意识到自己掉进了AI挖的多…...

5个实战场景:QuickBMS的资源提取全流程指南

5个实战场景:QuickBMS的资源提取全流程指南 【免费下载链接】QuickBMS QuickBMS by aluigi - Github Mirror 项目地址: https://gitcode.com/gh_mirrors/qui/QuickBMS QuickBMS是一款开源的资源提取工具,集成超过400种压缩和加密算法&#xff0c…...

如何用vJoy虚拟手柄驱动打造终极个性化游戏控制方案?免费开源教程指南

如何用vJoy虚拟手柄驱动打造终极个性化游戏控制方案?免费开源教程指南 【免费下载链接】vJoy Virtual Joystick 项目地址: https://gitcode.com/gh_mirrors/vj/vJoy 在游戏世界中,你是否曾因物理手柄的局限性而感到困扰?键盘操作缺乏平…...

如何用Mermaid Live Editor高效创建专业图表:从技术文档到项目管理的全流程指南

如何用Mermaid Live Editor高效创建专业图表:从技术文档到项目管理的全流程指南 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trendin…...

3个维度突破原神帧率限制:高性能游戏体验完整释放指南

3个维度突破原神帧率限制:高性能游戏体验完整释放指南 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 一、问题导入:被禁锢的视觉体验 在高刷新率显示器普及的今…...

GetQzonehistory完整指南:3分钟学会备份QQ空间所有说说

GetQzonehistory完整指南:3分钟学会备份QQ空间所有说说 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 想要永久保存QQ空间里的青春回忆吗?GetQzonehistory是一款…...

从选型到接线:工业现场S7-1200 PLC读取K型热电偶温度的完整避坑指南

从选型到接线:工业现场S7-1200 PLC读取K型热电偶温度的完整避坑指南 在热处理车间嘈杂的设备声中,一组K型热电偶正默默监测着关键工艺温度。突然,中控室屏幕上的温度曲线开始剧烈波动——这是每位自动化工程师都熟悉的"噩梦场景"。…...