当前位置: 首页 > article >正文

ICLR 2025 Spotlight:让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

图片

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文

论文出自蚂蚁数科与清华大学兴军亮老师团队合作的科研项目。第一作者卢昊飞、第二作者吴哲,分别为清华大学计算机系在读硕士与博士研究生。通讯作者兴军亮老师长期致力于感知与博弈决策的理论与应用研究,在多智能体系统、强化学习及智能决策等领域取得了一系列重要成果。

图片

  • 论文题目:BodyGen: Advancing Towards Efficient Embodiment Co-Design

  • 论文地址:https://arxiv.org/abs/2503.00533

  • 项目代码:https://github.com/GenesisOrigin/BodyGen

本文研究探索了一个有趣但引人深思的问题:机器人能否像生物一样自主进化?团队通过实验给出了肯定答案:结合强化学习与深度神经网络技术,BodyGen 能在极短时间内自动演化出适应当前环境的最优机器人形态及控制策略,为具身智能的加速进化提供了全新的思路。

相关代码已开源至 GitHub 仓库,欢迎尝试。

据了解,本届大会共收到 11672 篇论文,被选中做 Spotlight(聚光灯/特别关注)或者 Oral Presentation(口头报告)的比例约为 5.1%。

以下是论文作者团队对该论文的解读:

为什么机器人需要「自主进化」?

自然界生物通过数百万年的进化,获得了适应环境的完美身体结构与环境交互能力。然而,机器人的设计不但需要极其庞大的人类专家知识,且针对特定环境需要进行大量的实验、设计和迭代。

受自然界生物学启发,科学家提出形态控制协同设计(Co-Design)技术:让机器人模仿生物进化过程,在优化控制策略(大脑)的同时演化自身形态(形体结构、关节参数)从而适应复杂环境。

然而,这一领域长期面临两大难题:一是形体搜索空间巨大,在有限时间内难以穷举所有可能的机器人形态;二是机器人形态与控制策略深度耦合,评估每一个候选形态设计需要大量计算资源。

BodyGen 的核心思路

图片

来自清华大学与蚂蚁数科的研究团队提出 BodyGen 框架,利用强化学习实现了端到端的高效形态-控制协同设计。

在这项工作中,将形体设计过程划分为两个连续阶段:形态设计阶段、环境交互阶段。

在演化阶段:研究引入 Transformer(GPT-Style)自回归地构建机器人的形体结构并优化参数;在环境交互阶段,同样使用 Transformer(Bert-Style)对机器人的每一个关节信息进行集中处理并发送到对应关节马达,与环境交互并获得反馈。在几轮的迭代后,BodyGen 可以快速生成当前环境的最佳机器人形态和相应的控制策略。

BodyGen 的三大技术点解读

BodyGen 是一个生物启发式的训练框架,它使用深度强化学习进行端到端的形态-控制协同设计。BodyGen 包含三项核心技术点:

(1)轻量级的形体结构位置编码器 TopoPE

TopoPE 就像机器人的「身体感知」系统,通过给机器人每个部位贴上「智能标签」。无论机器人的形状如何变化,这些标签都能帮助 AI 理解「这是腿」、「这是手臂」等。这样,即使机器人的形态发生变化,AI 也能快速适应并控制新的身体结构。

(2)基于 Transformer 的集中式的神经中枢处理网络 MoSAT

MoSAT 就像机器人的「大脑中枢」,它的工作方式很像人脑:

  • 信息收集:首先收集机器人各个部位的信息(位置、速度等)

  • 中央处理:所有信息在「大脑」(Transformer 网络)中进行交流和处理

  • 指令发送:处理后的信息转化为具体动作指令,告诉机器人如何移动

(3)时序信用分配机制下的协同设计

  • BodyGen 让 AI 同时负责两件事:设计机器人的身体和控制机器人的动作。

  • 设计动作:AI 可以给机器人「长出」新的肢体,「剪掉」不需要的部分,或保持现有结构

  • 控制动作:AI 学习如何控制机器人的每个关节来完成任务(如行走、跳跃)

设计一个好的机器人形态可能要等很久才知道效果好不好(比如设计了长腿,要等机器人学会走路才知道这设计是否合理)。BodyGen 通过特殊的「奖励分配机制」,让 AI 能够合理评估自己的设计决策,不会因为短期效果不明显就放弃可能很好的设计。

第一:TopoPE 形体结构位置编码器

图片

在人脑中,来自身体不同区域的信号会被传输到特定的神经区域进行处理,这隐含了消息来源的位置信息。对于机器人,我们同样需要高效的形体信息表征。

图片

在 BodyGen 中,拓扑感知位置编码(TopoPE)通过哈希映射,将机器人肢体到根肢体的路径映射为唯一的嵌入(Embedding),有效解决了形体演化过程中的索引偏移问题,从而促进了协同设计过程中相似形态机器人的知识对齐和共享。

第二:MoSAT 集中式的神经中枢网络

图片

为了通用表征形体空间中的各种各样的机器人,作者使用标准序列模型 Transformer 处理拓扑结构可变的机器人形体。机器人的每一个关节信息都会经过「编码」-「集中处理」-「解码」三个阶段,最终生成动作信号:

信息编码: 来自不同肢体的信息首先会携带其拓扑位置信息首先通过编码层进行信号编码

图片

集中处理: 这些编码后的信息借助 Transformer 网络进行点对点的信息通讯,实现集中式的信息交互和处理

图片

信息解码: 最终,这些信息经过解码网络解码,从而获得机器人的动作信号

图片

第三:时序信用分配机制下的协同设计

在 BodyGen 的定义中,智能体具有两类基本动作:形态设计动作和形体控制动作。形态设计动作包含三类基本元动作:

  • 肢体生长:机器人的形体向下生长出一个额外的肢体

  • 肢体退化:机器人的形体删除一个指定的肢体

  • 肢体维持:机器人的形体维持某一个肢体不变

同时形体控制动作包含机器人与环境交互每一个关节马达的输出力矩。

图片

本研究使用近端策略优化算法(PPO)进行端到端的协同设计训练优化。相较于形体控制动作,形态设计动作无法获得及时的环境反馈。作者提出改进的广义优势估计(GAE),层次化地对环境奖励进行动态分配,从而使智能体在形态设计和控制阶段获得平衡的优势估计,从而提升训练性能。

BodyGen 测评效果:参数低至 1.43M,实现 60% 性能提升

研究者选取了 3 种基础的机器人拓扑结构(线性、双腿、四腿),在不同的仿真环境中,环境奖励信号仅为运动敏捷性(指定方向的运动速度)。给定初始结构设计,借助 BodyGen 进行形态-控制协同优化。

作者在 10 个不同类型的环境进行了综合测评,实验表明,BodyGen 相对于最先进的基线实现了 60.03% 的平均性能提升,在 10 个不同任务种类的环境下(如爬行、地形穿越、游泳等),BodyGen 生成的机器人形态相比于现有最优方法(如 Transform2Act、NGE 等)在环境适应性评分获得了 60.03% 的涨幅。

图片

研究对序列模型、时序信用分配算法进行了充分的对比消融,对文章提出的 MoSAT 架构和时序信用分配算法的进行了详细和充分的实验验证。

图片

作者同样对形体结构位置编码进行了消融实验,证实 TopoPE 在形态表征上的有效性。

图片

BodyGen 的平均参数量为 1.43M,相较于其他基线算法更加轻量级。BodyGen 的紧凑设计使其在保持生成能力的同时,显著降低了计算成本和存储需求,提升了训练的稳定性与效率。这种高效的模型架构不仅减少了训练时的资源消耗,还提升了推理阶段的响应速度,使其更适用于资源受限的环境,甚至可在一台笔记本上借助 CPU 进行高效推理。

图片

场景应用

BodyGen 作为一个通用形体-控制协同设计算法,展现出了一定的应用潜力,包括但不限于:

  • 环境适应性机器人设计: 针对特定环境需求,快速生成最优形态与控制策略,显著缩短机器人设计周期,提升开发效率;

  • 仿生机器人研究: 通过模拟生物运动机理,设计仿生足、鳍、翼等结构,为探索生物运动原理提供可计算平台;

  • 虚拟人物动作生成: 基于物理引擎的高效动作优化,为游戏、动画制作及虚拟角色行为生成提供技术支持。

未来展望

团队计划通过物理模拟迁移技术推动 BodyGen 在实际场景中的应用。随着计算能力的提升,这一框架有望成为实现通用具身智能的重要路径,使机器人能够通过感知-行动闭环持续优化形态与行为策略,逐步实现自我设计与自动进化。

相关文章:

ICLR 2025 Spotlight:让机器人实现「自主进化」,蚂蚁数科、清华提出具身协同框架 BodyGen

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由蚂蚁数科与清华大学联合团队提出的全新具身协同框架 BodyGen 成功入选 Spotlight(聚光灯/特别关注)论文。 论文出自蚂蚁数科与清华大学兴军亮老师团队合作的科研项目…...

第十九章:Python-pyttsx3 库实现文本转语音功能

前言 在开发语音交互应用或需要文本转语音功能的项目时,pyttsx3 是一个非常实用的 Python 库。它支持离线语音合成,无需联网即可将文本转换为语音。本文将详细介绍 pyttsx3 的功能、用法以及常见问题的解决方法,并通过示例代码帮助你快速上手…...

Unity 2022.3.x部分Android设备播放视频黑屏问题

Android平台视频兼容性问题很多…类似的黑屏问题真的很头大,总结一些常见问题: 1. 视频文件不支持压缩 如果使用AssetBundle加载视频,这个AssetBundle压缩格式要选None。有人可能会说最新版Unity已经支持bundle压缩下播放视频,稳…...

vLLM 部署 openai whisper 模型实现语音转文字

vLLM 部署 openai whisper 模型实现语音转文字 1. 安装 vLLM2. 启动 openai whisper 模型 1. 安装 vLLM pip install vllm vllm[audio] --pre --extra-index-url https://wheels.vllm.ai/nightly --upgrade2. 启动 openai whisper 模型 CUDA_VISIBLE_DEVICES0 \ VLLM_WORKER_…...

【Zabbix技术系列文章】第④篇——Zabbix 数据可视化

在当今数字化运维时代,面对海量的监控数据,如何从中快速获取有价值的信息至关重要。Zabbix 的数据可视化功能为我们提供了直观、高效的解决方案,它能将复杂的监控数据转化为清晰易懂的图表和仪表盘,助力运维人员迅速发现问题、分析…...

表格数据导出为Excel

环境及插件配置:(理论上vue2应该也可以使用,没有试验过) "vue": "^3.2.36", "webpack": "^5.94.0", "webpack-cli": "^5.1.4", "file-saver": "^2.…...

Faster-Whisper —— 为语音识别加速的利器

Faster-Whisper —— 为语音识别加速的利器 在语音识别技术迅速发展的今天,OpenAI 的 Whisper 模型因其强大的多语言识别能力和优异的准确率而受到广泛关注。然而,高精度模型往往伴随着高昂的计算开销和较长的推理时间,这对于需要实时或大规…...

SvelteKit 最新中文文档教程(16)—— Service workers

前言 Svelte,一个语法简洁、入门容易,面向未来的前端框架。 从 Svelte 诞生之初,就备受开发者的喜爱,根据统计,从 2019 年到 2024 年,连续 6 年一直是开发者最感兴趣的前端框架 No.1: Svelte …...

Flutter项目之构建打包分析

目录: 1、准备部分2、构建Android包2.1、配置修改部分2.2、编译打包 3、构建ios包3.1、配置修改部分3.2、编译打包 1、准备部分 2、构建Android包 2.1、配置修改部分 2.2、编译打包 执行flutter build apk命令进行打包。 3、构建ios包 3.1、配置修改部分 3.2、编译…...

24、网络编程基础概念

网络编程基础概念 网络结构模式MAC地址IP地址子网掩码端口网络模型协议网络通信的过程(封装与解封装) 网络结构模式 C/S结构,由客户机和服务器两部分组成,如QQ、英雄联盟 B/S结构,通过浏览器与服务器进程交互&#xf…...

Mentalab Explore Pro携手 Wearanize + 数据集,推动睡眠科学研究

在神经科学和睡眠研究的领域,精确监测大脑活动是获取深入见解的关键。传统多导睡眠监测(PSG)设备虽然提供了详尽的数据,但其操作的复杂性和成本限制了其在更广泛场景中的应用。可穿戴技术的兴起提供了一种新的数据收集方式&#x…...

基于 RK3588 的 YOLO 多线程推理多级硬件加速引擎框架设计(代码框架和实现细节)

一、前言 接续上一篇文章,这个部分主要分析代码框架的实现细节和设计理念。 基于RK3588的YOLO多线程推理多级硬件加速引擎框架设计(项目总览和加速效果)-CSDN博客https://blog.csdn.net/plmm__/article/details/146542002?spm1001.2014.300…...

element-ui图片查看器

element-ui图片查看器 调用案例&#xff1a; <el-image-viewerv-if"showViewer":on-close"()>{showViewerfalse}":url-list"imgList" />export default {components: {Banner,el-image-viewer:()>import(element-ui/packages/image/…...

VoIP技术及其与UDP的关系详解

随着互联网的飞速发展&#xff0c;基于IP的语音通信技术&#xff08;Voice over Internet Protocol&#xff0c;简称VoIP&#xff09;已经成为现代通信的重要支柱。从Skype到Zoom&#xff0c;从企业电话系统到智能音箱&#xff0c;VoIP以其低成本、高灵活性和强大的扩展性逐渐取…...

Java中如何保证高并发的数据安全

在Java中保证高并发的数据安全&#xff0c;可以从以下几个方面入手&#xff1a; 1. 锁机制 • synchronized&#xff1a;Java内置的锁机制&#xff0c;用于同步方法或代码块&#xff0c;简单易用&#xff0c;但灵活性较低。 • ReentrantLock&#xff1a;提供了比synchronize…...

DeepSeek原生稀疏注意力(Native Sparse Attention, NSA)算法介绍

李升伟 整理 DeepSeek 提出的原生稀疏注意力&#xff08;Native Sparse Attention, NSA&#xff09;算法是一种创新的注意力机制&#xff0c;旨在解决大语言模型&#xff08;LLM&#xff09;在处理长序列数据时的计算瓶颈问题。NSA 通过结合算法优化和硬件对齐设计&#xff0c…...

Java基础知识总结(1.8)——Java 注解(持续更新)

更新时间&#xff1a;2025-03-31 Web后端专栏&#xff1a;CSDN专栏——理论-Web后端技术博客总目录&#xff1a;计算机技术系列博客——目录页 8.1 注解的概念 8.1.1 定义与作用 Java注解&#xff08;Annotation&#xff09;是Java语言自JDK1.5版本引入的核心特性&#xff0…...

【Yolov8部署】 VS2019+opencv+onnxruntime 环境下部署目标检测模型

文章目录 前言一、导出yolov8模型为onnx文件二、VS2019中环境配置三、源码与实际运行 前言 本文主要研究场景为工业场景下&#xff0c;在工控机与工业相机环境中运行的视觉缺陷检测系统&#xff0c;因此本文主要目的为实现c环境下&#xff0c;将yolov8已训练好的检测模型使用o…...

论文阅读:Dual Anchor Graph Fuzzy Clustering for Multiview Data

论文地址:Dual Anchor Graph Fuzzy Clustering for Multiview Data | IEEE Journals & Magazine | IEEE Xplore 代码地址&#xff1a;https://github.com/BBKing49/DAG_FC 摘要 多视角锚图聚类近年来成为一个重要的研究领域&#xff0c;催生了多个高效的方法。然而&#…...

Lambda 表达式是什么以及如何使用

目录 &#x1f4cc; Kotlin 的 Lambda 表达式详解 &#x1f3af; 什么是 Lambda 表达式&#xff1f; &#x1f525; 1. Lambda 表达式的基本语法 ✅ 示例 1&#xff1a;Lambda 基本写法 ✅ 示例 2&#xff1a;使用 it 关键字&#xff08;单参数简化&#xff09; ✅ 示例 3…...

乐橙R10 AI智能锁:以「技术减法」终结智能家居「参数内卷」

1 行业迷思&#xff1a;当「技术内卷」背离用户真实需求 “三摄猫眼”、“0.3秒人脸解锁”、“DeepSeek大模型”……智能锁行业的营销话术日益浮夸&#xff0c;但用户体验却陷入“功能冗余”与“操作复杂”的泥潭。 一位用户在社交平台直言&#xff1a;“我的智能锁有六个摄像…...

如何使用 FastAPI 构建 MCP 服务器

哎呀&#xff0c;各位算法界的小伙伴们&#xff01;今天咱们要聊聊一个超酷的话题——MCP 协议&#xff01;你可能已经听说了&#xff0c;Anthropic 推出了这个新玩意儿&#xff0c;目的是让 AI 代理和你的应用程序之间的对话变得更顺畅、更清晰。不过别担心&#xff0c;为你的…...

基于Python的Django框架的手机购物商城管理系统

标题:基于Python的Django框架的手机购物商城管理系统 内容:1.摘要 随着互联网的快速发展&#xff0c;手机购物逐渐成为人们日常生活中不可或缺的一部分。本研究的目的是开发一个基于Python的Django框架的手机购物商城管理系统&#xff0c;以提高购物商城的管理效率和用户体验。…...

【UE5.3.2】初学1:适合初学者的入门路线图和建议

3D人物的动作制作 大神分析:3D人物的动作制作通常可以分为以下几个步骤: 角色绑定(Rigging):将3D人物模型绑定到一个骨骼结构上,使得模型能够进行动画控制。 动画制作(Animation):通过控制骨骼结构,制作出人物的各种动作,例如走路、跳跃、打斗等。 动画编辑(Ani…...

当 EcuBus-Pro + UTA0401 遇上 NSUC1500

文章目录 1.前言2.EcuBus-Pro简介2.1 官方地址2.2 概览 3.纳芯微NSUC1500简介3.1 NSUC1500概述3.2 产品特性 4.测试环境5.基础功能5.1 数据发送5.2 数据监控 6.自动化功能6.1 脚本创建6.2 脚本编辑6.3 脚本编辑与测试 7.音乐律动7.1 导入例程7.2 效果展示 ECB工程 1.前言 最近…...

qml 中的anchors

理解 QML 中的 anchors&#xff08;锚定&#xff09; 在 QML 中&#xff0c;anchors 是一种强大的布局机制&#xff0c;用于相对于父元素或同级元素定位和调整组件大小。它比简单的 x/y 坐标定位更灵活&#xff0c;能够自动适应不同屏幕尺寸。 基本概念 在你的代码中&#x…...

【FreeRTOS】裸机开发与操作系统区别

&#x1f50e;【博主简介】&#x1f50e; &#x1f3c5;CSDN博客专家 &#x1f3c5;2021年博客之星物联网与嵌入式开发TOP5 &#x1f3c5;2022年博客之星物联网与嵌入式开发TOP4 &#x1f3c5;2021年2022年C站百大博主 &#x1f3c5;华为云开发…...

Deepseek API+Python 测试用例一键生成与导出 V1.0.4 (接口文档生成接口测试用例保姆级教程)

接口文档生成接口测试用例保姆级教程 随着测试需求的复杂性增加,测试用例的设计和生成变得愈发重要。Deepseek API+Python 测试用例生成工具在 V1.0.4 中进行了全方位的优化和功能扩展,特别是对接口测试用例设计的支持和接口文档的智能解析处理。本文将详细介绍 V1.0.4 版本…...

CET-4增量表

CET-4词表-增量表 注&#xff1a; 【1】所谓增量&#xff0c;是相对于高中高考之增量 即&#xff0c;如果你是在读大学生&#xff0c;高中英语单词过关了&#xff0c;准备考CET-4&#xff0c;那么侧重下面的增量词表的学习&#xff0c;也算是一条捷径吧 ^_^ 【2】本结果数据 官…...

DeepSeek详解:探索下一代语言模型

文章目录 前言一、什么是DeepSeek二、DeepSeek核心技术2.1 Transformer架构2.1.1 自注意力机制 (Self-Attention Mechanism)(a) 核心思想(b) 计算过程(c) 代码实现 2.1.2 多头注意力 (Multi-Head Attention)(a) 核心思想(b) 工作原理(c) 数学描述(d) 代码实现 2.1.3 位置编码 (…...