当前位置：首页 > news >正文

2024具身智能模型汇总：从训练数据、动作预测、训练方法到Robotics VLM、VLA

news 2026/2/9 12:31:32

前言

本文一开始是属于此文《GRAPE——RLAIF微调VLA模型：通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底)，但考虑到其重要性，加之那么大一张表格看下来阅读体验较差，故抽出取来独立成文且拆分之

当时的前言是

具身的论文解读过很多之后，便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看，且所有点我都做了详尽而细致的解读，点击下表中对应的文字即可阅读，我后续也会不断完善之——毕竟还有很多并未囊括于下表中，如转载请于文章开头标明作者July及本文链接」

有意思的是，其中的RDT、π0都通过聚合各大机器人数据集先做预训练，然后微调，且它两的参数规模也分别达到了1B、3B

大有类似大语言模型的发展路线，比如

17-20年，以BERT、GPT为代表的预训练-微调模式
且从GPT3起，模型的参数规模越来越大，慢慢的不再需要针对下游特定任务做微调——一个模型搞定所有任务
途中经历过GPT3.5的RLHF微调
及至到GPT4之后，模型在各方面的能力逼近人类甚至超越人类

你说，是不是有趣？

第一部分从训练数据来源、动作预测策略、模型训练方法

1.1 训练数据来源

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第一大块训练数据来源	人类行为视频数据	相当于互联网上大规模的视频数据，比如YouTube上的	比如DexMV、MimicPlay、字节GR2
	开源数据	需要一定的整合	比如Open X-Embodiment等
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	1 英伟达的Isaac Sim：整合了物理引擎PhysX、图像渲染引擎RTX、动画/电影描述格式USD
	仿真数据	毕竟仿真环境中训练base model，最后真实环境中微调，是常见训练方式	2 Google的MuJoCo
	人工收集	手持夹爪，收集方便	umi/fastumi
		动作捕捉，精度较高	dexcap
		遥操，精度很高	主从机械臂遥操数据ALOHA
		遥操，精度很高	VR遥操Open-television

1.2 动作预测策略

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第二大块动作预测策略	iDP3(改进的3D diffusion policy)	可落地在人形机器人上	斯坦福iDP3
	3D diffusion policy	将3D视觉表示与扩散策略	3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
	Diffusion Policy(还可基于点云)	diffusion policy基于扩散模型	UMI/dexcap
	Diffusion Transformer(DiT)	基于Diffusion Transformer(DiT)改造	清华RDT
	Diffusion Transformer(DiT)	预测与动作扩散器PAD：通过联合去噪同时预测未来图像和动作	Prediction with Action: Visual Policy Learning via Joint Denoising Process
	ACT	ACT基于Transformer	Mobile ALOHA
	基于下一个token预测技术预测动作token	基于类似下个token预测策略
	基于下一个token预测技术预测动作token	基于类似下个token预测策略	伯克利Digit

1.3 模型训练方法

1.3.1 非Robotics VLM与VLA的训练方法

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第三大块模型训练方法	*直接真实环境中RL开训，摒弃仿真*	真实环境中得到的RL数据微调VLM + 机器人动作微调：RL训练运行创建的数据集，可以用于二次训练，代替人类提供的例子(效果如何待验证)	UC伯克利的Sergey Levine，于24年年底在DAI 2024上的演讲：RLDG——Reinforcement Learning Distilled Generalist
	*直接真实环境中RL开训，摒弃仿真*	结合视觉和人类示教与纠正的RL方法，目前暂时还是小众赛道	UC伯克利的HIL-SERL
	*RL仿真 + VR遥操*	估计人类动作 + 人类动作到人形机器人的重定向「凡是人形，必涉及到基于AMASS数据集(包括SMPL-X做参数化建模)做人形运动目标的重新定位」 + sim to real(师生学习/策略蒸馏) + VR遥操
	*RL仿真 + VR遥操*		OmniH2O
	*RL仿真训本体 + RGB遥操部署*	Retargeting、Sim-to-Real、RGB* Real-time遥控*	H2O：通过重定向清除不可行的动作，然后仿真训练，最后RGB实时遥操作部署(使用训练好的Sim-to-Real模仿策略进行模仿)
	*RL仿真训本体 + RGB遥操部署*	*仿真中训小脑HST(仿真中训练好之后，RGB遥操部署)* 且其真实中训大脑HIT	*HumanPlus*：RL仿真训本体 + 人类示教(模仿学习/行为克隆)训大脑
	*静态数据训练 + 人类示教*	比如通过示范数据做行为克隆，更结合前身ALOHA的静态数据做协同训练	Mobile ALOHA

1.3.2 Robotics VLM与VLA的训练方法

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第三大块模型训练方法	预训练的VLA	先对VLM基于机器人数据(开源OXE + 自采，或只开源OXE)做二次预训练(模仿人类)变成VLA，再真实环境中微调VLA	1 π0：先在高度多样化的开源 + 自采机器人数据上进行预训练——变成了相比不二次预训练情况下更强大的VLA，然后针对所需任务进行微调
	预训练的VLA		2 RT2和OpenVLA：只在开源OXE上做的预训练
	*不用预训练的VLA*	其考虑到预训练成本较高	TinyVLA
	预训练的Robotics VLM	针对VLM的二次预训练，通过开源OXE训练VLM变成Robotics VLM	Octo：在Open X-Embodiment数据集上进行预训练
	*不预训练的*Robotics VLM	没有针对VLM的二次预训练，而是直接机器人数据微调VLM变成Robotics VLM	字节RoboFlamingo：使用简单、少量的微调就可以把 VLM 变成 Robotics VLM

第二部分 Robotics VLM和VLA中的动作预测

2.1 Robotics VLM和VLA中的动作预测

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第四大块 Robotics VLM和VLA中的动作预测	专门的action head	基于LSTM	Robotics VLM：字节RoboFlamingo
		基于diffusion model	Robotics VLM：Octo
		基于diffusion model	VLA：TinyVLA(diffusion-based head)
		基于流匹配	VLA：π0 (流匹配微调VLM)
		基于Diffusion Transformer(DiT)	VLA：CogACT(相比Octo的头更大)
	基于下一个token预测技术预测动作token	对于离散化token动作表示，即指将机器人的每个动作维度分别离散化为 256 个箱子中的一个	VLA：RT-2、OpenVLA(相当于RT-2开源版)

第三部分借鉴大语言模型的发展之路

3.1 借鉴大语言模型的发展之路

2024年具身前沿模型/策略大汇总	说明	补充备注	典型代表
第五大块借鉴大语言模型的发展之路	预训练-微调模式中把模型搞大	需要架构、数据双双具备	RDT、π0
	把RLHF引入近具身	通过偏好对齐提升机器人策略的泛化能力	GRAPE
	把CoT引入具身	让具身模型学会逐步推理	ECoT
	让VLM充当机器人大脑，做顶层任务规划	机器人基础模型(相当于大脑)：用于整体任务规划机器人操控模型(相当于小脑)：用于精确控制	Figure 01、清华ViLA、CoPa
	让大模型来打辅助：推理、规划样样行	基于VLM模型GPT-4o和关系关键点约束	ReKep
		VLM解释人类演示视频，并为机器人生成任务计划、代码	纽约大学：VLM See, Robot Do
		结合「GPT4V的open-world vision能力」和重定向	OKAMI

更多可以查看此文《RoboVLM——通用机器人策略的VLA设计哲学：如何选择骨干网络、如何构建VLA架构、何时添加跨本体数据》

2024具身智能模型汇总：从训练数据、动作预测、训练方法到Robotics VLM、VLA

前言本文一开始是属于此文《GRAPE——RLAIF微调VLA模型：通过偏好对齐提升机器人策略的泛化能力》的前言内容之一(该文发布于23年12月底)，但考虑到其重要性，加之那么大一张表格看下来阅读体验较差，故抽出取来独立成文且拆分之 …...

编程日记 2025/2/3 11:13:11

Day33【AI思考】-函数求导过程的优质工具和网站

文章目录 **函数求导过程** 的优质工具和网站**一、动态图形工具**1. **Desmos（网页端）**2. **GeoGebra（全平台）** **二、分步推导工具**3. **Wolfram Alpha（网页/App）**4. **Symbolab（网页/App…...

编程日记 2025/2/3 11:11:09

【URL】一个简单基于Gym的2D随机游走环境，用于无监督强化学习（URL）

import gym from gym import spaces import numpy as np import pygameclass RandomWalk2DEnv(gym.Env):def __init__(self):super(RandomWalk2DEnv, self).__init__()# 定义状态空间为2D坐标（x, y）self.x_min, self.x_max -10, 10 # 更新尺寸为 (-10,…...

编程日记 2025/2/3 11:09:05

【VM】VirtualBox安装ubuntu22.04虚拟机

阅读本文之前，请先根据安装virtualbox 教程安装virtulbox虚拟机软件。 1.下载Ubuntu系统镜像打开阿里云的镜像站点：https://developer.aliyun.com/mirror/ 找到如图所示位置，选择Ubuntu 22.04.3(destop-amd64)系统 Ubuntu 22.04.3(desto…...

编程日记 2025/2/3 11:07:02

MySQL的GROUP BY与COUNT()函数的使用问题

在MySQL中，GROUP BY和 COUNT()函数是数据聚合查询中非常重要的工具。正确使用它们可以有效地统计和分析数据。然而，不当的使用可能会导致查询结果不准确或性能低下。本文将详细讨论 GROUP BY和 COUNT()函数的使用方法及常见问题，并提供相应的…...

编程日记 2025/2/3 11:04:59

C# 精炼题18道题(类,三木运算,Switch,计算器)

1.数组元素和 2.数组元素乘积 3.数组元素平均数 4.数组中最大值 5.数组中的偶数 6.数组中的阶乘 7.数组反转 8.字符串反转 9.回文字符串 10.检查回文 11.最小最大值 12.找素数 13.字符串中的最长无重复字符串 14.字符串去重 15.数组中计算两数之和 16.数字到字符…...

编程日记 2025/2/3 11:03:55

96，【4】 buuctf web [BJDCTF2020]EzPHP

进入靶场查看源代码 GFXEIM3YFZYGQ4A 一看就是编码后的 1nD3x.php 访问得到源代码 <?php // 高亮显示当前 PHP 文件的源代码，用于调试或展示代码结构 highlight_file(__FILE__); // 关闭所有 PHP 错误报告，防止错误信息泄露可能的安全漏洞 erro…...

编程日记 2025/2/3 11:01:49

数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录）

本文讲SqlServer Express版本在登录的时候， 如何由Windows认证，修改为Sql Server Express认证。目录 1，SqlServer Express的Windows认证 2，修改为混合认证 3，启用sa 用户 4，用sa 用户登录下面是详细…...

编程日记 2025/2/3 10:56:38

2025年02月02日Github流行趋势

项目名称：oumi 项目地址url：https://github.com/oumi-ai/oumi 项目语言：Python 历史star数：1416 今日star数：205 项目维护者：xrdaukar, oelachqar, taenin, wizeng23, kaisopos 项目简介：构建最…...

编程日记 2025/2/3 10:55:35

【数据分析】案例03：当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）

当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）当当网近30日热销书籍官网写在前面实验目的：实现当当网近30日热销图书的数据采集与可视化分析。电脑系统：Windows 使用软件：Visual Studio Code Python版本：python 3.12.4 技术需求：scrapy、…...

编程日记 2025/2/3 10:51:31

如何使用 DeepSeek 和 Dexscreener 构建免费的 AI 加密交易机器人？

我使用DeepSeek AI和Dexscreener API构建的一个简单的 AI 加密交易机器人实现了这一目标。在本文中，我将逐步指导您如何构建像我一样的机器人。 DeepSeek 最近发布了R1，这是一种先进的 AI 模型。您可以将其视为 ChatGPT 的免费开源版本，但增加…...

编程日记 2025/2/3 10:50:21

buu-jarvisoj_level0-好久不见30

嘶，我咋觉得这个也是栈溢出呢，找到读取的值，在再找到后门函数...

编程日记 2025/2/3 10:48:18

深度学习查漏补缺：1.梯度消失、梯度爆炸和残差块

一、梯度消失梯度消失的根本原因在于激活函数的性质和链式法则的计算： 激活函数的导数很小： 常见的激活函数（例如 Sigmoid 和 Tanh）在输入较大或较小时，输出趋于饱和（Sigmoid 的输出趋于 0 或 1&#xf…...

编程日记 2025/2/3 10:42:11

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.2 多维数组切片：跨步访问与内存布局

2.2 多维数组切片：跨步访问与内存布局目录/提纲 #mermaid-svg-FbBIOMVivQfdX2LJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-FbBIOMVivQfdX2LJ .error-icon{fill:#552222;}#mermaid-svg-FbBIOMVivQ…...

编程日记 2025/2/3 10:41:10

ResNet--深度学习中的革命性网络架构

一、引言在深度学习的研究和应用中，网络架构的设计始终是一个关键话题。随着计算能力和大数据的不断提升，深度神经网络逐渐成为解决复杂任务的主流方法。然而，随着网络层数的增加，训练深度神经网络往往面临梯度消失或梯度爆炸的…...

编程日记 2025/2/3 10:40:09

TypeScript语言的语法糖

TypeScript语言的语法糖 TypeScript作为一种由微软开发的开源编程语言，它在JavaScript的基础上添加了一些强类型的特性，使得开发者能够更好地进行大型应用程序的构建和维护。在TypeScript中，不仅包含了静态类型、接口、枚举等强大的特性&…...

编程日记 2025/2/3 10:37:02

17.2 图形绘制4

编程日记 2025/2/3 10:35:59

tomcat核心组件及原理概述

目录 1. tomcat概述 1.1 概念 1.2 官网地址 2. 基本使用 2.1下载 3. 整体架构 3.1 核心组件 3.2 从web.xml配置和模块对应角度 3.3 如何处理请求 4. 配置JVM参数 5. 附录 1. tomcat概述 1.1 概念什么是tomcat Tomcat是一个开源、免费、轻量级的Web服务器。 Tomca…...

编程日记 2025/2/3 10:32:56

本地部署DeepSeek教程（Mac版本）

第一步、下载 Ollama 官网地址：Ollama 点击 Download 下载我这里是 macOS 环境以 macOS 环境为主下载完成后是一个压缩包，双击解压之后移到应用程序： 打开后会提示你到命令行中运行一下命令，附上截图： 若遇…...

编程日记 2025/2/3 10:30:51

MyBatis-Plus笔记-快速入门

大家在日常开发中应该能发现，单表的CRUD功能代码重复度很高，也没有什么难度。而这部分代码量往往比较大，开发起来比较费时。因此，目前企业中都会使用一些组件来简化或省略单表的CRUD开发工作。目前在国内使用较多的一个组件就是…...

编程日记 2025/2/3 10:29:46

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

目录 Python｜GIF 解析与构建（5）：手搓截屏和帧率控制一、引言二、技术实现：手搓截屏模块 2.1 核心原理 2.2 代码解析：ScreenshotData类 2.2.1 截图函数：capture_screen 三、技术实现&…...

编程新知 2025/11/14 3:06:30

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

网络六边形受到攻击

大家读完觉得有帮助记得关注和点赞！！！ 抽象现代智能交通系统 （ITS） 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 （…...

编程新知 2026/2/8 5:22:04

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2026/2/8 6:37:43

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

文章目录 1.什么是Redis？2.为什么要使用redis作为mysql的缓存？3.什么是缓存雪崩、缓存穿透、缓存击穿？3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

编程新知 2026/2/8 12:24:34

剑指offer20_链表中环的入口节点

链表中环的入口节点给定一个链表，若其中包含环，则输出环的入口节点。若其中不包含环，则输出null。数据范围节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。节点 val 值各不相同。链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

编程新知 2026/1/31 6:09:22

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/12/31 6:28:08

根据万维钢·精英日课6的内容，使用AI（2025）可以参考以下方法：

根据万维钢精英日课6的内容，使用AI（2025）可以参考以下方法： 四个洞见模型已经比人聪明：以ChatGPT o3为代表的AI非常强大，能运用高级理论解释道理、引用最新学术论文，生成对顶尖科学家都有用的…...

编程新知 2026/1/10 1:08:51

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

前言

第一部分 从训练数据来源、动作预测策略、模型训练方法