当前位置：首页 > news >正文

具身智能特点及实现路线

news 2026/2/11 1:49:58

多模态——多功能的“小脑”

人类具有眼耳鼻舌身意，说明对于物理世界的充分感知和理解，是意识和智慧的来源。而传统AI更多的是被动观测，主要是“看”（计算机视觉）和“读”（文本NLP），这就使得智能体Agent缺乏对外部环境的通用感知能力。

多模态大模型，可以积累和分析2D/3D视觉、LiDAR激光、Voice声音等多维信息，基于真实交互，为具身大模型积累高质量数据，深度理解并转化为机器指令，来控制机器人的行为。有了感知能力更丰富的“小脑”，具身智能自然也就能更好地理解物理世界。

具身智能——精准决策和执行的“躯干”

传统的机器人训练往往采取离线模式，一旦遇到训练环境中没有出现过的问题，就可能掉链子，需要收集数据再重新迭代优化，这个过程的效率很低，也减慢了具身智能在现实中落地的速度。

大模型时代，具身智能模型的训练与测试，与云服务相结合，可以在云上虚拟仿真场景下进行端到端的实时训练与测试，快速完成端侧迭代与开发，这就大大加速了具身智能体的进化速度。

具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代，积累对物理世界的深度理解，产生大量交互数据，再通过与真实环境的不断交互积累经验，全面提升在复杂世界的自动移动、复杂任务的泛化能力，展现在具身载体上，就是机器人可以更好地适应环境，更灵活地运用机械“躯干”来进行人机交互。

技术实现路线

目前，对具身智能的技术实践，主要以两种路线为主：

1. 以谷歌、伯克利等为代表的“未来派”，期望“一步到位”。

他们从具身智能的终极目标出发，希望从当下到终点，寻找一个端到端的技术路径，即给出一个大模型就能让机器人完成识别环境、分解任务、执行操作等所有工作，非常难，也非常有未来感。

谷歌DeepMind提出的机器人模型Robotics Transformer 2（RT-2）就是一个全新的视觉-语言-动作（VLA）模型，它从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令，同时保留了web-scale能力。即一个在web-scale数据上进行预训练的视觉-语言模型（VLM）正在从RT-1的机器人数据中学习，以成为可以控制机器人的视觉-语言-动作（VLA）模型，RT-2。

加州大学伯克利分校的LM Nav，则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型，让机器人在不看地图的情况下按照语言指令到达目的地。Koushil Sreenath教授的工作，就是推动硬件本体、运动小脑、决策大脑三部分逐渐融合，让各种四足、双足，以及人形机器人在真实世界中灵活地运动。

2. 以英伟达及大量工业机器人厂商为代表的“务实派”，期望“马上见效”。

简单来说，就是不同任务通过不同模型来实现，分别让机器人学习概念并指挥行动，把所有的指令分解执行，通过大模型来完成自动化调度和协作，比如语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动。

这种方式虽然底层逻辑上看还是比较机械，不像人一样有综合智能，但成本和可行性上，能让具身智能更快落地。

具身智能特点及实现路线

相关文章：

具身智能特点及实现路线

重温react-04

lock-锁的概念

Docker 可用镜像源

MySQL 搭建主从报错 1236

华为OD机试真题2024版-求幸存数之和

Python - 各种计算器合集【附源码】

【已解决】better-scroll在PC端如何开启鼠标滚动以及如何始终显示滚动条

AJAX 综合案例-day2

【Esp32连接微信小程序蓝牙】附Arduino源码《返回10007 相同特征id冲突问题》

并发控制技术

什么是网段

PHP和Mysql前后端交互效果实现

vue小总结

RapidLayout:中英文版面分析推理库

postman 工具下载安装使用教程_postman安装

【数学建模】——【新手小白到国奖选手】——【学习路线】

CSS文本超限后使用省略号代替

多线程下JVM内存模型和 volatile关键字

Uniapp实现页面滚动Tab吸顶，点击tab内容滚动到对应tab内容位置

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

设计模式和设计原则回顾

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Nuxt.js 中的路由配置详解

CMake 从 GitHub 下载第三方库并使用

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

Python常用模块：time、os、shutil与flask初探

【免费数据】2005-2019年我国272个地级市的旅游竞争力多指标数据（33个指标）