当前位置：首页 > news >正文

具身智能研究报告

news 2025/7/12 17:53:06

参考：
（1）GTC大会&Figure：“具身智能”奇点已至
（2）2024中国具身智能创投报告
（3）2024年具身智能产业发展研究报告
（4）具身智能行业深度：发展趋势、市场机遇

1 “具身智能”奇点已至

英伟达机器人平台：
（1）感知层：Issac Perceptor & Issac Manipulator
（2）训练层：Issac SIM in Omniverse，机器人模拟工具包
（3）算力：Jetson Thor Soc芯片，提供800 Tflops的FP8算力，100GB以太网带宽

当前一体化大模型VLA的准确性较低，且存在实时性问题，因此短期内商业化的最佳方案仍然是VLM大模型+基础运控算法的结合

在这里插入图片描述
问题：短期内一体化大模型实时性困境难以逾越
分层式决控路径短期或将是人形机器人落地的较优选择

分层式决控相当于将两个成熟的部分进行结合，在高层级的VLM大模型输出的动作序列后进行解码并交由低层级的运动控制进行下一个环节，Figure 01也已证实该路径可用较短的时间能实现很强的效果，因此我们认为分层式决控路径是短期内人形机器人落地的较优选择。

在这里插入图片描述

长期来看，人形机器人需要依赖大模型能力的提升来实现通用化。目前VLM+运动控制算法大多需要用模仿学习，从演示中学习复杂的移动操作任务。目前面对未训练的场景和任务时，其任务完成的准确性和模型的泛化性存在较大质疑。一体化大模型作为端到端近似于人类思考方式的控制方法，是人形机器人发展最终所追求的目标。

在这里插入图片描述

Issac lab、sim对于人形从“机器人”到“具身智能”有极为重要的意义。

没有理解及交互能力的机器人无法通用，而初创型公司自行开发软件及大模型的难度极高，该平台有望催生出更多人形厂商，且我们不排除未来英伟达亲自下场实现“具身智能”。

2 具身智能创投报告

在这里插入图片描述

具身智能的训练方法：模仿学习和强化学习
模仿学习：智能体通过观察和模仿专家的行为来学习任务

优点：快速学习专家策略，无需复杂探索
缺点：学习的行为策略受限于专家策略，对于未知情况，泛化能力差

强化学习：智能体通过与环境的交互来学习最佳行为策略，以最大化某种累积奖励

优点：能够通过探索环境来学习未知策略，可处理高度不确定和动态变化的环境
缺点：需要大量探索和试错，学习缓慢，对于复杂任务，设计合适的奖励函数难度较高

在这里插入图片描述

3 具身智能产业发展研究报告

尽管人形机器人在实现具身智能方面具有显著优势，但并非所有具身智能系统都必须采用人形机器人的形态。可以根据具体任务和环境需求选择合适的智能实体形态。例如，在家庭中行驶并与人进行交互的宠物机器人、L4自动驾驶车等，本质上都具备“具身”和“智能”两种属性。

在这里插入图片描述

4 具身智能行业深度：发展趋势、市场机遇

在这里插入图片描述

细分应用场景
（1）工业制造领域：打破人机协作瓶颈，实现智能化柔性适配
（2）自动驾驶领域：适应开放交通环境，实现安全可靠智能驾驶
（3）物流运输领域：优化仓储物流产线，实现高效货物运转
（4）家庭服务领域：解放人类双手束缚，实现全场景的智能家务服务
（5）医疗康养领域：应对老龄化问题，实现拟人化交互服务
（6）其他领域：从赋能到变革，推动各行各业创新与转型

具身智能研究报告

1 “具身智能”奇点已至

2 具身智能创投报告

3 具身智能产业发展研究报告

4 具身智能行业深度：发展趋势、市场机遇

相关文章：

具身智能研究报告

Windows安装Milvus

Excel分区间统计分析（等步长、不等步长、多维度）

宝塔mysql数据库容量限制_宝塔数据库mysql-bin.000001占用磁盘空间过大

LeetCode 2412.完成所有交易的初始最少钱数：【年度巨献】举例说明(讲明白)，由难至简(手脚不乱)，附Python一行版

多人-多agent协同可能会挑战维纳的反馈

Go学习：类型转换需注意的点以及类型别名

C语言中的局部变量和全局变量有什么区别？

价值交换到底在交换什么

C++传送锚点的内存寻址：内存管理

Prompt提示词完整案例：让chatGPT成为“书单推荐”的高手

基于django的智能停车场车辆管理深度学习车牌识别系统

【Proteus仿真】【51单片机】简易计算器系统设计

洛谷P3884 [JLOI2009] 二叉树问题（详解）c++

《Foundation 起步》

【hot100】刷题记录(6)-轮转数组

Android createScaledBitmap与Canvas通过RectF drawBitmap生成马赛克/高斯模糊（毛玻璃）对比，Kotlin

ThinkPad E480安装Ubuntu 18.04无线网卡驱动

自然语言处理——从原理、经典模型到应用

Ollama 运行从 ModelScope 下载的 GGUF 格式的模型

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

Leetcode 3576. Transform Array to All Equal Elements

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

vscode（仍待补充）

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

2021-03-15 iview一些问题

第25节 Node.js 断言测试

DBAPI如何优雅的获取单条数据

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

Spring是如何解决Bean的循环依赖：三级缓存机制