当前位置: 首页 > news >正文

【AI学习】[2024北京智源大会]具身智能:具身智能关键技术研究:操纵、决策、导航

具身智能关键技术研究:操纵、决策、导航
董 豪 | 北京大学助理教授

依然是边看边做些记录
在这里插入图片描述
这张图的重点是在说,我们的大脑,也是不同的部分处理不同的功能。这里面有些功能,比如视觉、听觉理解等功能,LLM已经具备,而有些功能没有具备,这些就是具身智能的重点

在这里插入图片描述
这就是具身智能的三个关键研究点。

在这里插入图片描述
仿真是方便的数据来源。通过已有的3D数据,合成数据。
通过数据,训练抓取功能。还有目标姿态估计,这样才能放置物体,这也是可以通过仿真获得海量数据进行训练的。
有了抓取和姿态估计,就可以完成很多任务。

在这里插入图片描述

灵巧手也可以通过合成数据训练。这里先要回答,灵巧手和二指等有什么区别?区别在于人的手有一个预抓取动作。
具体的训练,通过强化学习。因为这不是一个静态的抓取,是连续的动作

在这里插入图片描述
抓取之后,然后是操纵。这里是通过强化学习训练。

在这里插入图片描述
探索仿真的边界。通过探索,仿真是有边界的。

在这里插入图片描述
然后这里是探索双手的操作。
在这里插入图片描述
准备开源的平台:OmniSim
实现仿真到仿真。比如一个开门,不可能在真实环境去开一千个门吧,需要利用仿真

在这里插入图片描述
那仿真的边界在哪呢?目前最好的是视觉。
对于一个门,没有把手,即使是人,也需要尝试。这里就是交互式的尝试,这些都需要机器人在真实世界,交互后,才能提升。
我们也希望机器人能在真实世界学习提升,而不是固化了。
在这里插入图片描述
这个就是在真实世界里学习。

在这里插入图片描述
柔性物体的操作,是比较难的!通过强化学习,一个方法解决多种任务

在这里插入图片描述
这是机械臂的操作

在这里插入图片描述
在这里插入图片描述
这是通过在大淘宝买的东西做的机械臂。虽然误差大,但是通过视觉的闭环,依然可以工作。
在这里插入图片描述
如果仿真中没有的物体这么办?通过借助大模型,因为大模型见多识广,可以举一反三。
将仿真的操作能力,注入大模型,最后部署的是大模型。
具体的方式,就是通过问大模型,让大模型告诉如何操作。

在这里插入图片描述
然后发现,即使比较差的仿真,加上大模型,也可以比较好的工作。大模型可以做到新类别的泛化。

在这里插入图片描述
那接下来,就需要把长长的动作,进行任务分解。
上面这个图,就是大模型把一个任务,分解为一系统API。

在这里插入图片描述
接下来,是通过视觉的问题任务,经过数据集、微调环节,解决机器人的视觉问答任务。
在这里插入图片描述
任务编排不是瓶颈,大模型都可以实现。难点还是机械臂的操作。

在这里插入图片描述
然后是收纳,这个需要机器人自动完成。方法是从网络上获取大量图片,比如获取什么是整洁的样子,通过网上的几千张样例图片,获得分布的知识。
在这里插入图片描述
最后是具身导航,这个现在提的不多,但是未来可能有大用处。

在这里插入图片描述
物体导航。比如在屋里找,相应的东西。
在这里插入图片描述
这个也可以通过多模态的视觉语言大模型完成。
在这里插入图片描述
这是另外一个导航任务。视觉语言导航,跟随人的指令
在这里插入图片描述
这是一个真实世界部署的大模型,而不是仿真。方法是通过多专家讨论的方式,并不需要训练什么模型。
在这里插入图片描述
这是提出的第三种导航范式,需求驱动导航,因为前两种对人并不友好。

在这里插入图片描述
这个是把之前的所有导航方式进行集成。前面的三种导航范式可以覆盖所有的各种任务。
在这里插入图片描述
最后总结一下具身智能的关键点。过去是通过仿真实现基本的操作和导航技能,包括自监督的学习;现在是通过大模型,解决仿真到真实世界的gap,利用大模型的知识;那接下来,还是要利用真实世界的数据。

备:

下面视频链接的第3个演讲,大约在视频的1小时25分钟开始
https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click&vd_source=986224b0c4e79ec28556778dc7d42405

相关文章:

【AI学习】[2024北京智源大会]具身智能:具身智能关键技术研究:操纵、决策、导航

具身智能关键技术研究:操纵、决策、导航 董 豪 | 北京大学助理教授 依然是边看边做些记录 这张图的重点是在说,我们的大脑,也是不同的部分处理不同的功能。这里面有些功能,比如视觉、听觉理解等功能,LLM已经具备&…...

C语言实现UDP广播

UDP 广播发送方 1.创建套接字&#xff1a;使用socket()函数创建一个UDP套接字。 2.设置套接字选项&#xff1a;使用setsockopt()函数设置SO_BROADCAST选项以允许广播。 3.发送数据&#xff1a;使用sendto()函数将数据发送到特定的广播地址和端口。 #include <stdio.h> …...

速记Java八股文——Redis 篇

前言 分类汇总 50 常见的 Redis 篇 经典后端面试题&#xff0c;并对题目进行了精炼总结&#xff0c;旨在帮助大家高效记忆&#xff0c;在面试中游刃有余&#xff0c;不至于陷入词穷的窘境。 Redis 篇 什么是Redis? Redis是一个开源的内存数据结构存储系统&#xff0c;可用作数…...

CUDA编程05 - GPU内存架构和数据局部性

一&#xff1a;概述 到目前为止&#xff0c;我们已经学会了如何编写 CUDA 核函数&#xff0c;以及如何设置和分配大量线程来执行核函数。我们还了解了当前 GPU 硬件的计算架构&#xff0c;以及线程在硬件上调度执行过程。在本章中&#xff0c;我们将重点关注 GPU 的片上(on-chi…...

TCP协议程序设计

文章目录 前言一、TCP协议程序是什么&#xff1f;二、使用步骤 1.服务器端与客户端2.实操展示总结 前言 TCP网络程序设计是指利用Socket类编写通信程序。利用TCP协议进行通讯的两个应用程序是有主次之分的&#xff0c;一个称为服务器程序&#xff0c;另一个称为客户机程序&…...

【C++高阶】:自定义删除器的全面探索

✨ 我凌于山壑万里&#xff0c;一生自由随风起 &#x1f30f; &#x1f4c3;个人主页&#xff1a;island1314 &#x1f525;个人专栏&#xff1a;C学习 &#x1f680; 欢迎关注&#xff1a;&#x1f44d;点赞 &#x1f442;&am…...

Java中的不可变集合、Stream流以及异常处理的

目录 1. 不可变集合 如何创建不可变集合 2. Stream流 Stream基本操作 3. 异常处理 异常的分类 异常处理机制 1. 不可变集合 在Java中&#xff0c;不可变集合指的是一旦创建后内容不可更改的集合。这种集合的好处在于它们可以安全地被多个线程访问而无需同步&#xff0c;…...

LeetCode面试题Day1|LeetCode26 删除有序数组中的重复项、LeetCode80 删除有序数组中的重复项Ⅱ

前言&#xff1a; 暑假实在不知道干什么了&#xff0c;做一下力扣的《面试经典150题》吧&#xff0c;记录一下学习轨迹。(如果有要打非中文竞赛或者精进一下英语水平的记得把力扣调成英文) 题目1&#xff1a; 指路&#xff1a; . - 力扣&#xff08;LeetCode&#xff09;26…...

细说文件操作

你好&#xff01;感谢支持孔乙己的新作&#xff0c;本文就文件操作与大家分享我的思路。 希望能大佬们多多纠正及支持 &#xff01;&#xff01;&#xff01; 个人主页&#xff1a;爱摸鱼的孔乙己-CSDN博客 目录 1.什么是文件 1.1.程序设计文件 1.1.1.程序文件 1.1.2.数据文…...

Vue3从零开始——掌握setup、ref和reactive函数的奥秘

文章目录 一、Vue 3 组合式 API 概述二、setup​ 函数的基本使用2.1 setup​ 函数的特点2.2 setup​ 函数的基本结构2.3 实现一个简单的小demo 三、ref​ 函数的功能和应用3.1 ref​函数介绍3.2 基本使用3.2.1 定义ref​数据3.2.2 修改响应式变量 3.3 使用ref​函数实现计数器 …...

C语言练习--屏幕上打印九九乘法表

int main() { int i 0; for (i 1; i < 10; i) { int j 0; for (j 1; j <i; j) { printf(" %d*%d%2d", i, j, i * j); } printf("\n"); } return 0; }...

将tsx引入vue

按钮 vue <cl-batch-btn >新增批量</cl-batch-btn> import batch from "//modules/ad/components/ uploading/batch.vue" import ClBatchBtn from "/~/crud/src/components/batch-btn"; tsx...

前端实现签字效果+合同展示

文章目录 获取一个高度会变的元素的高度获取元素设置的 transform适配手机transform-origin: 5% 0; 的原因修改后 签字效果取消el-dialog的头部边距为什么禁止界面滚动vue3 使用 nextTick实现效果 签字判断是横是竖canvas 去掉空白部分canvas裁剪图片最终完善代码&#xff0c;可…...

[AI Embedchain] 开始使用 - 快速开始

安装 首先安装 Python 包&#xff1a; pip install embedchain安装包后&#xff0c;根据您的偏好&#xff0c;您可以选择使用以下内容&#xff1a; 开源模型 本节提供了一个快速入门示例&#xff0c;展示了如何使用 Mistral 作为开源 LLM&#xff08;大型语言模型&#xff…...

Linux网络协议.之 tcp,udp,socket网络编程(三).之多进程实现并发demon

一、fork创建进程&#xff0c;来实现多并发 这只是个demon&#xff0c;并不能用于实际项目&#xff0c;多进程&#xff0c;消耗太多资源。没有人这么玩 1、服务端代码&#xff1a; #include <stdio.h> #include <sys/types.h> #include <sys/socket.h> #in…...

Java线程(练习题)

Exercise 创建三个线程&#xff1a;一个线程打印 100个A,一个线程打印 100 个 B &#xff0c;一个线程打印 100个C 输出效果&#xff1a;ABC ABC ABC…交替打印 package com.kane.exercise01;public class PrintABC implements Runnable {private static final Object lock …...

MySQL:初识数据库初识SQL建库

目录 1、初识数据库 1.1 什么是数据库 1.2 什么是MySQL 2、数据库 2.1 数据库服务&数据库 2.2 C/S架构 3、 初识SQL 3.1 什么是SQL 3.2 SQL分类 4、使用SQL 4.1 查看所有数据库 4.1.2 语句解析 4.2 创建数据库 4.2.1 if not exists校验 4.2.2 手动明确字符集…...

关于Redis的集群面试题

问题一&#xff1a;Redis的多数据库机制&#xff0c;了解多少&#xff1f; Redis支持多个数据库&#xff0c;并且每个数据库是隔离的不能共享&#xff0c;单机下的redis可以支持16个数据库&#xff08;db0~db15&#xff09;;若在Redis Cluster集群架构下&#xff0c;则只有一个…...

带头双向循环链表(一)

今天我们来学习带头双向链表 带头双向循环链表的解释 带头双向链表顾名思义就是&#xff1a; 1、带了一个“头”在数据结构中的意思就是加了一个"哨兵位"。 2、这个链表是双向循环的链表即可以通过任意的节点访问它的上一个和下一个的节点也能通过链表的头直接访…...

深入理解Win32K.sys的工作原理

https://download.csdn.net/download/sitelist/89621815 Windows Resource Kits 2003.rar工具下载&#xff0c;因为有windows server 2003源代码&#xff0c;并可以编译成iso&#xff0c;所以对于研究windows系统很有帮助&#xff0c;上吗是2003的研究工具&#xff0c;不知道源…...

国内网络环境下,用Docker打包Dify API镜像的保姆级提速指南(附完整配置流程)

国内开发者高效构建Dify API镜像的实战指南 最近在帮团队搭建Dify本地开发环境时&#xff0c;发现镜像构建过程频繁因网络问题中断。每次重试都要从零开始下载依赖&#xff0c;浪费大量时间。经过多次实践&#xff0c;我总结出一套适合国内网络环境的完整优化方案&#xff0c;将…...

5分钟搞定OpenClaw+Kimi-VL-A3B-Thinking:星图GPU镜像一键体验

5分钟搞定OpenClawKimi-VL-A3B-Thinking&#xff1a;星图GPU镜像一键体验 1. 为什么选择云端沙盒体验OpenClaw 作为一个长期折腾本地AI部署的技术爱好者&#xff0c;我深刻理解配置环境的痛苦。上周尝试在MacBook Pro上手动部署OpenClaw时&#xff0c;光是解决Node.js版本冲突…...

麦科奥特冲刺港股:年亏损1.85亿 估值26亿

雷递网 雷建平 4月5日陕西麦科奥特医药科技股份有限公司&#xff08;简称“麦科奥特”&#xff09;日前更新招股书&#xff0c;准备在港交所上市。麦科奥特2025年9月26日完成2.36亿元&#xff0c;投后估值为26.36亿元。年亏损1.85亿麦科奥特成立于2007年&#xff0c;是一家平台…...

PipelineDB扩展开发指南:如何编写自定义聚合函数

PipelineDB扩展开发指南&#xff1a;如何编写自定义聚合函数 【免费下载链接】pipelinedb High-performance time-series aggregation for PostgreSQL 项目地址: https://gitcode.com/gh_mirrors/pi/pipelinedb PipelineDB作为PostgreSQL的高性能时序聚合扩展&#xff0…...

千问3.5-9B多模态扩展:OpenClaw处理图片与文本混合任务

千问3.5-9B多模态扩展&#xff1a;OpenClaw处理图片与文本混合任务 1. 为什么需要本地多模态自动化 去年夏天&#xff0c;我电脑里堆积了上千张混杂着文字说明的截图——有技术文档片段、会议纪要、临时灵感记录。手动整理这些内容时&#xff0c;我突然意识到&#xff1a;如果…...

公司网站SEO优化需要定期优化调整吗

公司网站SEO优化需要定期优化调整吗&#xff1f; 在当今数字化时代&#xff0c;公司网站的SEO优化&#xff08;搜索引擎优化&#xff09;不仅是提升网站曝光率的关键&#xff0c;更是增加客户流量和转化率的重要手段。有许多企业在SEO优化上存在疑惑&#xff0c;尤其是关于“公…...

Linux系统管理员必备命令大全

1. Linux命令概述作为一名Linux系统管理员&#xff0c;掌握常用命令是基本功。Linux命令是操作系统与用户交互的主要方式&#xff0c;通过命令行可以完成几乎所有系统管理任务。与图形界面相比&#xff0c;命令行操作更加高效、灵活&#xff0c;特别是在远程管理和自动化脚本方…...

XUnity.AutoTranslator:为Unity游戏开启多语言世界的智能钥匙

XUnity.AutoTranslator&#xff1a;为Unity游戏开启多语言世界的智能钥匙 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 当游戏语言成为障碍&#xff1a;一个翻译插件的诞生背景 你是否曾经遇到过这样的…...

TP4054锂电池充电管理库原理与嵌入式工程实践

1. TP4054线性锂离子电池充电管理库深度解析与工程实践TP4054是一款由南京拓微电子&#xff08;Top Power&#xff09;推出的高集成度、单节锂离子/锂聚合物电池专用线性充电管理芯片。其典型应用电路仅需极少外围器件&#xff0c;支持恒流/恒压&#xff08;CC/CV&#xff09;充…...

TVA系统从安装到调优的关键节点把控

当AI智能体视觉检测系统&#xff08;TVA&#xff09;的硬件设备抵达现场&#xff0c;真正的挑战才刚刚开始。部署调试阶段是将蓝图变为现实的关键环节&#xff0c;其间遍布技术“暗礁”。作为一名现场工程师&#xff0c;您的严谨操作和问题预判能力&#xff0c;将直接决定系统上…...