新火种AI|GPT-4诞生1年,OpenAI把它放到了机器人上
作者:一号
编辑:美美
ChatGPT拥有了身体,机器人也有了灵魂。
从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行百业都在谈论AI,再到Sora引爆AI生成视频的市场。
资深机器人专家Eric Jang在不久之前还预言,“ChatGPT曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”
他或许没错,在一年后的今天,一家名为Figure的公司在X上上传了一段人形机器人的视频。

在视频中,Figure的人形机器人Figure 01,能够完全与人类流畅对话,理解人类的想法,同时根据理解进行抓取和放置的操作,并解释自己这么做的原因。而这只是OpenAI宣布和Figure共同合作推进人形机器人领域前沿的第十三天。

这段Demo迅速吸引了广大网友的眼球,有人感叹,AGI的曙光似乎就在眼前了。
没弄虚未作假,这些都是机器人自学的
视频发布之后,Figure AI的掌门人Brett Adock,在X上来了一番精彩解读。
视频中Figure展示了端到端神经网络(end-to-end neural networks)框架下与人类对话的应用。在此过程中没有任何远程操作。并且机器人的速度也有了显著的提升,开始接近人类的速度。

那具体是怎么做到的呢?
首先,Figure AI会将机器人摄像头拍摄到的图像和通过板载麦克风记录到的语言转录成文本输入到一个由OpenAI训练的大模型中,这是一个能够同时处理图像和文本信息的模型。
然后,这个模型会处理整个对话的历史记录,包括以往的图像,然后通过文本到语音的方式,生成语音进行响应,向人类回话。

这个模型还同时负责决定执行哪种已学习的闭环行为来响应给定的命令,它将特定的神经网络权重加载到GPU上,并执行相应的策略。
这样做之后,Figure 01就有了很多有趣的新功能。例如描述它周围的环境、在做决定的时候运用常识进行推理,并且会理解一些含糊的高级指令,例如当人类说“我饿了”的时候,它会将桌面上唯一的食物——苹果,递给人类,并用简单的英语说明它为什么这么做。
而关于Figure 01通过学习掌握的精细双手操作技能,这些所有的行为都是由神经网络的视觉-运动转换器策略驱动,能将像素直接映射到动作。这些网络以每秒10帧的速率接收机载图像,并以200hz的频率生成24-DOF动作,包括手腕姿势和手指关节角度。
简单来说,预训练模型会首先对图像和文本进行常识推理,然后给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速的反应行动。同时通过全身控制器确保动作的安全性和稳定性,保持机器人的平衡。
Figure,众人看好的具身智能公司
人工智能的后半场,以机器人为代表的具身智能将成为新的智能增长点。
英伟达CEO黄仁勋曾说,“具身智能将引领下一波人工智能浪潮”。这样的观点正在被越来越多的公司所赞同。当前,生成式AI的竞争已经从连续对话走向长文本以及多模态,各家科技公司和机构也开始投资具身智能。
而这家名为Figure的具身智能公司,除了被OpenAI看好,还拿到了多方的投资,成为了硅谷备受关注的新星。

公开资料显示,Figure成立于2022年,成立之初就瞄准了通用人形机器人领域。在3月1日,它宣布完成了惊人的6.75亿美元B轮融资,公司估值达到了26亿美元。而它的投资方,几乎占据了硅谷的半壁江山。除了OpenAI,微软、英特尔、英伟达、亚马逊创始人贝索斯以及“木头姐”等,都是它的投资方。

而在获得融资之后,Figure也没有让人失望。在今年1月,它们的产品Figure就通过端到端神经网络,仅用10小时就掌握了制作咖啡的技能。1个月后,它又展示了把箱子搬运到传送带的新技能,而现在,它又学会了理解人类的意图。

当然,在商业化的道路上,Figure也在积极探索。目前,Figure已经和宝马制造公司签订了商业协议,Figure 01已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试。
从ChatGPT到Figure 01,OpenAI想的依旧是AGI
尽管OpenAI在2021年夏天悄悄关闭了其机器人团队,但显然,OpenAI对于机器人领域的关注并未减少。
除了Figure,OpenAI在一年之前就投资了挪威一家名为1X Technologies的机器人制造商。与此同时,OpenAI还被彭博社爆料,说它投资了一家新成立的机器人AI公司Physical Intelligence,他们的创始团队分别来自谷歌研究团队、加州大学伯克利分校以及斯坦福大学教授等。而这家公司也是研究未来能够成为通用机器人系统的人工智能。
显然,将OpenAI大模型融入Figure 01是OpenAI有意的战略布局。

对于计算机视觉、机器人等领域来说,具身智能是一个很有挑战的目标:如果AI智能体(机器人)不仅能够接收来自数据集的静态图像,还能够在三维的世界中,无论是虚拟还是真实的,四处移动并与环境进行交互,那么我们将能迎来一次重大的突破,即从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。
而当机器人能够执行类人任务后,通过数据的迭代升级,将会越来越像人。而到了那个时候,也许AGI能够取得突破,这也是OpenAI一直以来的目标。
一年之前,OpenAI发布了GPT-4,向世界证明了大模型的威力,而在一年后的今天,Figure 01的表现,也许会是机器人领域的GPT-4时刻。不过,正与OpenAI争得不可开交的马斯克,他的Optimus也是机器人领域的佼佼者,这两者之间还会有什么样的故事,我们拭目以待。
相关文章:
新火种AI|GPT-4诞生1年,OpenAI把它放到了机器人上
作者:一号 编辑:美美 ChatGPT拥有了身体,机器人也有了灵魂。 从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力&…...
8-图像放大
其实,就是开辟一个zoomwidth,zoomheight的内存,再分别赋值即可。 void CDib::Maginify(float xZoom, float yZoom) { //指向原图像指针 LPBYTE p_data GetData(); //指向原像素的指针 LPBYTE lpSrc; //指向缩放图像对应像素的指针 LPBYTE l…...
java实现压缩文件夹(层级压缩)下载,java打包压缩文件夹下载
工具类如下 打包下载方法:exportZip(支持整个文件夹或单文件一起) 注意:前端发送请求不能用ajax,form表单提交可以,location.href也可以,window.open也可以,总之就ajax请求就是不行 import com.…...
Visual Studio 2022 配置“Debug|x64”的 Designtime 生成失败。IntelliSense 可能不可用。
今天写代码,无缘无故就给我整个这个错误出来,我一头雾水。 经过我几个小时的奋战,终于解决问题 原因就是这个Q_INTERFACES()宏,我本想使用Q_DECLARE_INTERFACE Q_INTERFACES这两个Qt宏实现不继承QObject也能使用qobjec…...
Pandas教程16:DataFrame列标题批量重命名+空df数据判断+列名顺序重排
---------------pandas数据分析集合--------------- Python教程71:学习Pandas中一维数组Series Python教程74:Pandas中DataFrame数据创建方法及缺失值与重复值处理 Pandas数据化分析,DataFrame行列索引数据的选取,增加,…...
React.FC介绍
React.FC是React中的一种函数组件类型,是在TypeScript中使用的一个泛型,FC即Function Component的缩写,表示一个接收props作为输入并返回JSX元素的函数组件。 使用React.FC可以为组件定义类型,提供props的类型作为泛型参数&#x…...
为什么要用scrapy爬虫库?而不是纯python进行爬虫?
为什么要用scrapy爬虫库?而不是纯python进行爬虫? Scrapy的优点Scrapy节省的工作使用纯Python编写爬虫的不足 Scrapy是一个使用Python编写的开源和协作的web爬虫框架,它被设计用于爬取网页数据并从中提取结构化数据。Scrapy的强大之处在于其广…...
C:数据结构王道
初始化顺序表(顺序表中元素为整型),里边的元素是1,2,3,然后通过scanf读取一个元素(假如插入的是6),插入到第2个位置,打印输出顺序表,每个元素占3个空格,格式为…...
Compose UI 之 Buttons 按钮 IconButtons 图标按钮
Buttons 按钮 Android Compose UI 库中的 Button 和 IconButton 是两种常用的组件,它们各自具有一些独特的特点。 Button 的特点: 可点击性:Button 是一个可点击的组件,通常用于触发某个操作或事件。文本内容:Button 通常包含文本内容,用于描述按钮的功能或操作。自定义…...
吴恩达机器学习笔记 二十一 迁移学习 预训练
迁移学习(transfer learning):直接把神经网络拿来,前面的参数可以直接用,把最后一层改了。 两种训练参数的方式: 1.只训练输出层的参数 2.训练所有参数 当只有一个小数据集的时候,第一种方法…...
Python中Pandas常用函数及案例详解
Pandas是一个强大的Python数据分析工具库,它为Python提供了快速、灵活且表达能力强的数据结构,旨在使“关系”或“标签”数据的操作既简单又直观。Pandas的核心数据结构是DataFrame,它是一个二维标签化数据结构,可以看作是一个表格…...
VR全景看房:超越传统的看房方式
近年来,新兴技术不断涌出,例如大数据、VR全景、人工智能、元宇宙等。随着科技不断发展,VR全景技术在房地产行业中的应用也是越发广泛,逐渐超越了传统的看房方式。今天,就让我们一起来深入探讨一下VR全景技术在VR看房中…...
pip 配置镜像加速安装
在使用pip安装Python第三方库时,默认是使用pip官网的非常慢,可通过配置国内镜像源加速下载速度,以下是如何使用国内镜像源安装Python库的两种常见方式: 临时使用镜像源安装 如果你只是想临时使用某个镜像源安装单个或几个库&…...
LUA语法复习总结
文章目录 简记变量数据类型运算符算术运算符关系运算符逻辑运算符杂项运算符 列表(表)表格操作表连接插入和删除排序表 模块元表__index 元方法实例 总结__newindex 元方法实例实例 为表添加操作符实例 __call 元方法实例 __tostring 元方法实例 简记 lua下标从1开始迭代器pai…...
某赛通电子文档安全管理系统 DecryptApplication 任意文件读取漏洞(2024年3月发布)
漏洞简介 某赛通电子文档安全管理系统 DecryptApplication 接口处任意文件读取漏洞,未经身份验证的攻击者利用此漏洞获取系统内部敏感文件信息,导致系统处于极不安全的状态。 漏洞等级高危影响版本*漏洞类型任意文件读取影响范围>1W 产品简介 …...
Mac-自动操作 实现双击即可执行shell脚本
背景 在Mac上运行shell脚本,总是需要开启终端窗口执行,比较麻烦 方案 使用Mac上自带的“自动操作”程序,将shell脚本打包成可运行程序(.app后缀),实现双击打开即可执行shell脚本 实现细节 找到Mac上 应用程序中的 自动操作&am…...
人工智能入门之旅:从基础知识到实战应用(六)
一、人工智能学习之路总结 人工智能学习的关键点与挑战可以总结如下: 关键点: 理论基础: 理解机器学习、深度学习等人工智能的基本原理和算法是学习的基础,包括线性代数、概率统计、微积分等数学知识,以及神经网络、…...
Debezium日常分享系列之:Debezium2.5稳定版本之Mysql连接器的工作原理
Debezium日常分享系列之:Debezium2.5稳定版本之Mysql连接器的工作原理 一、Mysql连接器的工作原理1.支持的 MySQL 拓扑2.MariaDB 支持3.Schema history topic4.Schema change topic5.Snapshots1)使用全局读锁的初始快照2)Debezium MySQL 连接…...
Linux服务器,使用ssh登录时越来越慢,有时甚至出现超时的现象,解决方案
一台Linux服务器,使用ssh登录时越来越慢,有时甚至出现超时的现象。一直以为这不算问题,但是有时候登录时间长的让人无法接受,查了一下,这“ssh登录慢”还真的是个问题,解决方案如下: 客户端进行…...
GPT-SoVITS开源音色克隆框架的训练与调试
GPT-SoVITS开源框架的报错与调试 遇到的问题解决办法 GPT-SoVITS是一款创新的跨语言音色克隆工具,同时也是一个非常棒的少样本中文声音克隆项目。 它是是一个开源的TTS项目,只需要1分钟的音频文件就可以克隆声音,支持将汉语、英语、日语三种…...
逻辑回归:给不确定性划界的分类大师
想象你是一名医生。面对患者的检查报告(肿瘤大小、血液指标),你需要做出一个**决定性判断**:恶性还是良性?这种“非黑即白”的抉择,正是**逻辑回归(Logistic Regression)** 的战场&a…...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...
Golang dig框架与GraphQL的完美结合
将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用,可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器,能够帮助开发者更好地管理复杂的依赖关系,而 GraphQL 则是一种用于 API 的查询语言,能够提…...
el-switch文字内置
el-switch文字内置 效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
华硕a豆14 Air香氛版,美学与科技的馨香融合
在快节奏的现代生活中,我们渴望一个能激发创想、愉悦感官的工作与生活伙伴,它不仅是冰冷的科技工具,更能触动我们内心深处的细腻情感。正是在这样的期许下,华硕a豆14 Air香氛版翩然而至,它以一种前所未有的方式&#x…...
渗透实战PortSwigger靶场:lab13存储型DOM XSS详解
进来是需要留言的,先用做简单的 html 标签测试 发现面的</h1>不见了 数据包中找到了一个loadCommentsWithVulnerableEscapeHtml.js 他是把用户输入的<>进行 html 编码,输入的<>当成字符串处理回显到页面中,看来只是把用户输…...
鸿蒙(HarmonyOS5)实现跳一跳小游戏
下面我将介绍如何使用鸿蒙的ArkUI框架,实现一个简单的跳一跳小游戏。 1. 项目结构 src/main/ets/ ├── MainAbility │ ├── pages │ │ ├── Index.ets // 主页面 │ │ └── GamePage.ets // 游戏页面 │ └── model │ …...
Android写一个捕获全局异常的工具类
项目开发和实际运行过程中难免会遇到异常发生,系统提供了一个可以捕获全局异常的工具Uncaughtexceptionhandler,它是Thread的子类(就是package java.lang;里线程的Thread)。本文将利用它将设备信息、报错信息以及错误的发生时间都…...
32位寻址与64位寻址
32位寻址与64位寻址 32位寻址是什么? 32位寻址是指计算机的CPU、内存或总线系统使用32位二进制数来标识和访问内存中的存储单元(地址),其核心含义与能力如下: 1. 核心定义 地址位宽:CPU或内存控制器用32位…...
