黄仁勋:人形机器人在内,仅有三种机器人有望实现大规模生产
11月23日,芯片巨头、AI时代“卖铲人”和最大受益者、全球市值最高【英伟达】创始人兼CEO黄仁勋在香港科技大学被授予工程学荣誉博士学位;并与香港科技大学校董会主席沈向洋展开深刻对话,涉及人工智能(AI)、计算力、领导力和创业等。
对话中,提到机器人时,“黄教主”黄仁勋表示:有三种机器人有望实现大规模生产,而且几乎仅限于这三种;这三种机器人分别是:汽车,因为我们在过去150到200年间构建了一个适应汽车的世界;其次是无人机,因为天空几乎没有限制;当然,产量最大的将是人形机器人,因为我们为自己构建了一个世界;历史上出现过的其他类型的机器人都很难实现大规模量产。
同时表示:大规模生产至关重要,因为它能驱动技术飞轮效应;高投入的研发(R&D)能带来技术突破,从而生产出更优秀的产品,进一步推动生产规模的扩大。这个研发飞轮对任何行业都是关键。
11月20日,资深游戏玩家、世界首富马斯克边玩游戏边接受采访,涉及AGI、人形机器人Optimus、猫女机器人、自动驾驶等;
谈到Optimus,马斯克表示:人形机器人Optimus将真正开启下一阶段的技术突破,各种皮肤随便换(“You'll be able to skin Optimus in a white, you know, pretty much anything”)等等。
11月22日,马斯克在 X 平台介绍了Optimus机器人和Robotaxi/Cybercab智驾出租车的定价愿景。
黄仁勋和马斯克都是人形机器人赛道拥护者且私交甚好,两者皆在多个重大场合,表达了对人形机器人未来美好畅想;前者曾表示:“机器人时代已经带来,人工智能的下一波浪潮是机器人技术,其中最令人兴奋的发展之一是人形机器人。”后者曾表示:“人形机器人是当下最大的机遇,并预测未来机器人的数量将远超人类,达到2:1至3:1的比例,将有100亿个人形机器人,甚至是200亿到300亿个,成为人类生活中不可或缺的伙伴与助手。”
当然,两者所代表[英伟达]和[特斯拉]也的确大力布局具身智能赛道,更是全球科技巨头/大厂(谷歌、微软、Meta、OpenAI、华为、腾讯等)入局代表。
[特斯拉]被称为人形机器人赛道引领者,旗下人形机器人Optimus更是行业标杆;[英伟达]从芯片和中间件层面入局,核心目的是打造底层开发生态,成为具身智能领域当之无愧最强“卖铲人”。
具身智能领域研究方向可粗略分为:具身智能大模型(机器人“大脑”)和人形机器人(本体+小脑)。
人形机器人大致分为三大部分:人形本体、高动态性能的控制算法(小脑)、具有泛化性的具身智能及非常接近人的通用人工智能。
具身智能领域初创公司主要分三种:专注于具身智能大模型、人形机器人整机和两者同时涉及;全球范围内,专注于人形机器人本体初创公司最多,初步统计,人形机器人整机公司目前已超150家且持续增加中(其中国内最多,并远超第二名是美国);具身智能大模型因涉及芯片、软件、AI算法,资金投入远高于人形机器人本体,目前更多是科技大厂间博弈,初创公司数量远低于人形机器人本体初创公司。
全球人形机器人本体公司背景可大体分为:汽车制造企业(特斯拉、小鹏等)、机器人企业(优必选、宇树等)、科研院校孵化(银河通用)和互联网背景创业团队(星尘智能、1X等),目前科研院校教授“兼职”创业占据国内人形本体初创企业半壁江山,国外更多是互联网背景创业团队。
全球具身智能大模型(机器人通用“大脑”)公司背景大体可分为:科技大厂(英伟达、OpenAI等)和科研院校背景创业团队(Physical Intelligence、Skild AI等);国外科技大厂早已布局具身智能大模型方向研究(如谷歌、英伟达等;谷歌已完成多次技术迭代,从Saycan到RT-H),目前处于领先地位;国内科技大厂目前也逐步切入具身智能赛道,推出相应具身智能大模型,但目前对具身智能大模型研发投入极其有限,更多以对外投资方式入局。
现阶段,[华为]是国内入局具身智能赛道佼佼者,并有意沿袭[英伟达]路线;[小鹏汽车]、[小米]作为车企,切入人形机器人本体制造,沿袭[特斯拉]路线。
NVIDIA:芯片和中间件层面入局
NVIDIA 在机器人领域的核心目标是打造底层开发生态,主要围绕着大模型、数据、开发平台三大核心领域展开,其终极目标是借助芯片等核心产品,为打造机器人底层开发生态。
2018年,英伟达推出全新硬件、软件、虚拟世界机器人模拟器的NVIDIAIsaac,同时还推出专为机器人设计的计算机平台Jetson Xavier和相关的机器人软件工具包,正式布局智能机器人领域;
2019-2022年,英伟达从底层芯片、到计算平台、到训练与验证,开启智能机器人领域的全方位布局:
-
2019年,推出lsaac软性开发套件(SDK),为机器人提供更新的AI感知和仿真功能;
-
2021年,英伟达推出Omniverse平台,支持机器人的协作和模拟,对协作机器人影响深远;
-
2022年,英伟达推出IsaacNova Orin,其配置的计算和传感器参考平台旨在帮助AMR(自主移动机器人)制造商缩短开发时间并降低成本;
-
2022年10月,英伟达发布基于Transformer架构的支持多模形态的(仿真)智能体VIMA;
-
2022年11月22日,英伟达发布具有互联网规模知识的开放式具身智能体-MinDojo;
2023年5月,英伟达发布全新JetsonAGXOrin 工业级模块;
2023年5月25日,英伟达发布VOYAGER智能体,这是第一个由LLM驱动的可以终身学习的智能体,为具身控制生成可执行代码;
2023年10月,英伟达对Jetson平台上的Metropolis和Isaac框架进行有史以来规模最大的软件扩展,用以来满足边缘AI的快速部署需求;与此同时,英伟达还宣布创建Jetson生成式AI实验室;另外宣布推出IsaacROS和IsaacSim软件的全新版本;
2023年10月20日,英伟达发布了Eureka(Evolution-driven Universal Reward Kit for Agent)智能机器人训练工具,本质是一种由大模型驱动的算法生成工具;
2024年2月,英伟达成立通用具身智能体研究GEAR(Generalist EmbodiedAgent Research)团队,目标是在虚拟和现实世界中建立具身智能体基础模型,致力于实现跨多模态、多场景的智能应用;
2024年3月19日,GTC2024大会上,英伟达发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Tho;对Isaac机器人平台进行了重大升级,包括生成式AI基础模型和仿真工具、AI工作流基础设施,新功能将在下个季度推出;
图片来源:英伟达官网
2024年7月29日,在丹佛SiGGRAPH2024大会上,英伟达携带自家生成式AI时代的新王牌-升级版“Nvidia NIM”(Nvidia Inference Microservices)云原生微服务亮相;Nvidia布局的NIM生态系统已经可提供一系列预训练的AI模型。英伟达宣布,帮助开发者在多个领域加速应用开发和部署,并且重点在不同的领域(如理解、数字人、三维开发、机器人技术和数字生物学)中提供的具体AI模型:
Nvidia NIM(Nvidia Inference Model)提供的服务及其具体模型
谷歌:从Saycan到RT-H,软件领军者,步步为营,模型高速迭代
2017 年,提出的Transformer架构,是大语言模型(LLM)的最底层的基座,是大模型的基础;
2022年4月,谷歌推出Say-can模型;将任务拆分成两个部分,先是“Say”,之后是“Can”;Say-can模型首次引入大语言模型帮助理解任务,选择合适的任务规划;但机器人的动作仍然是预设好的,因此只能完成特定任务;底层技能通用性和泛用性较差,只能输出高级指令。
2022年12月,谷歌推出了动作控制的端到端模型RT-1(Robotics Transformer 1);RT-1模型,将任务通过Saycan拆分成具体的任务,然后使用RT-1去执行;本质上是模仿学习,无法超越数据集的遥操作,严格意义上不是“大模型”;
2023年3月6日,谷歌推出多模态视觉语言具身大模型(VLM)PaLM-E;该模型让机器人能够接收持续的多模态的输入,并具有一定的推理能力,具备5620亿的参数模型,但本质为大语言模型,对于动作的完成和指导较弱;
2023年7月28日,谷歌推出全球首个控制机器人视觉-语言-动作(VLA)大模型RT-2 (Robotics Transformer2),可以从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令;
2023年10月,谷歌推出RT-X,具身智能大数据集Open X加持的RT-2与RT-1(分别为 RT-1-X 和 RT-2-X),创造了新的具身智能大数据集OpenX,并用此数据集训练前述的机器人模型RT-1和RT-2得到新的模型RT-1-X与RT-2-X;
2024年1月,谷歌研究成果三连发数据收集的AutoRT系统、提高决策深度的SARA-RT 和提高泛化能力的RT-Trajectory 模型。
2024年3月,谷歌推出RT-H;它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。
Open AI:GPT持续迭代,模型赋能加对外投资
... ... ...
接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、有鹿机器人、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状。
... ... ...
本文内容仅展示一部分,更多详细解读,加入知识星球“机器人头条”,查看完整版文章:[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字5W+),并深度了解“具身智能&人形机器人”赛道
相关文章:

黄仁勋:人形机器人在内,仅有三种机器人有望实现大规模生产
11月23日,芯片巨头、AI时代“卖铲人”和最大受益者、全球市值最高【英伟达】创始人兼CEO黄仁勋在香港科技大学被授予工程学荣誉博士学位;并与香港科技大学校董会主席沈向洋展开深刻对话,涉及人工智能(AI)、计算力、领导…...

【C语言】宏定义详解
C语言中的宏定义(#define)详细解析 在C语言中,宏定义是一种预处理指令,使用 #define 关键字定义。它由预处理器(Preprocessor)在编译前处理,用于定义常量、代码片段或函数样式的代码替换。宏是…...
LangChain——多向量检索器
每个文档存储多个向量通常是有益的。在许多用例中,这是有益的。 LangChain 有一个基础 MultiVectorRetriever ,这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常…...
《岩石学报》
本刊主要报道有关岩石学基础理论的岩石学领域各学科包括岩浆岩石学、变质岩石学、沉积岩石学、岩石大地构造学、岩石同位素年代学和同位素地球化学、岩石成矿学、造岩矿物学等方面的重要基础理论和应用研究成果,同时也刊载综述性文章、问题讨论、学术动态以及书评等…...

数据结构 (12)串的存储实现
一、顺序存储结构 顺序存储结构是用一组连续的存储单元来存储串中的字符序列。这种存储方式类似于线性表的顺序存储结构,但串的存储对象仅限于字符。顺序存储结构又可以分为定长顺序存储和堆分配存储两种方式。 定长顺序存储: 使用静态数组存储ÿ…...

职场发展陷阱
一、只有执行,没有思考 二、只有过程,没有结果 三、只有重复,没有精进 四、不懂向上管理 五、定期汇报 六、不要憋大招 七、多同步信息...

Xcode15(iOS17.4)打包的项目在 iOS12 系统上启动崩溃
0x00 启动崩溃 崩溃日志,只有 2 行,看不出啥来。 0x01 默认配置 由于我开发时,使用的 Xcode 14.1,打包在另外一台电脑 Xcode 15.3 Xcode 14.1 Build Settings -> Asset Catalog Compliter - Options Xcode 15.3 Build S…...
极狐GitLab 17.6 正式发布几十项与 DevSecOps 相关的功能【二】
GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…...

PVE相关名词通俗表述方式———多处细节实验(方便理解)
PVE设置初期,对CIDR、 网关、 LinuxBridge、VLAN等很有困惑的朋友一定很需要一篇能够全面通俗易懂的方式去理解PVE 中Linux网桥的工作方式,就像操作一个英雄,多个技能,还是需要一点点去学习理解的,如果你上来就对着别人…...

Ansible--自动化运维工具
Ansible自动化运维工具介绍 1.Ansible介绍 Ansible是一款自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。…...

微信小程序学习指南从入门到精通
🗽微信小程序学习指南从入门到精通🗽 🔝微信小程序学习指南从入门到精通🔝✍前言✍💻微信小程序学习指南前言💻一、🚀文章列表🚀二、🔯教程文章的好处🔯1. ✅…...

微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用
🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 认识微服务 1.1 单体架构 1.2 微服务 1.3 SpringCloud 框架 2.0 服务调用 2.1 RestTemplate 远程调用 3.0 服务注册和发现 3.1 注册中心原理 3.2 Nacos 注册中心 …...
使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口
文章目录 使用 Django 构建支持 Kubernetes API 测试连接的 POST 接口功能需求使用 kubectl 获取 Token命令解析输出示例 完整代码实现Kubernetes API 客户端类功能说明 Django 接口视图关键点解析 路由配置 接口测试请求示例响应结果成功错误 优化建议1. 安全性2. 错误处理3. …...
十二、正则表达式、元字符、替换修饰符、手势和对话框插件
1. 正则表达式 1.1 基本使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title&g…...

计算机毕业设计Python+大模型美食推荐系统 美食可视化 美食数据分析大屏 美食爬虫 美团爬虫 机器学习 大数据毕业设计 Django Vue.js
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
【后端面试总结】MySQL索引
数据库索引不只一种实现方法,但是其中最具代表性,也是我们面试中遇到最多的无疑是B树。 索引为什么选择B树 数据量很大的查找,是不能直接放入内存的,而是需要什么数据就通过磁盘IO去获得。 红黑树,AVL树等二叉查找树…...
[蓝桥杯 2021 省 AB2] 小平方
题目描述 小蓝发现,对于一个正整数 nn 和一个小于 nn 的正整数 vv,将 vv 平方后对 nn 取余可能小于 nn 的一半,也可能大于等于 nn 的一半。 请问,在 11 到 n−1n−1 中, 有多少个数平方后除以 nn 的余数小于 nn 的一半。 例如&…...

Jmeter测试工具的安装和使用,mac版本,jmeter版本5.2.1
Jmeter测试工具的安装和使用JSON格式请求 一、安装1、安装jdk包和设置java环境2、去官网下载Jmeter3、解压后,打开mac终端,进入apache-jmeter的bin文件开启jmeter 二、使用jmeter1、添加线程2、添加HTTP请求3、配置请求的协议、IP地址、端口号、请求方法…...

kmeans 最佳聚类个数 | 轮廓系数(越大越好)
轮廓系数越大,表示簇内实例之间紧凑,簇间距离大,这正是聚类的标准概念。 簇内的样本应该尽可能相似。不同簇之间应该尽可能不相似。 目的:鸢尾花数据进行kmeans聚类,最佳聚类个数是多少? plot(iris[,1:4…...
【纪念365天】我的创作纪念日
过去的一年 没有注意加入csdn已经有一年了。 这几天翻看小猴儿的通知才发现时间来到了一年的纪念日。稍稍思索想要将这一段时间的学习到的知识以及偶然遇到的机遇做一下总结。 上一次写纪念日是来到csdn128天的时候, 200天前我的学习状态是非常疯狂的。 只记得我当时…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...

Prompt Tuning、P-Tuning、Prefix Tuning的区别
一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning(提示调优) 核心思想:固定预训练模型参数,仅学习额外的连续提示向量(通常是嵌入层的一部分)。实现方式:在输入文本前添加可训练的连续向量(软提示),模型只更新这些提示参数。优势:参数量少(仅提…...

《通信之道——从微积分到 5G》读书总结
第1章 绪 论 1.1 这是一本什么样的书 通信技术,说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号(调制) 把信息从信号中抽取出来&am…...

Cinnamon修改面板小工具图标
Cinnamon开始菜单-CSDN博客 设置模块都是做好的,比GNOME简单得多! 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)
骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术,它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton):由层级结构的骨头组成,类似于人体骨骼蒙皮 (Mesh Skinning):将模型网格顶点绑定到骨骼上,使骨骼移动…...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)
UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中,UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化…...

优选算法第十二讲:队列 + 宽搜 优先级队列
优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...

Reasoning over Uncertain Text by Generative Large Language Models
https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...
比较数据迁移后MySQL数据库和OceanBase数据仓库中的表
设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之后,开始比较,直到比较完所有的数据。比较操作需要比较…...