当前位置: 首页 > news >正文

通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

目录

前言

1.通用人工智能

1.1 生物学分析

1.2具身智能

1.2.1当前的人工智能的局限

1.2.2 具身智能实现的基础

1.2.3 强化学习(决策大模型)

2.结论

往期文章

参考文献


前言

      目前的人工智能实质上只是强人工智能,或者说单个领域的通用人工智能。比方说Chatgpt它属于自然语言处理领域的通用人工智能(语言大模型),

      所谓通用人工智能,简单理解为一种和人类一样能够思考和解决任何问题,甚至在各方面超过人类的智能体。从这个角度讲,想要理解通用人工智能,要先了解人体的各个功能

1.通用人工智能

1.1 生物学分析

理解和决策机构:

大脑:支配高级皮层的活动,如思维、运动、感觉、语言和情感等。

小脑:保持平衡,协调肌肉运动。

感知机构:
耳:听觉      鼻:嗅觉      嘴:味觉      眼:视觉

执行机构:
手臂:用于抓取、握持和搬运物品,用于平衡身体和调整姿势。
手:用于精细的动作,如写字、插针、打字等。
腿:用于站立、行走和奔跑。
足:支撑身体,保持站立稳定,参与步行和奔跑。

基于人体功能假设一个场景:

      我们命令()机器人去苹果园摘苹果,远远的它就闻()到了苹果的香味,走进时又看到了()又大又红的苹果,甚至它还偷偷尝了一个(),在这个场景下,我们用全部感知去认知这个苹果。(而目前的目标检测仅能从视觉上判断一个东西是不是苹果,显然从感知层次,这是不足够的)

      同时在采摘的过程中,它用腿和足行走到果树下面,再用手臂移动到苹果旁边,用进行抓取。(在目前的机器人行业,腿和足的功能用移动机器人实现,手臂的功能用机械臂实现,手的功能用一些末端执行器,像夹手或吸盘等,当然近期人形机器人也是爆点)

      在这整个过程中,感知机构将所获得的信息传回大脑(理解这些信息),再由大脑决定下一步应该做什么(思考),最后由小脑控制四肢(执行机构)落实大脑的决策。

      这就是人在面对一个问题时,身体各个部位所做的事情,同样,对于机器人而言,只有具备这些功能之后,才能具备了成为一个通用人工智能的可能

1.2具身智能

1.2.1当前的人工智能的局限

      今年世界机器人大会2023提到一个概念具身智能,提出这个概念是因为,当前我们所做的基于人工智能的机器人,是先在仿真环境训练模型,再将训练好的模型移植到真实世界中的机器人上,但这存在一个问题,这种训练模式下的机器人,只能解决训练环境中,已经提前模拟过的可能发生的各种问题,对于现实世界发生的没有在训练环境中模拟的情况,它不能解决。举个例子,假设我们在训练环境中,让机器人抓取一个苹果,但没有模拟抓取过程中它遇到障碍物时该如何解决,那么在真实世界中遇到障碍物时同样不知道如何解决。也就是说,机器人真实世界中它并不具备学习能力,它有的仅是在训练环境中学习到的能力,显然这不是我们想要的人工智能

1.2.2 具身智能实现的基础

      而且对于人类个体而言,尽管我们活在信息大爆炸时代,但在获取信息时,我们所学习的存在脑海中的不管是成功的还是失败的经验,都是自己独有的适合自己的,然后我们依靠这些经验,提升自己,逐步从小孩成长到大人。

      而在当前训练智能体时所采取的数据,全部来源于网络,这些数据庞大且混乱(真假难以辨别),就从Chatgpt来看,我们经常能发现它会给出一些错误的答案,这是因为它所学习到的数据并不全是对的的。但Chatgpt有一个优势,它可以和人类互动,去纠正之前错误的知识(真实世界的交互),这也就意味着Chatgpt有了进化的可能,因为它可以和全球几十亿人交流,学习他们的一切,并且能够变成自己的,甚至推陈出新。当然Chatgpt仅能算是语言(嘴和耳)的通用人工智能,扮演大脑的一部分,赋予了智能体理解人类问题以及和人类交流的能力。想要实现真正意义上的通用人工智能,我们还要获得眼,鼻等其他感知机构和现实世界的交互信息

      当前最接近具身智能的应该是数字孪生,之前我们说机器人无法解决真实世界中遇到的在训练环境中没有模拟的情况,但对于数字孪生,它可以利用虚拟环境(训练环境)实现和现实的实时交互,从而具有在真实世界学习的能力。我们还从上面的例子出发,同样我们在训练环境中让机器人抓取一个苹果,同时不设置障碍,和之前不同的是,此时在真实世界中遇到障碍,会将这个障碍信息实时反馈到虚拟环境(训练环境),那么此时机器人就可以快速在虚拟世界(训练环境)中训练,从而在真实世界避开这个障碍物,但这对于通讯的实时性和算力有很高的要求,不过确实可以利用机器人和真实环境交互后所得的信息提升自己。但是同样的,这不是真正的具身智能,因为我们当前的交互主要还是依赖于视觉信息,这中对世界的认知显然是不足够的,所以我们需要更多的大模型,视觉大模型,味觉大模型,嗅觉大模型等这样机器人才具备了和真实世界全方位交互的基础能力。而数字孪生也是具身智能的关键技术

1.2.3 强化学习(决策大模型)

      对于人类而言,小学时候老师教我们1+1=2,每次我们写错时,就给我们打个×,每次看到这个×我们就知道这样做是不对的,久而久之我们就知道1+1=2才是标准答案。这是人类在和现实世界交互后一个思考的过程,那对于机器人而言改如何思考呢?

      前面我们已经论述了具身智能所需要的感知能力,但有了这些感知能力,如何通过和现实的交互不断思考提升自己呢,这里我们引入强化学习概念,举个例子,我们询问Chatgpt一家小公司的发展历史,假设这个公司是2019年成立的,但网上存在错误信息,它不能有效识别,它可能会告诉你这个公司是2015年成立的,此时你回复它,你是不对的,这家公司实际上是2019年成立的,然后当你再次询问它这家公司什么时间成立时,它会告诉你是2019年成立的,此时,我们神奇的发现Chapt有了纠错能力。但过了很久当你再去问它时,它却又告诉你这家公司是2015年成立的,原因在于,它有一个奖励机制,假设你说这个公司成立于2019年,Chatgpt给这个答案加5分,但同时有十个人说成立于2015年,那么2015这个答案就有50分,显然Chatgpt会相信50分的答案,这和三人成虎异曲同工,所以此时我们需要找100个人回答说是2019,就可以保证答案更正为改公司成立于2019年,而在这个过程中,我们又神奇的发现,Chagpt似乎有了思考能力,它权衡了很多人的答案,最终给与出了自己的答案,这就是强化学习在语言模型中的应用Chatgpt先以深度学习基础,构建出一个笼统的答案库,再利用强化学习,不断的和人类交流,进而持续更正它的答案库中的答案。

      同样机器人执行机构运动和真实环境所得到的交互信息,也需要强化学习来思考决策过程,比方说,依然让一个机器人抓一个苹果,这个抓取过程的路线有无数可能,抓取的动作同样有无数可能,但是机器人该如何选择最好的路线和动作呢,我们引入强化学习,每一步都给一个奖励,最后我们用奖励最高的动作集合,作为决策,也就意味着,机器人通过和真实世界的交互,学到了最好的抓取苹果的动作集合。

2.结论

      从上面的论述中我们发现,感知大模型(语言大模型、视觉大模型、嗅觉大模型、味觉大模型)(深度学习),让智能体具有理解真实世界的能力,在这个能力的基础上,决策大模型(强化学习)赋予了智能体思考的能力,而数字孪生让智能体可以在虚拟环境中快速且无损的找到诸多思考下最优的解决方案,最后多模态大融合实现万态归一。

      而数字孪生的这个特点会是通用人工智能超过人类的一个关键,对于人类而言,遇到一个问题,需要花费大量的时间,多次试错,才能找到最优方案,但对于通用人工智能,它可以在虚拟环境中快速的找到最优答案,再应用于真实世界。这其中的差别,比方说,两个人在悬崖下找到了一本修仙秘籍,A苦练万年,多次历经生死大劫,九死一生之后终于得到成仙,而B找到了一个仙境,在个仙境中1亿年相当于外界一天,而且里面的人死后会瞬间复活,所以B在仙境中为了找到可以成为最强仙人的方案,疯狂作死,尝试了无数次之后,终于找到了答案,他在仙境花了365亿年,但在外界仅过了一年。

语言大模型(Chatgpt)(深度学习)和决策大模型(强化学习)的区别

      简单理解,语言大模型解决机器人能听懂什么,这赋予了智能体理解能力,决策大模型(强化学习)赋予机器人思考和决策能力,即如何最优解决一个问题的能力。Chatgpt只是利用深度学习技术,从庞大的数据库中找到一个答案,在这个过程并没有严格意义上的思考,而强化学习是面对一个问题从无到有,思考所有可能的答案,最终找到最优解决方案,显然这才符合人类的思维模式。而某种层面上思考能力是区别人和动物的根本因素

    写在最后:具身智能是通往通用人工智能的大门,而强化学习是通往具身智能的大门。

往期文章

1.具身智能(Embodied AI)_笑傲江湖2023的博客-CSDN博客

参考文献

1.大脑和小脑——规划和执行_规划决策大脑 运动控制小脑-CSDN博客

2.【AGI 通用人工智能】什么是通用人工智能 | What is Artificial General Intelligence_禅与计算机程序设计艺术的博客-CSDN博客 

相关文章:

通用人工智能技术(深度学习,大模型,Chatgpt,多模态,强化学习,具身智能)

目录 前言 1.通用人工智能 1.1 生物学分析 1.2具身智能 1.2.1当前的人工智能的局限 1.2.2 具身智能实现的基础 1.2.3 强化学习(决策大模型) 2.结论 往期文章 参考文献 前言 目前的人工智能实质上只是强人工智能,或者说单个领域的通…...

makefile的特性-部分语法记录

1.变量定义 1.1 来实现a1 $(a2)a2 lib.o1.2 : 来实现, 这种不能通过后面的变量来定义a1 : $(a2) b.0a2 : lib.o1.3 来实现a1 b.0a2 a11.4 ? 来实现,这种方式前面如果定义了,后面定义则无效a1 : a.oa1 ? lib.o //结果 a1 a.o 2.文件查找 2.1 VPATH 目录…...

【Java 进阶篇】JavaScript 正则表达式(RegExp)详解

JavaScript 正则表达式,通常简写为 RegExp,是一种强大的文本匹配工具,它允许你通过一种灵活的语法来查找和替换字符串中的文本。正则表达式在编程中用途广泛,不仅限于 JavaScript,在许多编程语言中也都有类似的实现。 …...

51单片机之串口通信例程

51单片机之串口通信例程 简介原理例程 简介 串行通信是指使用一条数据线,将数据一位一位地依次传输,每一位数据占据一个固定的时间长度。在串行通信中,数据可以以字符为单位进行传输,也可以以帧为单位进行传输。 在51单片机中&a…...

Hadoop高可用集群(HA)一键启动脚本

高可用集群启动时,需要分别在每个节点上都执行zkServer.sh start启动zookeeper,这个过程比较麻烦,并且当我们节点增多时,这个过程无疑不增加了我们的工作量,因此我们可以写一个一键启动所有节点zookeeper的脚本 脚本实…...

C#开发的OpenRA游戏之金钱系统(1)

C#开发的OpenRA游戏之金钱系统(1) 设计一个游戏,肯定要有一个唯一的资源,用这个资源来管理整个游戏的进度,以及相互争夺的焦点。在OpenRA里,就是使用矿产资源。所以在地图上分布几个矿场,玩家就需要相互争夺矿场,谁开采多谁就更有钱,谁有钱了就可以升级更好的科技,以…...

Puppeteer监听网络请求、爬取网页图片(二)

Puppeteer监听网络请求、爬取网页图片(二) Puppeteer监听网络请求、爬取网页图片(二)一、爬取需求二、实现讲解三、效果查看 一、爬取需求 首先打开浏览器,打开指定网站监听网站发出的所有请求,记录请求&a…...

GoLang连接mysql数据库

跟着文档走GORM 指南 | GORM - The fantastic ORM library for Golang, aims to be developer friendly. 1.使用命令拉取 go get -u gorm.io/gorm go get -u gorm.io/driver/sqlite2.开始使用 package mainimport ("fmt""github.com/gin-gonic/gin"&…...

软件工程与计算总结(八)软件设计基础

一.设计思想的发展 1958:软件这个名词第一次在公开刊物上使用~60年代中后期and70年代前中期:结构化编程、逐步求精、自顶向下理念是程序设计主要方法70年代中后期and90年代:结构化设计方法、抽象数据类型、信息隐藏、封装、继承、多态等思想…...

someip 入门

什么是someip? SomeIP(Scalable Service-Oriented MiddlewarE over IP)是一种基于以太网的通信协议,用于汽车领域的通信。它允许不同的汽车电子控制单元(ECUs)之间通过网络进行通信,以便在车辆内…...

C# 使用Parallel去执行并行下载

直接上代码&#xff1a; //最大线程下载数量ParallelOptions options new ParallelOptions{MaxDegreeOfParallelism 5};public async Task DownloadMusicUrl(List<MusicTags> musicTags){DateTime currentTime DateTime.Now;DateTime startTime new DateTime(1970, 1…...

@Component 和 @Bean的区别

Component 和 Bean 是Spring框架中用于管理和配置依赖注入的关键注解&#xff0c;用于定义和管理Spring应用程序中的组件。 Component: Component 是一种泛用型的Spring注解&#xff0c;用于标识一个类为Spring组件。Spring会自动扫描所有带有Component 注解的类&#xff0c;并…...

百度测试开发工程师面试心得

百度测试开发实习生面试心得&#xff1a; 电话面试&#xff1a; 面试官&#xff1a;首先做一下自我介绍吧 我&#xff1a;我是***&#xff0c;来自什么大学&#xff0c;现在大三&#xff0c;在学校期间担任过部长&#xff0c;副主席等职务&#xff0c; 组织举办了很多比赛&…...

发现更多美景!XnViewMP for Mac/Windows 图片浏览软件

想要轻松快捷地浏览、管理和编辑您的照片吗&#xff1f;XnViewMP for Mac 是您的最佳选择&#xff01;这款强大而多功能的图片浏览软件将给您带来全新的视觉体验。 借助 XnViewMP&#xff0c;您可以方便地浏览各种图片格式&#xff0c;包括JPEG、PNG、GIF等&#xff0c;并支持…...

城市广告牌安全传感器特点有哪些?

城市广告牌安全传感器特点有哪些&#xff1f; 在现代快节奏的都市生活中&#xff0c;城市的广告牌成为不可或缺的一部分&#xff0c;以各种形式和大小存在于城市的街头巷尾&#xff0c;商业中心和交通要道。广告牌是城市生命线组成的一部分。但是由于天气因素、材料老化、不当维…...

源码部署lamt架构

源码部署lamt架构 lamt由apache&#xff0c;mysql&#xff0c;tomcat三者组成 文章目录 源码部署lamt架构1.准备工作1.1.配置yum源&#xff0c;关闭防火墙和selinux1.2.拉取相应源码包 2.安装apache3.安装mariadb4.安装tomcat 1.准备工作 1.1.配置yum源&#xff0c;关闭防火墙…...

【Java 进阶篇】JavaScript Math对象详解

在JavaScript编程中&#xff0c;Math对象是一个非常有用的工具&#xff0c;用于执行各种数学运算。它提供了许多数学函数和常数&#xff0c;可以用于处理数字、执行几何运算、生成随机数等。在本篇博客中&#xff0c;我们将深入探讨JavaScript中Math对象的各种功能和用法。 什…...

geecg-uniapp 路由修改 页面创建 (2)

一&#xff0c;增加页面 添加路由 &#xff08;1&#xff09;我们以home的常用服务 当作示例 我们修改 usList 数据 &#xff08;2&#xff09;查找对应路径 work.js 目前荒石对应的路径跳转 helloword 我们修改成 huang &#xff08;3&#xff09;修改跳转路径 修…...

微信开发者工具下载

一、微信开发者工具下载官网 微信开发者工具下载地址与更新日志 | 微信开放文档 (qq.com) 二、微信开发者工具界面 下载安装好后&#xff0c;软件图标如下图所示。 运行软件如下图所示&#xff0c;这时候就需要使用你的管理员账号扫码登录。 登陆后的界面&#xff0c;如下图…...

ctfshow萌新计划web9-14(正则匹配绕过)

目录 web9 web10 web11 web12 web13 web14 web9 审一下代码&#xff0c;需要匹配到system|exec|highlight才会执行eval函数 先看一下当前目录下有什么 payload&#xff1a;?csystem(ls); index.php是首页&#xff0c;我们看看config.php payload&#xff1a;?csystem…...

Unity3D中Gfx.WaitForPresent优化方案

前言 在Unity中&#xff0c;Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染&#xff08;即CPU被阻塞&#xff09;&#xff0c;这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案&#xff1a; 对惹&#xff0c;这里有一个游戏开发交流小组&…...

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会&#xff0c;其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具&#xff0c;对过去十年 WWDC 主题演讲内容进行了系统化分析&#xff0c;形成了这份…...

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现&#xff0c;展示如何创建和管理多个 OkHttpClient 实例&#xff0c;分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

Python爬虫(一):爬虫伪装

一、网站防爬机制概述 在当今互联网环境中&#xff0c;具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类&#xff1a; 身份验证机制&#xff1a;直接将未经授权的爬虫阻挡在外反爬技术体系&#xff1a;通过各种技术手段增加爬虫获取数据的难度…...

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况&#xff0c;可以通过以下几种方式模拟或触发&#xff1a; 1. 增加CPU负载 运行大量计算密集型任务&#xff0c;例如&#xff1a; 使用多线程循环执行复杂计算&#xff08;如数学运算、加密解密等&#xff09;。运行图…...

零基础设计模式——行为型模式 - 责任链模式

第四部分&#xff1a;行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习&#xff01;行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想&#xff1a;使多个对象都有机会处…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中&#xff0c;部分节点存储的数据量或访问量远高于其他节点&#xff0c;导致这些节点负载过高&#xff0c;影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...

零基础在实践中学习网络安全-皮卡丘靶场(第九期-Unsafe Fileupload模块)(yakit方式)

本期内容并不是很难&#xff0c;相信大家会学的很愉快&#xff0c;当然对于有后端基础的朋友来说&#xff0c;本期内容更加容易了解&#xff0c;当然没有基础的也别担心&#xff0c;本期内容会详细解释有关内容 本期用到的软件&#xff1a;yakit&#xff08;因为经过之前好多期…...