当前位置: 首页 > news >正文

GPT-4零失误通关大厂模拟面试,offer拿到手软?与AGI首次接触

来源: FoxyearMeta

“GPT-4可被视作AGI (通用人工智能)的早期版本。”

如若从他人口中说出,或许是无稽之谈——

但是由微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck与2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得主李远志、2020斯隆研究奖得主Yin Tat Lee等科学家共同撰写的论文结论,却引起了全行业的关注。这些科学家在论文中对GPT-4的分析和评价,为行业带来了新的见解。

《通用人工智能的火花:GPT-4早期实验》是一篇长达154页的研究论文,广受关注。据Paper with Code的统计,这篇论文是近30天内关注度最高的AI论文之一,没有之二。

这篇论文被大量的科学家和专家转发,引发了广泛的关注。这样的盛况在学术界非常罕见,说明这篇论文提出的内容非常值得关注。

有人从LaTex源码中泄露出了一个有关这篇论文的秘密:原定标题是《与AGI的第一次接触》,并在注释中写着“编辑中,请勿外传”。这说明,论文的标题原本是有所更改的。

这项研究发现,GPT-4不仅精通语言,还能在数学、编程、视觉、医学、法律、心理等多领域的新任务和难题上表现出色,无需特别提示。

更令人惊讶的是,GPT-4在这些方面的表现大大超过了ChatGPT等先前的模型,并且在所有这些任务上令人惊讶地接近人类水平,可以说是接近通用人工智能(AGI)的门槛。

具体来说,GPT-4在LeetCode上以满分的成绩通过了亚马逊公司的模拟面试,超过了所有参与测试的人类,可以被聘用为软件工程师。这一成就证明了GPT-4在语言处理和编程领域的高水平表现。

Sébastien Bubeck,这篇论文的作者,近几周前的个人主页上充满了理论机器学习和理论计算机科学的内容,然而,现在所有内容都被删除了,取而代之的是一篇简短的宣言。

“全面转向AGI研究”

在职业生涯的前15年,我主要从事机器学习中的凸优化、在线算法和对抗鲁棒性研究……

现在我更关注大型语言模型中智能是如何形成,如何利用这种理解提高模型性能,并可能迈向构建AGI。

我们的研究方法称作“AGI的物理学”(Physics of AGI)。

自GPT-4发布以来,对其使用的限制越来越严格,从最初的每4小时100条消息下降到了现在的每3小时25条消息。

这使得即使是花费20美元购买Plus有试用资格的用户,也难以进行大量测试和与ChatGPT进行对比。

然而,OpenAI的投资者微软没有受到这种限制,在GPT-4发布前已经获得了对其早期版本的内部权限,进行了充分的试验。因此,这篇论文也是大家全面了解GPT-4能力的一个重要窗口。

01

语言模型不只是预测下一个词

微软团队试图通过两项任务证明GPT-4具有灵活的语言理解能力,打破了语言模型(或者鹦鹉)仅仅是对学习内容的复述的批评。

第一项任务是让GPT-4证明有无限多的素数,并且每句话都要押韵

第二项任务是用LaTeX的绘图包TiKZ绘制一个独角兽。GPT-4给出了代码,下面是渲染结果。

第一项,GPT-4的能力不仅表现在证明的完成上,它还可以作为一位老师,评价自己和ChatGPT的表现。

即使把证明的形式换成莎士比亚戏剧形式,GPT-4仍然胜任。它因韵律和节拍的出色表现,给自己打出了A分,而给ChatGPT打出了B分。

微软的研究团队已经证明,GPT-4不仅掌握了语言,还能在代码和视觉领域有相当灵活的理解能力。

在第二项中,GPT-4能够根据自然语言描述来理解和操作代码,同时也推断和生成了视觉特征。

并且随着GPT-4快速迭代的开发阶段,通过每隔一段时间再让GPT-4画一次,可以明显看到复杂性的明显增加。

尽管他们当时的测试版本仅为纯语言版本,但是结果仍然令人印象深刻。

对于GPT-4可以理解概念这个观点,OpenAI CEO早些时候也留下这样一段话:

语言模型只是被设计用来预测下一个词……动物、包括我们人类本来也只被设计成生存和繁衍,但那些复杂和美丽的东西正是来自于此。

微软团队随后进行了一系列类似的实验,试图证明GPT-4具有符合1994年国际共识智力定义的一些方面的能力。

包括:推理、计划、解决问题、抽象思考、理解复杂想法、快速学习以及从经验中学习。

一个猎人往南走了一英里,往东走了一英里,往北走了一英里,然后回到了起点。这时他看到一只熊,并将其射杀。这只熊是什么颜色?

GPT-4推断出猎人遇到的是北极熊并且是白色,而ChatGPT则表示因为信息不足无法作答。

一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一个钉子,如何稳定摆放?

GPT-4提出了将九个鸡蛋按照3x3的方式摆放在书上,这是基于物理特性的推理。相比之下,ChatGPT的想法——把鸡蛋放在钉子上,显然不符合常识。

微软团队认为,GPT-4具有对世界常识的理解能力,并且能基于这些理解做出推理。

GPT-4目前的版本尚未具有多模态输入能力,但仍然能够根据语言描述进行视觉推理

GPT-4不能直接画图,但是可以生成SVG代码来描述图形。例如,GPT-4可以使用英文字母和其他形状表示一个物体。

GPT-4的能力在处理抽象思维问题方面并不逊色,它可以直接处理高难度任务。

在给定IMDb上的电影数据的情况下,GPT-4可以选择最合适的可视化方案,并能编写出交互式的程序。

对于一个可执行文件,GPT-4甚至可以指导人类一步步做逆向工程

论文中提到,GPT-4具有丰富的能力和可能的用例,尽管仅能输出文本,但其可执行的代码却是它与外界的连接。

GPT-4还能使用Javascript代码制作图形,既可以是二维的,也可以是三维的。

GPT-4生成草图,与Stable Diffusion联用可以精确控制图像布局。

GPT-4甚至用ABC记谱法创作音乐,并按人类要求修改。

如果说编程和绘画对人工智能来说不再是什么了不起的事,那么GPT-4与ChatGPT在与人类和世界交互方面的差异更能说明问题。

比如,给出一段关于两人争吵但实际上涉及四个角色的对话,GPT-4可以准确指出Mark在表达对Judy的不满,而ChatGPT却错误地认为Mark是在为第三个人的不当行为辩护。

接下来是模拟执行实验,要求GPT-4根据自然语言指令管理用户日历。GPT-4不仅列出了需要的API工具,还在测试场景中成功使用了它们。

GPT-4可以通过指令和推理的方式,帮助人类解决室内恒温器的故障。即使将问题转移到物理世界,GPT-4仍然可以一步一步指导人们排查故障原因。

微软团队在论文中分析了GPT-4的局限性,一些固有的局限性来自于语言模型的词预测模式。GPT-4在完成需要先进行计划或事后回溯编辑才能获得完美答案的问题上,表现不够出色,比如把几句话合并成一句话。

GPT-4的简单数学运算能力有限,尤其是缺乏"工作记忆"。

该模型在0-9之间的数字均匀选取时,准确率只有58%,但随着数字范围的增加,准确率却呈现下降趋势,范围在10-19和20-39时准确率降至16%和12%,在99-199时降至0。

虽然GPT-4在一些数学运算方面仍有缺陷,但允许其写下中间步骤后,1-40范围内的准确率已经达到100%,1-200范围内的准确率也提高到了90%。

尽管如此,微软团队仍不认为GPT-4可以被视为早期的通用智能,因为对于通用智能的定义本身是模糊的。

我们声称GPT-4代表了迈向AGI的进展,但并不意味着它是完美的,或者它能够做任何人类能够做的事情,或者它有内在动机和目标。

……

我们相信,GPT-4的智能标志着计算机科学领域及其他领域真正的范式转变。

相关文章:

GPT-4零失误通关大厂模拟面试,offer拿到手软?与AGI首次接触

来源: FoxyearMeta “GPT-4可被视作AGI (通用人工智能)的早期版本。” 如若从他人口中说出,或许是无稽之谈—— 但是由微软雷蒙德研究院机器学习理论组负责人万引大神Sbastien Bubeck与2023新视野数学奖得主Ronen Eldan、2023新晋斯隆研究奖得…...

Hardhat 环境搭建及教程示例

一.安装node.js curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash nvm install 18 nvm use 18 nvm alias default 18 npm install npm --global # Upgrade npm to the latest version 二. 安装hardhat 2.1 创建hardhat安装目录 mkdir hard…...

复杂链表的复制-剑指Offer35-java

一、题目描述 请实现 copyRandomList 函数,复制一个复杂链表。在复杂链表中,每个节点除了有一个 next 指针指向下一个节点,还有一个 random 指针指向链表中的任意节点或者 null。 示例 1: 输入:head [[7,null],[13,…...

【Linux】进程理解与学习Ⅰ-进程概念

环境:centos7.6,腾讯云服务器Linux文章都放在了专栏:【Linux】欢迎支持订阅🌹相关文章推荐:【Linux】冯.诺依曼体系结构与操作系统进程概念什么是进程?进程是什么?我们打开任务管理器可以看到有…...

WebKitX ActiveX 6.0 X86 Crack

WebKitX ActiveX将 Chromium Embedded Framework (CEF3) 包装到一个进程外的 ActiveX 组件中,以便与 OLE/COM 语言一起使用。Chromium Embedded Framework 封装了 WebKit Blink HTML5 Renderer 和 Google V8 JavaScript Engine。这是一个用于商业用途的生产级稳定组…...

开源项目:数据库表结构生成文档工具

目录 一、软件介绍 二、技术框架 三、功能介绍 四、代码展示 1、获取数据库信息部分代码 2、导出Html文档代码 五、运行效果 六、项目开源地址 一、软件介绍 今天给大家分享我自己编写的数据库表结构文档生成工具,方便大家在实际开发当中,可以很方便导出…...

spring的两种拦截器HandlerIntercepter和MethodIntercepter

介绍 Spring有两种拦截器提供给我们使用,一种是HandlerIntercepter,另一种是MethodIntercepter。这两种的来源不同,实现方式也不同,具体的下面来看一下。 HandlerIntercepter 来源 来源于spring-webmvc包 HandlerIntercepter拦…...

初级算法-字符串

主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-字符串一、反转字符串二、反转字符串(二)三、替换空格四、翻转字符串里的单词五、左旋转字符串六、实现 strStr()七、重复的子字符串字符串中元素只能是字符String…...

华为OD机试题 - 寻找目标字符串(JavaScript)| 机考必刷

更多题库,搜索引擎搜 梦想橡皮擦华为OD 👑👑👑 更多华为OD题库,搜 梦想橡皮擦 华为OD 👑👑👑 更多华为机考题库,搜 梦想橡皮擦华为OD 👑👑👑 最近更新的博客 华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为…...

删除Terminating状态的namespace:cattle-system

这里以cattle-system为例!执行删除命令后namespace(也是用其他k8s object)仍然存在,首先执行 kubectl edit namespace cattle-system 查看是否存在spec.finalizers: kubernetes,如: spec: finalizers:…...

MiniOB 并发B+树实现解析

MiniOB 是 OceanBase 联合华中科技大学推出的一款用于教学的小型数据库系统,希望能够帮助数据库爱好者系统性的学习数据库原理与实战。 B 树介绍 B 树是传统数据库中常见的索引数据结构,比如MySQL、PostgreSQL都实现了B树索引。B 树是一个平衡多叉树&am…...

SpringCloud负载均衡服务调用——Ribbon

Ribbon 本专栏学习内容来自尚硅谷周阳老师的视频 有兴趣的小伙伴可以点击视频地址观看 简介 Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端负载均衡的工具。 简单的说,Ribbon是Netflix发布的开源项目,主要功能是提供客户端的软件负载均衡算…...

各种邮箱服务软件对比

1.宝塔邮局管理器 特点:简单易用,可视化操作,小白也能搞,还有备份功能,一般足够用了 缺点:稳定性真是差,隔三差五的不能收发.没有接口,不能任意修改邮箱密码,只能管理员修改 注意要点:一定要开启ssl,否则有些邮箱给你发邮件你收不到 建议:不要入坑.坏了之后没法修复,哭都没地方…...

相机单独标定的实现过程[autoware标定]、tmp文件的查看方式

安装了autoware1.13和calibration标定包,发现实现相机单独标定的过程较为坎坷,参考了一些博主的方法,发现下面的过程更加适合自己,做个笔记。 1安装标定箱(与calibration标定包的安装并不冲突) 标定工具箱…...

4.10.1、IP 多播技术的相关基本概念

多播(Multicast,也称为组播)是一种实现 “一对多” 通信的技术,与传统单播“一对一”通信相比,多播可以极大地节省网络资源。 在因特网上进行的多播,称为 IP 多播。 1、单播 & 多播 如下所示&#xf…...

PIGOSS BSM监控国产数据库Oscar

前言神通数据库(原OSCAR数据库)是天津神舟通用数据技术有限公司(简称“神舟通用公司”)拥有自主知识产权的企业级、大型通用关系型数据库管理系统。PIGOSS BSM作为网利友联科技完全自主研发的纯国产基础 IT 架构运行状态监测平台软件&#xf…...

Spring Boot中文件上传

Spring Boot中文件上传 前言 本篇主要参考Spring官方文档,整理了Spring Boot中文件上传如何实现,以及在代码中使用RestTemplate和HttpClient两种方式实现文件上传。 创建Spring Boot项目 首先创建一个Spring Boot Web项目,使用的Spring B…...

Github上传大文件(>25MB)教程

Github上传大文件(>25MB)教程Github上传大文件(>25MB)教程安装git安装Git Large File Storage实例踩坑点1:failed to push some refs to踩坑点2:main与master踩坑点3:Failed to connect t…...

面试官:mysql索引会缓存内存吗?

文章目录 InnoDB缓冲池如何设置方法一:使用 `innodb_buffer_pool_size` 变量方法二:修改my.ini配置文件InnoDB缓冲池 InnoDB存储引擎是基于磁盘存储表文件和索引的,并将数据按页的方式管理,由于访问磁盘的速度较慢,多次访问磁盘会造成数据库性能的下降,为此,InnoDB在内…...

bs4解析数据和csv文件

\b 检测所在的位置是否是单词边界(任何可以将不同的单词进行区分的符号:空白符号,标点符号,字符串开头,字符串结尾) ^ 检测是否是字符串开头 $ 检测是否是字符串结尾 csv保存数据 什么是csv文件 读操作…...

Linux中Buffer和Cache的区别

Linux中Buffer和Cache的区别 free命令中会有一项buff/cache, 通过man free可以看到这里的关于buff/cache的介绍 buff/cache包含两部分 buffers:内核缓存区用到的内存,对应/proc/meminfo中Buffers的值 cache:内核页缓存和Slab用到的内存,对应/proc/mem…...

Docker 镜像使用

目录 1、列出镜像列表 2、获取一个新的镜像 3、查找镜像 4、拖取镜像 5、删除镜像 6、创建镜像 a.更新镜像 b.构建镜像 设置镜像标签 当运行容器时,使用的镜像如果在本地中不存在,docker 就会自动从 docker 镜像仓库中下载,默认是从 …...

Java阶段一Day10

Java阶段一Day10 文章目录Java阶段一Day10抽象类和抽象方法接口案例小练习引用类型数组教师总结回顾:精华笔记:笔记:补充:抽象类和抽象方法 关键字:abstract 只有方法的定义,没有具体的实现(连…...

触摸屏与PLC之间如何快速实现无线PPI通信?

PPI协议是西门子为S7-200专门开发的通信协议,是不开放的协议,CPU自带的两个通信口(Port0,Port1)均支持该协议,S7-200的一些通信模块也支持PPI协议。编程软件Micro/WIN与CPU进行编程通信也使用PPI协议&#…...

【华为OD机试 2023最新 】 羊、狼、农夫过河(C++ 100%)

题目描述 羊、狼、农夫都在岸边,当羊的数量小于狼的数量时,狼会攻击羊,农夫则会损失羊。农夫有一艘容量固定的船,能够承载固定数量的动物。 要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。 只计算农夫去对岸的次数,回程时农夫不会运送羊和狼。 备注:农…...

Java中关于try、catch、finally中的细节分析

本文讲解的是关于Java中关于try、catch、finally中一些问题 下面看一个例子(例1),来讲解java里面中try、catch、finally的处理流程 public class TryCatchFinally {SuppressWarnings("finally")public static final String test(…...

Zookeeper原理

一、概念 Zookeeper是一个开源的、分布式的,为分布式应用提供协调服务的Apache项目。封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 二、选举机制 首先是几个概念: myid:节点的唯一标识&…...

关于FPGA如何快速生成模块的例化模板(实用)

关于FPGA如何快速生成模块的例化模板(实用) 语言 :Verilg HDL 、VHDL EDA工具:ISE、Vivado、Quartus II 关于FPGA如何快速生成模块的例化模板(实用)一、引言二、快速生成例化模块的几种方法1. IP核的例化模…...

在 Python 中将字符串转换为集合

使用 set() 类将字符串转换为集合,例如 my_set set(my_str)。 set() 类将通过拆分其字符将字符串转换为集合。 my_str one# ✅ 通过拆分字符将字符串转换为集合 my_set set(my_str) print(my_set) # 👉️ {n, o, e}# -----------------------------…...

大数据Flink进阶(十三):Flink 任务提交模式

文章目录 Flink 任务提交模式 一、会话模式(Session Mode) 二、单作业模式(Per-Job Mode) 三、应用模式(Application Mode) Flink 任务提交模式 Flink分布式计算框架可以基于多种模式部署,…...