当前位置: 首页 > news >正文

【AI学习】OpenAI推出o3,向AGI迈出关键一步

2024年12月21日,OpenAI在其为期12天发布会活动的最后一天,正式发布了备受期待的o3系列模型,包括o3和o3-mini。

o3 是一个非常强大的模型,在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型(o1得分25%,o3得分87.5%)。

o3-mini 是 o3 更经济高效且性能导向的版本,在成本和延迟方面比 o1-mini 低得多,同时提供类似的功能。

由于与英国电信公司 O2 可能存在的版权/商标冲突,所以将其命名为o3。

具体内容参见文章《当你以为AI发展放缓时,OpenAI推出o3,向AGI迈出关键一步》
https://mp.weixin.qq.com/s/Kn-yDWA3n2VsW7ApBGEssA

转微博的一些评论,作为备忘

问题:成本太高

来自@karminski-牙医:
有人整理了GPT o1 - o3 各个型号的每个任务的开销,发现它与实现AGI的程度的曲线更像一个开口向右的抛物线,这是否意味着当前的技术路线很难实现AGI(最后20%可能要付出特别巨大的成本),或实现了AGI也不具备商业价值。
在这里插入图片描述

OpenAI o3对“合成程序”的意义,相当于AlexNet之于“深度学习”

来自微博@高飞

OpenAI o3对“合成程序”的意义,相当于AlexNet之于“深度学习”?

OpenAI在发布会的尾声,终于放了一个大卫星,发布了o3的期货。

由于o3作为推理模型的特殊性,目前场景面向数学、编码,所以一般的基准测试已经不奏效了,所以这次OpenAI和ARC 竞赛合作,用ARC-Prize作为衡量模型性能的主要指标。

评测结果是:

在低计算模式下(每项任务花费 20 美元),o3得到 75.7%的分数,在高计算模式下(每项任务数千美元)得到 87.5%的分数。

大家可能对ARC-Prize不太了解,我这里简单介绍一下。

ARC的核心理论是肖雷测试:“当常人容易而人工智能难的任务差距归零时,就达到了通用人工智能”。

这句话其实很好理解,模型可以干很多人类干不了的事儿,但也有很多人类凭直觉就能干的事儿,模型却做不到。一个简单的例子,就是那个著名的“Strawberry这个单词里有多少个R”的问题。

由于ARC是针对大语言模型的弱点进行设计的,所以之前所有模型在测试中都表现不佳。

拿OpenAI的GPT系列来说,GPT-3得分为0,GPT-4接近0,GPT-4o好了一点,也只有5%。即使将这些模型扩展到极限,其分数也无法接近早期暴力枚举方法能达到的50%。

此前,ARC 给出了总奖金超过 100 万美元的奖励,包括首个团队达到 85% 基准的 60 万美元大奖,和促进进展的创新论文等其他奖项。

显然,ARC团队对题目难度还是有信心的。

但是,这个天花板现在被o3捅破了。(图一:大家可以看一下o3和之前模型的表现比较)
在这里插入图片描述

o3在低计算能力限制下,在半私有评估集上取得了 75.7%的成绩,在高算力(172 倍)的 o3 配置下,一举获得 87.5%的分数。(图二)
在这里插入图片描述

当然,在o1阶段,已经表现出了这个态势,当时突破了50%门槛。

ARC竞赛的联合发起人Mike Knoop也表现的很震惊,在X上写了一个短文,认为o3意义重大。

其中有句话分量比较重,说:

“我相信 o3 对“程序合成”而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据,证明基于深度学习的程序搜索是可行的”。

所谓“程序合成”,就是人类只需描述所需的功能和约束,计算机就可以根据这些描述生成相应程序。用人话说,可以理解为“编码”的自动驾驶。

那么,为什么当年的o1,现在的o3能取得这个成就?

如果传统LLM(如GPT-4o)的工作方式是作为"向量程序库"。

当收到提示时,它们会提取与提示相匹配的程序并在输入上"执行"。这种方法可以通过被动接触人类生成的内容来存储和操作数百万个有用的小程序。

然而,这种"记忆、提取、应用"的范式虽然可以在有合适训练数据的情况下实现任意任务的技能,但它无法适应新颖性或即时掌握新技能。

因为,要适应新鲜事物,需要两件事。

首先,需要知识。一组可重复使用的函数或程序,这方面大模型不缺,其次,需要能够在面临新任务时将这些函数重新组合成一个全新的程序,一个能够模拟手头任务的程序,即程序合成

此前的模型缺乏这种功能。而o 系列模型解决了这个问题。

o3的主要突破在于它采用了一种全新的"自然语言程序搜索和执行"机制。

在测试时,模型会搜索可能的思维链(Chain of Thought)来描述解决任务的步骤,这个搜索过程类似于AlphaZero式的蒙特卡洛树搜索,并由评估器模型引导。

这种机制让o3能够在测试时动态地重组知识,生成和执行自己的程序,其中思维链本身成为知识重组的产物。这远比简单的预训练响应要强大。

既然说o3有“合成程序”的能力,也有一项基准可以直接证明OpenAI o3的编码能力,它的Codeforces 分数为 2727,相当于地球上第 175 位最优秀的人类编程竞赛选手。(图三)
在这里插入图片描述

当然,我们都知道,人类开发者的工作不止局限于编码自身。

而且,目前为止o3是期货,在生产环境会表现如何,还要到时的实际情况,以及竞争对手的表现比较。

关于ARC对o3的更多评价,见:arcprize.org/blog/oai-o3-pub-breakthrough

下为Mike Knoop的推文原文(出处:x.com/mikeknoop):


o3 的确非常特别,大家都需要重新审视自己对 AI 能力与局限的直觉。

虽然目前还是早期阶段,但这个系统展现出了在 ARC-AGI 的“金丝雀”测试下真实的智能提升。

semiprivate v1 的测试得分:

GPT-2(2019 年):0%
GPT-3(2020 年):0%
GPT-4(2023 年):2%
GPT-4o(2024 年):5%
o1-preview(2024 年):21%
o1 high(2024 年):32%
o1 Pro(2024 年):约 50%
o3 tuned low(2024 年):76%
o3 tuned high(2024 年):87%
当初是我投入了最初的一百万美元创建了 @arcprize,我想再次重申我的承诺:我们会持续举办这个大奖赛,直到有人开源一个高效且能达到 85% 水平的解决方案。

但我们的目标远不止于此!ARC Prize 在今年找到了它的使命——成为通往 AGI 的长久北极星。

ARC 基准的设计原则是“对人类简单,但对 AI 困难”,只要在人类易解、AI 难解的范畴内仍存在挑战,就说明 AGI 依然还有进步空间。

目前在 v1 系列中,还有超过 100 个任务即使在 o3 的高算力配置下依然没有被解决,这非常值得关注。

o3 的后继者们将不得不面对“效率”这一难题。我预计这会成为 AI 领域的重点关注方向。参考数据:o3 high 使用的算力是 o3 low 的 172 倍,而 o3 low 的算力又是大奖赛目标算力的 100 到 1000 倍。

今年夏天,我们也正式开始推进 v2 的工作(v2 依旧在与 v1 相同的网格环境中),并计划与 2025 年的 ARC Prize 一同发布。前期测试表明,即便在 o3 high 的算力下,v2 也会有很好的表现。但 v2 的目标并不是做“对抗性基准”,而是要在通往 AGI 的道路上具有足够的意义和信息量。

我们也希望能有一些足以经受多年考验的 AGI 基准,我并不认为 v2 能担此大任。所以我们已经开始把注意力转向 v3——这将会与前两代非常不同。我也很期待与 OpenAI 以及其他研究机构合作,共同设计出 v3。

由于快到年末,我也想做一些反思。

任何花时间研究 ARC 数据集的人都会告诉你,它有某些特别之处;而一个能够完全破解它的系统就更是了不起。o 系列所展现出的能力,某种程度上让我们得以一窥这样的系统。

当我说“现在还只是早期阶段”时,我是认真的。我相信 o3 对程序合成而言就像当年 AlexNet 对深度学习的影响一样——我们现在已经有了确凿证据,证明基于深度学习的程序搜索是可行的。

现在我们又站在另一座大山的山脚,从我的角度看,它与深度学习在 AGI 里扮演的重要地位同样高,也同样关键。

这一年里有很多事情让我感到惊讶,包括 o3 的问世。但最令我吃惊的,是越来越多的人开始关注 ARC Prize。

我这些年一直在向 AI 研究人员做 ARC 的调查。在 ARC Prize 今年六月启动之前,只有大约十分之一的人听说过它。

而现在,它无可争议地成为了尖端实验室使用的尖端基准,以展示在 AGI 最尖端方向上的进展——这一人类史上最为重要的技术。

在这里,也要对fchollet表示感谢,他设计了这样一个出色的基准。

我会持续怀着感恩之心,去引领更多的关注投向 AGI 和 ARC Prize,我们 2025 年再见!

大佬对O3发布发表的看法

来自@歸藏的AI工具箱

可能过去几年我们会像记住ChatGPT发布的时间一样,记住昨天晚上的时间。

整理了一些大佬对O3发布发表的看法:

1/ 在我看来,在FrontierMath上的进步比ARG-AGI更令人印象深刻。从2%跃升到25%

陶哲轩曾说这个数据集应该"至少能抵抗人工智能几年",并表示"这些问题极其具有挑战性。

2/ 在技​​术可以创造一切的现实中,那些知道什么不该创造、能够优雅地对某些可能性说“不”的人将脱颖而出。

3/ o3真的很特别,每个人都需要更新他们对人工智能能力边界的认知。

虽然现在还处于早期阶段,但这个系统展现了真正的智能提升,这一点通过ARC-AGI得到了验证。

4/ 我相信o3是程序合成领域的AlexNet时刻。我们现在有了具体证据表明深度学习引导的程序搜索是有效的。

从我的角度来看,我们正在仰望另一座同样高且对AGI同样重要的山峰。

5/ 这个模型在前沿数学基准测试中得分25%。这些数学问题难到几乎没有人能理解,更不用说解决它们。我做不到,你也做不到。

这就是经济奇点,所有旧有的社会和经济模式都将崩塌。前方是一个巨大的未知世界,没有人能真正理解即将发生什么。

6/ 更重要的是,从o1到o3的进展仅用了三个月,这表明在新范式下进展会有多快 —— 这种新范式是在思维链上使用强化学习来扩展推理计算能力。这比每1-2年训练一个新模型的传统预训练范式要快得多

o3的主要亮点

来自@宝玉xp

OpenAI 连续 12 天 AI 发布会:第十二天 —— 最新一代推理模型 o3 和 o3-mini 发布介绍

本视频是 OpenAI 12 天活动的最后一期,主要介绍了新一代推理模型 o3 和 o3-mini。主讲人包括 Sam Altman、Mark Chen、Hongyu Ren 以及特邀嘉宾 ARC Prize Foundation 主席 Greg Kamradt。

主要亮点

  1. 新模型发布
  • 发布两个新模型:o3 和 o3-mini
  • o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本
  • 目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3
  1. o3 模型性能突破
  • 在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%
  • 在 CodeForce 竞赛编程上达到 2727 ELO 分数
  • AIME 数学竞赛准确率达 96.7%(o1 为 83.3%)
  • 在博士级科学问题基准 GPQA Diamond 上达到 87.7%
  • 在 ARC-AGI 测试上首次突破人类水平阈值(85%),达到 87.5%
  1. o3-mini 特点与优势
  • 支持三种推理努力级别:低、中、高
  • 性能方面:中等推理时间下性能超过 o1
  • 成本效益:以极小成本实现比 o1 更好的表现
  • 支持功能调用、结构化输出等开发者功能
  • 在 GPQA Diamond 上达到 62% 的分数
  1. 安全策略创新
  • 推出"审慎对齐"(Prudent Alignment)新技术
  • 利用模型推理能力提升安全边界判断
  • 显著改善了拒绝基准和过度拒绝指标
  • 开放外部安全测试申请(截止至 1 月 10 日)

重要时间节点

  • 安全测试申请截止:2025 年 1 月 10 日
  • o3-mini 预计发布:2025 年 1 月底
  • o3 完整版:将在 o3-mini 之后推出

相关文章:

【AI学习】OpenAI推出o3,向AGI迈出关键一步

2024年12月21日,OpenAI在其为期12天发布会活动的最后一天,正式发布了备受期待的o3系列模型,包括o3和o3-mini。 o3 是一个非常强大的模型,在编码、数学以及 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型&#xff08…...

深度学习0-前置知识

一、背景 AI最大,它的目的是通过让机器模仿人类进而超越人类; ML次之,它是AI的一个分支,是让机器模仿人类的一种方法。开发人员用大量数据和算法“训练”机器,让机器自行学会如何执行任务,它的成功取决于…...

Elasticsearch-分词器详解

什么是分词器 1、分词器介绍 对文本进行分析处理的一种手段,基本处理逻辑为按照预先制定的分词规则,把原始文档分割成若干更小粒度的词项,粒度大小取决于分词器规则。 常用的中文分词器有ik按照切词的粒度粗细又分为:ik_max_word和ik_smart&…...

Android-相对布局RelativeLayout

相对布局在摆放子视图位置时,按照指定的参考系来摆放子视图的位置,默认以屏幕左上角(0,0)位置作为参考系摆放位置 了解一下接下来都会以代码的方式可视化出来 属性 可选值 说明 layout_alignParentTop true/false 是否让控件相对于父容器顶部对齐 …...

Centos7, 使用yum工具,出现 Could not resolve host: mirrorlist.centos.org

在 CentOS 7 中使用 yum 工具时,如果出现 "Could not resolve host: mirrorlist.centos.org" 的错误,通常是因为默认的镜像源无法访问。以下是一些常用的解决方法: 检查网络连接:首先使用 ping 命令测试网络连接是否正常…...

在Linux中使用`scp`进行远程目录文件复制

在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令。它允许在远程主机之间复制文件和目录,具有很强的安全性,是一种常用的文件传输工具。以下是如何使用…...

VisionPro 机器视觉案例 之 连接件测量

第十八篇 机器视觉案例 之 连接件测量 文章目录 第十八篇 机器视觉案例 之 连接件测量1.案例要求2.实现思路2.1 测量圆心到直线的距离2.2 测量圆心到直线起点的连线和直线的夹角 3.使用控件3.1 模板匹配工具 —— CogPMAlignTool3.2 定位工具 —— CogFixtureTool3.3 卡尺工具 …...

C++ 中面向对象编程中对象的状态存储与恢复的处理

1.对象存储 1)栈存储: 对于局部对象,它们存储在栈上。当进入包含对象定义的代码块时,对象被创建并压入栈中。 例如: class fun { public: int a; }; void func() { fun A; // 对象存储在栈上,随着函数结束自动销毁…...

ip_output函数

ip_output函数是Linux内核(特别是网络子系统)中用于发送IPv4数据包的核心函数。以下是一个示例实现,并附上详细的中文讲解: int ip_output(struct net *net, struct sock *sk, struct sk_buff *skb) {struct iphdr *iph; /* 构建IP头部 */iph = ip_hdr(skb);/* 设置服务…...

【win10+RAGFlow+Ollama】搭建本地大模型助手(教程+源码)

一、RAGFlow简介 RAGFlow是一个基于对文档深入理解的开源RAG(Retrieval-augmented Generation,检索增强生成)引擎。 主要作用: 让用户创建自有知识库,根据设定的参数对知识库中的文件进行切块处理,用户向大…...

现代风格VUE3易支付用户控制中心

适用系统 彩虹易支付 技术栈 vitevue3elementuiplusphp 亮点 独立前端代码,扩展开发,不改动系统文件,不影响原版升级 支持功能订制 界面预览...

CentOS 7 上自动安装 Python 3.9 脚本

安装 在 CentOS 7 上安装 Python 3.9 可以通过编写一个 Shell 脚本来自动化这一过程。以下是一个示例脚本,它将帮助你在 CentOS 7 上安装 Python 3.9: #!/bin/bash# 脚本设置失败终止 set -e# 更新系统 # sudo yum update -y# 安装依赖 sudo yum insta…...

Spring(二)---基于注解的方式实现Bean管理和注入属性

目录 引入 什么是注解 Spring针对Bean管理中创建对象提供的注解 用注解的方式创建对象 ①:编写接口和实现类 ②:在需要管理的类上添加Component注解(上边四个都可以) ③:编写配置文件,重点是开启注解…...

采购管理系统的设计与实现【文档+源码】

目录 摘 要 Abstract 第一章 引言 1.1研究现状 1.2主要研究的目的及内容 1.3研究方法及设计思路 1.3.1 研究方法 1.3.2 设计思路 1.4.相关技术简介 1.4.1 JSP技术简介 1.4.2 Struts 框架 1.4.3 Hibernate数据访问框架 1.4.4 B/S模式分析 1.5 系统开发步骤 第二…...

Overleaf编译运行时间太长,国内如何支付升级Overleaf高级账户?

大家好,我是『扑扑特桔』 最近为了赶论文,我一直在 Overleaf 上忙活。 但是因为论文里面图片比较多,因此在某一次编译的时候,突然就提示编译超时。 主要是因为用的是免费版本的Overleaf,对编译时长有限制&#xff0c…...

UE5喷涂功能

许多FPS/TPS 游戏都有喷涂、涂鸦功能 其实原理很简单,就是利用了延迟贴花实现的 我们从网上随便找一张图 创建一个材质,材质域选择延迟贴花 混合模式选择半透明,自发光强度可以看感觉调整 材质做好之后编译保存,新建一个Actor…...

Unity局部和世界坐标系相互转换的实现原理

注:本篇是基于唐老师的学习视频做的一些理论实践,需要提前知道一些线性代数的基础知识,原视频链接: 8.数学基础知识学习说明_哔哩哔哩_bilibili 前期准备: 知识点①: Unity中需要遵守的设定:…...

MySQL通用语法 -DDL、DML、DQL、DCL

SQL 全称 Structured Query Language,结构化查询语言。操作关系型数据库的编程语言,定义了 一套操作关系型数据库统一标准 。 SQL通用语法 MySQL语言的通用语法。 SQL语句可以单行或多行书写,以分号结尾。SQL语句可以使用空格/缩进来增强…...

C# 6.0 连接elasticsearch数据库

在 C# 6.0 中连接 Elasticsearch 数据库,您可以使用官方的 Elasticsearch 客户端库 NEST。NEST 是一个高性能的 .NET 客户端,用于与 Elasticsearch 进行交互。以下是一个详细的步骤指南,帮助您在 C# 6.0 项目中连接和操作 Elasticsearch。 1. 安装 NEST 包 首先,您需要在您…...

占个坑:利用工作以外的时间,用numpy实现MLP-手写识别

背景 随着近半年的正式工作,一直在做的都是模型后处理相关的,逐渐意识到技术的自我迭代陷入了瓶颈。组里都是搞模型的,对于缺少模型背景的我,很难深刻理解同事将模型和业务结合时好的idear,这使得我难以掌握组里最核心…...

抽象之诗:C++模板的灵魂与边界

引言 在计算机科学的浩瀚长河中,C模板如同一颗璀璨的星辰,以其独特的泛型编程方式为程序设计注入了灵魂。它是抽象的艺术,是类型的舞蹈,是效率与灵活性的交响乐。模板不仅是一种技术工具,更是一种哲学思考&#xff0c…...

后端统一接口返回状态【初步模板】

后端统一接口返回状态【模板】 文章目录 后端统一接口返回状态【模板】1 .Result类编写2 .Constants类编写3 .更改Controller层下的类return格式 开发过程中,每个接口的返回格式设计都是一样的,这样可以大大提高开发效率。 项目结构如下图:分…...

呼入机器人:24小时客户服务的未来趋势

呼入机器人:24小时客户服务的未来趋势 作者:开源大模型智能呼叫中心系统FreeAICC,Github:https://github.com/FreeIPCC/FreeAICC 在当今快节奏的商业环境中,客户服务已成为企业竞争的核心要素之一。随着人工智能技术…...

whisper.cpp: PC端测试 -- 电脑端部署音频大模型

whisper.cpp: PC端测试 1.环境需要2.构建项目3.PC测试 1.环境需要 以下是经实验验证可行的环境参考,也可尝试其他版本。 (1)PC:Ubuntu 22.04.4 (2)软件环境:如下表所示 工具版本安装Anacond…...

WPF ControlTemplate 控件模板

区别于 DataTemplate 数据模板,ControlTemplate 是控件模板,是为自定义控件的 Template 属性服务的,Template 属性类型就是 ControlTemplate。 演示, 自定义一个控件 MyControl,包含一个字符串类型的依赖属性。 pub…...

序列化和反序列化(一)

因为通过这段时间的学习,发现,序列化和反序列化的考点和漏洞在平时遇到的还是比较多的,而且自己也没有特别去学习过这个知识点,所以在这里写一篇关于这里序列化和反序列话的博客,废话就停止在这里了。 在介绍具体的序列…...

Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版)

Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版) 文章目录 Kubeadm+Containerd部署k8s(v1.28.2)集群(非高可用版)一.环境准备1.服务器准备2.环境配置3.设置主机名4.修改国内镜像源地址5.配置时间同步6.配置内核转发及网桥过滤二.容器运行时Containerd安装(所有节点)…...

取子串(指针)

#include <stdio.h> #include <string.h>char* substr(char *s, int startloc, int len) {static char result[51]; // 定义一个足够大的静态数组来存储结果static char result1[] {N,U,L,L,\0};int i, j;// 检查startloc是否在字符串的范围内if (startloc < 1…...

Linux系列之如何更换Centos yum源?

系列博客专栏&#xff1a; JVM系列博客专栏SpringBoot系列博客 环境 Centos7Xshell7 问题描述 最近安装了一个虚拟机&#xff0c;准备用来学习&#xff0c;不过使用yum命令安装一些软件&#xff0c;不过使用这个命令时候&#xff0c;提示 Cannot find a valid baseurl fo…...

过滤器和拦截器的区别详解

文章目录 过滤器和拦截器的区别详解1. 来源不同2. 触发时机不同3. 实现原理不同4. 支持的项目类型不同5. 使用场景不同6. 核心区别总结**总结** 过滤器和拦截器的区别详解 在 Web 开发中&#xff0c;过滤器&#xff08;Filter&#xff09; 和 拦截器&#xff08;Interceptor&a…...