当前位置: 首页 > news >正文

OpenAI震撼发布最强模型o1!强化学习突破LLM推理极限

OpenAI新模型无预警上新:

o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。

在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分

没错,传说中的「草莓」,终于来与大家见面了!

具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。

换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。

o1有多强呢?CEO奥特曼直给了答案:

在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。

如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌

另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。

图片

与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

图片

PS:虽然OpenAI已正式封锁了中国地区API,但微软Azure OpenAI服务仍可以合规、稳定地提供企业用户使用ChatGPT的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。

参考链接:

Azure OpenAI试用申请

汇总官方发布的各种消息来看,这次突然发布的o1系列又分为三个型号:

o1,新的大模型天花板,过于强大目前不方便对外公开。

o1-preiview,o1的早期版本,可以立即提供给ChatGPT付费用户和API用户

o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。

连长期休假中的总裁Brockman都“诈尸”回归了。

图片

思维链提示方法的原作者Jason Wei表示,这一次不是纯粹通过提示来完成思维链,而是使用强化学习训练模型以更好地执行链式思考。

在深度学习的历史中,人们一直试图扩展训练阶段的计算,但思维链是自适应计算的一种形式,现在也可以在推理时扩展。

新模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。

游戏已被完全重新定义。

图片

o1:AI能力新天花板

通过训练,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

不过作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。

但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。

鉴于此,他们决定将计数器重置,并将该系列模型命名为OpenAI o1

随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高,新的Scaling Law诞生了

不过这种方法的Scaling受到的限制与普通预训练有很大不同,OpenAI正在继续研究它们。

图片

o1思考起来是什么样子?可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果

而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求明确最终目标

图片

接下来它会给自己定义任务分析限制条件列出需要用到的方法

图片

进一步把任务拆解成明确的数个小步骤。

图片

最后才动手编写代码,并保证一次性得到正确结果。

图片

OpenAI表示,o1系列可以帮医疗保健研究人员来注释细胞测序数据,帮助物理学家可以生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。

而且不是说说而已,OpenAI已经邀请相关的人类专家学者试用了一波。

马克思普朗克研究所的量子物理学者Mario Krenn,展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

图片

除了考试和学术基准之外,团队还评估了人们对o1-preview与GPT-4o在开放问题上的偏好。

在数据分析、编码和数学等推理密集型类别中,o1-preview明显优于gpt-4o。

然而o1-preview在某些自然语言任务上并不是首选,这表明它并不适合所有场景。

图片

OpenAI科学家Noam Brown分享了更详细的个人测试结果。

在上个月的ACL会议上有一个所有当时大模型都无法解决的逻辑难题。o1-preview能够做对,o1满血版几乎每次尝试都能做对。

图片

目前o1花费在思考上的时间是几秒到十几秒,但OpenAI未来的改进方向不是缩短,反而是努力增加这个时间,

目标是让未来的版本思考几个小时、几天甚至几周。

推理成本会更高,但你会为一种新的抗癌药物付多少钱?为了电池的突破、黎曼猜想的证明又付多少?

人工智能可以不仅仅是聊天机器人

图片

谁可以访问o1?

根据OpenAI官方说法,ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时,o1-preview限制为每周30条消息,o1-mini每周50条。

API访问权限将首先给Tier 5级用户,也就是已经在OpenAI API上花费超过1000美元的人。

图片

OpenAI正在努力提高这些速率,并使ChatGPT能够针对给定的提示自动选择合适的模型。

相关文章:

OpenAI震撼发布最强模型o1!强化学习突破LLM推理极限

OpenAI新模型无预警上新: o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。 在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分! 没错…...

速通GPT-2:Language Models are Unsupervised Multitask Learners全文解读

文章目录 GPT系列论文速通引言总览GPT和GPT-2区别Abstract1. 概括2. 具体分析 Introduction1. 概括2. 具体分析当前机器学习系统的局限性希望构建通用型系统数据集与任务通用性缺乏的原因 Approach1. 概括与要点2. 原文阅读翻译3. 具体分析论文核心Training DatasetInput Repre…...

Python 最小公倍数计算器:从基础到应用

目录 引言数学背景 什么是最小公倍数(LCM)计算LCM的方法Python基础 Python简介Python安装和设置使用Python计算最小公倍数 理论基础Python实现详细代码解析 辅助函数LCM计算函数最小公倍数的应用 工作中的应用场景日常生活中的应用场景优化与扩展 代码优化处理多个数字进阶话…...

网络学习-eNSP配置路由器

#PC1网关&#xff1a;192.168.1.254 #PC3网关&#xff1a;192.168.3.254 #PC4网关&#xff1a;192.168.4.254# 注&#xff1a;路由器接口必须配置不同网段IP地址 <Huawei>system-view Enter system view, return user view with CtrlZ. #给路由器两个接口配置IP地址 [Hua…...

在 React 中,如何使用 Context API 来实现跨组件的通信?

在 React 中&#xff0c;Context API 提供了一种方式&#xff0c;允许你在组件树中传递数据&#xff0c;而无需在每个层级手动传递 props。这对于实现跨组件通信非常有用&#xff0c;特别是当你需要在多个组件间共享状态或函数时。 以下是如何使用 Context API 来实现跨组件通…...

【基础算法总结】位运算

目录 一&#xff0c;常见位运算操作总结二&#xff0c;算法原理和代码实现191.位1的个数338.比特位计数461.汉明距离面试题01.01.判断字符是否唯一268.丢失的数字371.两整数之和136.只出现一次的数字137.只出现一次的数字II260.只出现一次的数据III面试题17.19.消失的两个数字 …...

组件通信——provide 和 inject 实现爷孙组件通信

provide 和 inject 实现爷孙组件通信 介绍 provide 和 inject 是 Vue.js 提供的一种在组件之间共享数据的机制&#xff0c;它允许在组件树中的任何地方注入依赖项。这对于跨越多个层级的组件间通信特别有用&#xff0c;因此无需手动将 prop 数据逐层传递下去。 provide&#…...

【ShuQiHere】探索人工智能核心:机器学习的奥秘

【ShuQiHere】 &#x1f4a1; 什么是机器学习&#xff1f; 机器学习&#xff08;Machine Learning, ML&#xff09;是人工智能&#xff08;Artificial Intelligence, AI&#xff09;中最关键的组成部分之一。它使得计算机不仅能够处理数据&#xff0c;还能从数据中学习&#x…...

LeeCode打卡第二十四天

LeeCode打卡第二十四天 第一题&#xff1a;对称二叉树&#xff08;LeeCode第101题&#xff09;: 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* …...

什么是科技与艺术相结合的异形创意圆形(饼/盘)LED显示屏

在当今数字化与创意并重的时代&#xff0c;科技与艺术的融合已成为推动社会进步与文化创新的重要力量。其中&#xff0c;晶锐创显异形创意圆形LED显示屏作为这一趋势下的杰出代表&#xff0c;不仅打破了传统显示设备的形态束缚&#xff0c;更以其独特的造型、卓越的显示效果和广…...

AI大模型知识点大梳理_ai大模型知识学习,零基础入门到精通,收藏这一篇就够了

文章目录 AI大模型是什么AI大模型发展历程AI大模型的底层原理AI大模型解决的问题大模型的优点和不足影响个人观点 AI大模型是什么 AI大模型是指具有巨大参数量的深度学习模型&#xff0c;通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力&…...

NVG040W语音芯片:为制氧机带来个性化语音提示和报警功能

在当今社会&#xff0c;家庭医疗设备和健康保健产品越来越受到人们的关注。制氧机作为其中的一种&#xff0c;为许多需要氧气治疗的人们提供了重要的帮助。然而&#xff0c;对于许多用户来说&#xff0c;如何正确操作和维护这些设备仍然是一个挑战。为此&#xff0c;NVG040W语音…...

OpenCV结构分析与形状描述符(12)椭圆拟合函数fitEllipseAMS()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆&#xff0c;该椭圆拟合一组2D点。它返回一个内切于该椭圆的旋转矩形。使用了由[260]提出的近…...

安卓显示驱动

安卓显示驱动是用于在Android设备上提供图形和视频显示的底层软件组件。 显示驱动在Android系统中扮演着至关重要的角色&#xff0c;它们负责将图形和视频内容从系统内存传输到显示屏上。这些驱动程序确保了用户界面、图像、视频和游戏等视觉元素的正常显示。以下是关于安卓显…...

java重点学习-集合(List)

七 集合&#xff08;List&#xff09; 7.1 复杂度分析 7.2 数组 1.数组(Array)是一种用连续的内存空间存储相同数据类型 数据的线性数据结构。 2.数组下标为什么从0开始 寻址公式是:baseAddressi*dataTypeSize&#xff0c;计算下标的内存地址效率较高 3.查找的时间复杂度 随机(…...

【PCB测试】最常见的PCB测试方法

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 文章目录 一、PCB测试的好处1.发现错误2.降低成本3.节省时间4.减少退货率5.提高安全性 二、PCB测试内容1.孔壁质量2.电镀铜3.清…...

AtCoder Beginner Contest 370 ABCD题详细题解(C++,Python)

前言: 本文为AtCoder Beginner Contest 370 ABCD题的详细题解&#xff0c;包含C,Python语言描述&#xff0c;觉得有帮助或者写的不错可以点个赞 个人感觉D比C简单&#xff0c;C那里的字典序有点不理解, E应该是前缀和加dp&#xff0c;但是是dp不明白&#xff0c;等我明白了会更…...

斯坦福研究人员探讨大型语言模型在社交网络生成中的应用及其在政治同质性上的偏见

社交网络生成在许多领域有着广泛的应用&#xff0c;比如流行病建模、社交媒体模拟以及理解社交现象如两极化等。当由于隐私问题或其他限制无法直接观察真实网络时&#xff0c;创建逼真的社交网络就显得尤为重要。这些生成的网络对于在这些情况下准确建模互动和预测结果至关重要…...

一招教你找到Facebook广告的最佳发帖时间

在社交媒体上做广告时&#xff0c;时机是至关重要的。有时候你投放的广告参与度低&#xff0c;很有可能是因为你没有在适当的时机投放广告。这篇文章会教你如何找到适合自己的广告投放时间&#xff0c;如果你感兴趣的话&#xff0c;就继续看下去吧&#xff01; 首先&#xff0…...

【数据库】MySQL-基础篇-多表查询

专栏文章索引&#xff1a;数据库 有问题可私聊&#xff1a;QQ&#xff1a;3375119339 目录 一、多表关系 1.一对多 2.多对多 3.一对一 二、多表查询概述 1.数据准备 2.概述 3.分类 三、内连接 1.隐式内连接 2.显式内连接 3.案例 四、外连接 1.左外连接 2.右外连…...

MongoDB事务机制

事务机制 1.事务概念 在对数据的操作的过程中&#xff0c;涉及到一连串的操作&#xff0c;这些操作如果失败&#xff0c;会导致我们的数据部分变化了&#xff0c;部分没变化。这个过程就好比如你去吃早餐&#xff0c;你点完餐了&#xff0c;并且吃完早餐了&#xff0c;没付钱你…...

大模型 LLM(Large Language Models)如今十分火爆,对于初入此领域的新人小白来说,应该如何入门 LLM 呢?是否有值得推荐的入门教程呢?

前言 很明显&#xff0c;这是一个偏学术方向的指南要求&#xff0c;所以我会把整个LLM应用的从数学到编程语言&#xff0c;从框架到常用模型的学习方法&#xff0c;给你捋一个通透。也可能是不爱学习的劝退文。 通常要达到熟练的进行LLM相关的学术研究与开发&#xff0c;至少…...

Python实现模糊逻辑算法

博客目录 引言 什么是模糊逻辑&#xff1f;模糊逻辑的应用场景模糊逻辑的基本思想 模糊逻辑的原理 模糊集合与隶属函数模糊推理系统&#xff08;FIS&#xff09;模糊规则和推理过程 Python实现模糊逻辑算法 面向对象的设计思路代码实现示例与解释 模糊逻辑算法应用实例&…...

MATLAB、FPGA、STM32中调用FFT计算频率、幅值及相位差

系列文章目录 文章目录 系列文章目录前言MATLABSTM32调用DSPSTM32中实现FFT关于初相位 FPGA 前言 最近在学习如何在STM32中调用FFT MATLAB 首先对FFT进行一下说明&#xff0c;我们输入N个点的数据到FFT中&#xff0c;FFT会返回N个点的数据&#xff0c;这些数据都是复数&#…...

基于SSM的医院药品库存系统的设计与实现---附源码76620

摘要 医院药品库存管理是医院管理的重要组成部分&#xff0c;对于保障医疗服务的质量和效率具有重要意义。传统的手工管理方式已经无法满足药品库存管理的需求&#xff0c;因此建立一个医院药品库存系统具有重要的实践价值。 使用Java语言开发医院药品库存系统可以兼容不同操作…...

Jupyter管理内核命令

1.显示有哪些内核 jupyter kernelspec list2.删除某个内核 jupyter kernelspec remove xxx3.添加某个内核 先激活环境 conda activate test_env然后安装ipykernel包 pip install ipykernel在虚拟环境中安装ipykernel包 python -m ipykernel install --name test_env安装过…...

简单分享-获取.txt文件内数据 文件内数据逗号分隔 分隔符 C语言

简单分享-获取.txt文件内数据 文件内数据逗号分隔 分隔符 C语言 数据存储到文件中&#xff0c;把文件数据读取到数组&#xff0c;方便数据处理。 # include <stdio.h> # include <stdlib.h> # include <string.h>#define DATANUM 307200 //数组个数 int ma…...

从0开始手把手带你入门Vue3

前言 本文并非标题党&#xff0c;而是实实在在的硬核文章&#xff0c;如果有想要学习Vue3的网友&#xff0c;可以大致的浏览一下本文&#xff0c;总体来说本篇博客涵盖了Vue3中绝大部分内容&#xff0c;包含常用的CompositionAPI(组合式API)、其它CompositionAPI以及一些新的特…...

C# USB通信技术(通过LibUsbDotNet库)

文章目录 1.下载LibusbDotNet库2.引入命名空间3. 实例化USB设备4.发送数据5.关闭连接 1.下载LibusbDotNet库 右击项目选择管理NuGet程序包在弹出的界面中搜索LibusbDotNet&#xff0c;然后下载安装。 2.引入命名空间 using LibUsbDotNet; using LibUsbDotNet.Main;3. 实例化…...

常用Java API

1 字符串处理 1.1 String 类 String 类是 Java 中不可变的字符序列。它提供了以下常用方法&#xff1a; length()&#xff1a;返回字符串的长度。 charAt(index)&#xff1a;返回指定索引处的字符。 substring(startIndex, endIndex)&#xff1a;返回从 startIndex 到 endI…...