当前位置: 首页 > news >正文

OpenAI震撼发布最强模型o1!强化学习突破LLM推理极限

OpenAI新模型无预警上新:

o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。

在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分

没错,传说中的「草莓」,终于来与大家见面了!

具体来说,o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。

换句话说,内部思维链越长,o1思考得越久,模型在推理任务上的表现就越好。

o1有多强呢?CEO奥特曼直给了答案:

在刚刚结束的2024 IOI信息学奥赛题目中,o1的微调版本在每题尝试50次条件下取得了213分,属于人类选手中前49%的成绩。

如果允许它每道题尝试10000次,就能获得362.14分,高于金牌选手门槛,可获得金牌

另外它还在竞争性编程问题 (Codeforces) 中排名前89%,在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。

图片

与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

图片

PS:虽然OpenAI已正式封锁了中国地区API,但微软Azure OpenAI服务仍可以合规、稳定地提供企业用户使用ChatGPT的可能。出于合规角度,国内企业可以选择微软的Azure OpenAI服务来使用接口。

参考链接:

Azure OpenAI试用申请

汇总官方发布的各种消息来看,这次突然发布的o1系列又分为三个型号:

o1,新的大模型天花板,过于强大目前不方便对外公开。

o1-preiview,o1的早期版本,可以立即提供给ChatGPT付费用户和API用户

o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。

不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。

连长期休假中的总裁Brockman都“诈尸”回归了。

图片

思维链提示方法的原作者Jason Wei表示,这一次不是纯粹通过提示来完成思维链,而是使用强化学习训练模型以更好地执行链式思考。

在深度学习的历史中,人们一直试图扩展训练阶段的计算,但思维链是自适应计算的一种形式,现在也可以在推理时扩展。

新模型做了很多类似人类的事情,比如将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。

游戏已被完全重新定义。

图片

o1:AI能力新天花板

通过训练,o1模型学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

不过作为早期模型,它尚不具备ChatGPT的许多有用功能,例如联网搜索以及上传文件和图像。

但对于复杂的推理任务来说,这是一个重大进步,OpenAI称代表了人工智能的最高水平。

鉴于此,他们决定将计数器重置,并将该系列模型命名为OpenAI o1

随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1 的性能持续提高,新的Scaling Law诞生了

不过这种方法的Scaling受到的限制与普通预训练有很大不同,OpenAI正在继续研究它们。

图片

o1思考起来是什么样子?可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比,GPT-4o会直接就开始写代码,遗憾得到错误结果

而o1-preiview会先用自己的理解复述一遍要求,然后开始拆解要求明确最终目标

图片

接下来它会给自己定义任务分析限制条件列出需要用到的方法

图片

进一步把任务拆解成明确的数个小步骤。

图片

最后才动手编写代码,并保证一次性得到正确结果。

图片

OpenAI表示,o1系列可以帮医疗保健研究人员来注释细胞测序数据,帮助物理学家可以生成量子光学所需的复杂数学公式,所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。

而且不是说说而已,OpenAI已经邀请相关的人类专家学者试用了一波。

马克思普朗克研究所的量子物理学者Mario Krenn,展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

图片

除了考试和学术基准之外,团队还评估了人们对o1-preview与GPT-4o在开放问题上的偏好。

在数据分析、编码和数学等推理密集型类别中,o1-preview明显优于gpt-4o。

然而o1-preview在某些自然语言任务上并不是首选,这表明它并不适合所有场景。

图片

OpenAI科学家Noam Brown分享了更详细的个人测试结果。

在上个月的ACL会议上有一个所有当时大模型都无法解决的逻辑难题。o1-preview能够做对,o1满血版几乎每次尝试都能做对。

图片

目前o1花费在思考上的时间是几秒到十几秒,但OpenAI未来的改进方向不是缩短,反而是努力增加这个时间,

目标是让未来的版本思考几个小时、几天甚至几周。

推理成本会更高,但你会为一种新的抗癌药物付多少钱?为了电池的突破、黎曼猜想的证明又付多少?

人工智能可以不仅仅是聊天机器人

图片

谁可以访问o1?

根据OpenAI官方说法,ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时,o1-preview限制为每周30条消息,o1-mini每周50条。

API访问权限将首先给Tier 5级用户,也就是已经在OpenAI API上花费超过1000美元的人。

图片

OpenAI正在努力提高这些速率,并使ChatGPT能够针对给定的提示自动选择合适的模型。

相关文章:

OpenAI震撼发布最强模型o1!强化学习突破LLM推理极限

OpenAI新模型无预警上新: o1系列,可以进行通用复杂推理,每次回答要花费更长时间思考。 在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”,直接干到92.8分! 没错…...

速通GPT-2:Language Models are Unsupervised Multitask Learners全文解读

文章目录 GPT系列论文速通引言总览GPT和GPT-2区别Abstract1. 概括2. 具体分析 Introduction1. 概括2. 具体分析当前机器学习系统的局限性希望构建通用型系统数据集与任务通用性缺乏的原因 Approach1. 概括与要点2. 原文阅读翻译3. 具体分析论文核心Training DatasetInput Repre…...

Python 最小公倍数计算器:从基础到应用

目录 引言数学背景 什么是最小公倍数(LCM)计算LCM的方法Python基础 Python简介Python安装和设置使用Python计算最小公倍数 理论基础Python实现详细代码解析 辅助函数LCM计算函数最小公倍数的应用 工作中的应用场景日常生活中的应用场景优化与扩展 代码优化处理多个数字进阶话…...

网络学习-eNSP配置路由器

#PC1网关&#xff1a;192.168.1.254 #PC3网关&#xff1a;192.168.3.254 #PC4网关&#xff1a;192.168.4.254# 注&#xff1a;路由器接口必须配置不同网段IP地址 <Huawei>system-view Enter system view, return user view with CtrlZ. #给路由器两个接口配置IP地址 [Hua…...

在 React 中,如何使用 Context API 来实现跨组件的通信?

在 React 中&#xff0c;Context API 提供了一种方式&#xff0c;允许你在组件树中传递数据&#xff0c;而无需在每个层级手动传递 props。这对于实现跨组件通信非常有用&#xff0c;特别是当你需要在多个组件间共享状态或函数时。 以下是如何使用 Context API 来实现跨组件通…...

【基础算法总结】位运算

目录 一&#xff0c;常见位运算操作总结二&#xff0c;算法原理和代码实现191.位1的个数338.比特位计数461.汉明距离面试题01.01.判断字符是否唯一268.丢失的数字371.两整数之和136.只出现一次的数字137.只出现一次的数字II260.只出现一次的数据III面试题17.19.消失的两个数字 …...

组件通信——provide 和 inject 实现爷孙组件通信

provide 和 inject 实现爷孙组件通信 介绍 provide 和 inject 是 Vue.js 提供的一种在组件之间共享数据的机制&#xff0c;它允许在组件树中的任何地方注入依赖项。这对于跨越多个层级的组件间通信特别有用&#xff0c;因此无需手动将 prop 数据逐层传递下去。 provide&#…...

【ShuQiHere】探索人工智能核心:机器学习的奥秘

【ShuQiHere】 &#x1f4a1; 什么是机器学习&#xff1f; 机器学习&#xff08;Machine Learning, ML&#xff09;是人工智能&#xff08;Artificial Intelligence, AI&#xff09;中最关键的组成部分之一。它使得计算机不仅能够处理数据&#xff0c;还能从数据中学习&#x…...

LeeCode打卡第二十四天

LeeCode打卡第二十四天 第一题&#xff1a;对称二叉树&#xff08;LeeCode第101题&#xff09;: 给你一个二叉树的根节点 root &#xff0c; 检查它是否轴对称。 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* …...

什么是科技与艺术相结合的异形创意圆形(饼/盘)LED显示屏

在当今数字化与创意并重的时代&#xff0c;科技与艺术的融合已成为推动社会进步与文化创新的重要力量。其中&#xff0c;晶锐创显异形创意圆形LED显示屏作为这一趋势下的杰出代表&#xff0c;不仅打破了传统显示设备的形态束缚&#xff0c;更以其独特的造型、卓越的显示效果和广…...

AI大模型知识点大梳理_ai大模型知识学习,零基础入门到精通,收藏这一篇就够了

文章目录 AI大模型是什么AI大模型发展历程AI大模型的底层原理AI大模型解决的问题大模型的优点和不足影响个人观点 AI大模型是什么 AI大模型是指具有巨大参数量的深度学习模型&#xff0c;通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力&…...

NVG040W语音芯片:为制氧机带来个性化语音提示和报警功能

在当今社会&#xff0c;家庭医疗设备和健康保健产品越来越受到人们的关注。制氧机作为其中的一种&#xff0c;为许多需要氧气治疗的人们提供了重要的帮助。然而&#xff0c;对于许多用户来说&#xff0c;如何正确操作和维护这些设备仍然是一个挑战。为此&#xff0c;NVG040W语音…...

OpenCV结构分析与形状描述符(12)椭圆拟合函数fitEllipseAMS()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 围绕一组2D点拟合一个椭圆。 该函数计算出一个椭圆&#xff0c;该椭圆拟合一组2D点。它返回一个内切于该椭圆的旋转矩形。使用了由[260]提出的近…...

安卓显示驱动

安卓显示驱动是用于在Android设备上提供图形和视频显示的底层软件组件。 显示驱动在Android系统中扮演着至关重要的角色&#xff0c;它们负责将图形和视频内容从系统内存传输到显示屏上。这些驱动程序确保了用户界面、图像、视频和游戏等视觉元素的正常显示。以下是关于安卓显…...

java重点学习-集合(List)

七 集合&#xff08;List&#xff09; 7.1 复杂度分析 7.2 数组 1.数组(Array)是一种用连续的内存空间存储相同数据类型 数据的线性数据结构。 2.数组下标为什么从0开始 寻址公式是:baseAddressi*dataTypeSize&#xff0c;计算下标的内存地址效率较高 3.查找的时间复杂度 随机(…...

【PCB测试】最常见的PCB测试方法

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划 文章目录 一、PCB测试的好处1.发现错误2.降低成本3.节省时间4.减少退货率5.提高安全性 二、PCB测试内容1.孔壁质量2.电镀铜3.清…...

AtCoder Beginner Contest 370 ABCD题详细题解(C++,Python)

前言: 本文为AtCoder Beginner Contest 370 ABCD题的详细题解&#xff0c;包含C,Python语言描述&#xff0c;觉得有帮助或者写的不错可以点个赞 个人感觉D比C简单&#xff0c;C那里的字典序有点不理解, E应该是前缀和加dp&#xff0c;但是是dp不明白&#xff0c;等我明白了会更…...

斯坦福研究人员探讨大型语言模型在社交网络生成中的应用及其在政治同质性上的偏见

社交网络生成在许多领域有着广泛的应用&#xff0c;比如流行病建模、社交媒体模拟以及理解社交现象如两极化等。当由于隐私问题或其他限制无法直接观察真实网络时&#xff0c;创建逼真的社交网络就显得尤为重要。这些生成的网络对于在这些情况下准确建模互动和预测结果至关重要…...

一招教你找到Facebook广告的最佳发帖时间

在社交媒体上做广告时&#xff0c;时机是至关重要的。有时候你投放的广告参与度低&#xff0c;很有可能是因为你没有在适当的时机投放广告。这篇文章会教你如何找到适合自己的广告投放时间&#xff0c;如果你感兴趣的话&#xff0c;就继续看下去吧&#xff01; 首先&#xff0…...

【数据库】MySQL-基础篇-多表查询

专栏文章索引&#xff1a;数据库 有问题可私聊&#xff1a;QQ&#xff1a;3375119339 目录 一、多表关系 1.一对多 2.多对多 3.一对一 二、多表查询概述 1.数据准备 2.概述 3.分类 三、内连接 1.隐式内连接 2.显式内连接 3.案例 四、外连接 1.左外连接 2.右外连…...

proxy-doctor:自动化诊断与修复开发工具代理配置的利器

1. 项目概述与核心价值最近在折腾一些需要稳定网络连接的项目时&#xff0c;遇到了一个老生常谈但又极其恼人的问题&#xff1a;代理配置。无论是开发环境里的包管理工具&#xff0c;还是日常使用的命令行工具&#xff0c;一旦涉及到网络请求&#xff0c;代理设置不对&#xff…...

告别内置ADC的烦恼:用ADS1119搞定STM32/DSP的高精度电压采样(附完整代码)

告别内置ADC的烦恼&#xff1a;用ADS1119搞定STM32/DSP的高精度电压采样&#xff08;附完整代码&#xff09; 在嵌入式系统开发中&#xff0c;电压采样是基础却至关重要的环节。许多工程师在使用STM32或DSP内置ADC时&#xff0c;常会遇到精度不足、抗干扰能力差、无法测量差分信…...

终极Windows Defender移除指南:13项核心服务的完整卸载方案

终极Windows Defender移除指南&#xff1a;13项核心服务的完整卸载方案 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirror…...

为AI编程助手构建安全防线:Cursor自定义规则实战指南

1. 项目概述&#xff1a;为AI编程助手装上“安全护栏” 如果你和我一样&#xff0c;深度使用Cursor这类AI编程助手&#xff0c;那你一定体验过它带来的效率革命。它能帮你生成代码、重构函数、甚至解释复杂的逻辑&#xff0c;就像一个不知疲倦的编程伙伴。但硬币总有另一面——…...

【Midjourney数字艺术风格终极指南】:20年AI视觉专家亲授7大核心风格参数调优法则(含V6.1新增Realism Mode实测数据)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Midjourney数字艺术风格演进与V6.1核心变革 Midjourney自V1发布以来&#xff0c;其图像生成范式经历了从纹理模拟到语义理解、从风格模仿到跨模态协同的深层跃迁。V6.1标志着模型首次在原生架构中集成…...

AI模型GUI开发实战:从架构设计到部署的完整指南

1. 项目概述&#xff1a;一个为AI模型打造的图形化交互界面最近在GitHub上看到一个挺有意思的项目&#xff0c;叫GrahamMiranda-AI/openclaw-model-gui。光看名字&#xff0c;就能猜个八九不离十&#xff1a;这大概率是一个为某个名为“OpenClaw”的AI模型配套开发的图形用户界…...

OpenClaw-Subcortex:轻量级自动化任务编排与执行框架详解

1. 项目概述与核心价值最近在折腾一些自动化工具&#xff0c;发现一个挺有意思的项目叫openclaw-subcortex。乍一看这个名字&#xff0c;可能有点摸不着头脑&#xff0c;又是“爪子”又是“皮层下”的&#xff0c;感觉像是什么生物或者神经科学的东西。但实际上&#xff0c;这是…...

2025-2026年国内PCB厂家:五大产品专业评测 解决散热不均致焊点脱落痛点

摘要 当企业将PCB选型从通用需求转向高精尖领域适配&#xff0c;决策者面临如何在技术复杂度与成本可控间取得平衡的现实挑战&#xff1a;是追求极致性能&#xff0c;还是优先保障供应链稳定&#xff1f;根据Prismark Partners发布的2024年全球PCB产业报告&#xff0c;全球PCB…...

量子纠错程序的形式化验证方法与工程实践

1. 量子纠错程序验证的核心挑战量子纠错&#xff08;Quantum Error Correction, QEC&#xff09;是量子计算实现实用化的关键技术屏障。与传统经典计算不同&#xff0c;量子系统面临着更为复杂的噪声环境&#xff1a;退相干、门操作误差、测量错误等量子特异性噪声会迅速破坏脆…...

嘎嘎降AI和PaperRR深度对比:2026年学术期刊SCI论文降AI性能完整评测报告

嘎嘎降AI和PaperRR深度对比&#xff1a;2026年学术期刊SCI论文降AI性能完整评测报告 总有人问我选哪个降AI工具&#xff0c;这篇文章把主流的几款对比清楚。 综合推荐嘎嘎降AI&#xff08;www.aigcleaner.com&#xff09;&#xff0c;4.8元&#xff0c;99.26%达标率。不同需求…...