当前位置：首页 > news >正文

OpenAI震撼发布最强模型o1！强化学习突破LLM推理极限

news 2025/7/7 11:33:17

OpenAI新模型无预警上新：

o1系列，可以进行通用复杂推理，每次回答要花费更长时间思考。

在解决博士水平的物理问题时，GPT-4o还是“不及格”59.5分，o1一跃来到“优秀档”，直接干到92.8分！

没错，传说中的「草莓」，终于来与大家见面了！

具体来说，o1系列是OpenAI首个经过强化学习训练的模型，在输出回答之前，会在产生一个很长的思维链，以此增强模型的能力。

换句话说，内部思维链越长，o1思考得越久，模型在推理任务上的表现就越好。

o1有多强呢？CEO奥特曼直给了答案：

在刚刚结束的2024 IOI信息学奥赛题目中，o1的微调版本在每题尝试50次条件下取得了213分，属于人类选手中前49%的成绩。

如果允许它每道题尝试10000次，就能获得362.14分，高于金牌选手门槛，可获得金牌。

另外它还在竞争性编程问题 (Codeforces) 中排名前89%，在美国数学奥林匹克 (AIME) 预选赛题目中跻身美国前500名学生之列。

与GPT-4o相比，o1在数理化生、英语法律经济等各种科目都有不同成绩改进。

PS：虽然OpenAI已正式封锁了中国地区API，但微软Azure OpenAI服务仍可以合规、稳定地提供企业用户使用ChatGPT的可能。出于合规角度，国内企业可以选择微软的Azure OpenAI服务来使用接口。

参考链接：

Azure OpenAI试用申请

汇总官方发布的各种消息来看，这次突然发布的o1系列又分为三个型号：

o1，新的大模型天花板，过于强大目前不方便对外公开。

o1-preiview，o1的早期版本，可以立即提供给ChatGPT付费用户和API用户。

o1-mini，速度更快、性价比更高，适用于需要推理和无需广泛世界知识的任务。

不少OpenAI员工都分别用“系统1”和“系统2”思考来科普o1系列与之前模型的区别。

连长期休假中的总裁Brockman都“诈尸”回归了。

思维链提示方法的原作者Jason Wei表示，这一次不是纯粹通过提示来完成思维链，而是使用强化学习训练模型以更好地执行链式思考。

在深度学习的历史中，人们一直试图扩展训练阶段的计算，但思维链是自适应计算的一种形式，现在也可以在推理时扩展。

新模型做了很多类似人类的事情，比如将棘手的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。

游戏已被完全重新定义。

o1：AI能力新天花板

通过训练，o1模型学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

不过作为早期模型，它尚不具备ChatGPT的许多有用功能，例如联网搜索以及上传文件和图像。

但对于复杂的推理任务来说，这是一个重大进步，OpenAI称代表了人工智能的最高水平。

鉴于此，他们决定将计数器重置，并将该系列模型命名为OpenAI o1。

随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能持续提高，新的Scaling Law诞生了。

不过这种方法的Scaling受到的限制与普通预训练有很大不同，OpenAI正在继续研究它们。

o1思考起来是什么样子？可以从官网示例中的编写Bash脚本的编程任务一窥究竟。

首先作为对比，GPT-4o会直接就开始写代码，遗憾得到错误结果。

而o1-preiview会先用自己的理解复述一遍要求，然后开始拆解要求，明确最终目标。

接下来它会给自己定义任务、分析限制条件、列出需要用到的方法。

进一步把任务拆解成明确的数个小步骤。

最后才动手编写代码，并保证一次性得到正确结果。

OpenAI表示，o1系列可以帮医疗保健研究人员来注释细胞测序数据，帮助物理学家可以生成量子光学所需的复杂数学公式，所有领域的开发人员可以使用o1来构建和执行多步骤工作流程。

而且不是说说而已，OpenAI已经邀请相关的人类专家学者试用了一波。

马克思普朗克研究所的量子物理学者Mario Krenn，展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

除了考试和学术基准之外，团队还评估了人们对o1-preview与GPT-4o在开放问题上的偏好。

在数据分析、编码和数学等推理密集型类别中，o1-preview明显优于gpt-4o。

然而o1-preview在某些自然语言任务上并不是首选，这表明它并不适合所有场景。

OpenAI科学家Noam Brown分享了更详细的个人测试结果。

在上个月的ACL会议上有一个所有当时大模型都无法解决的逻辑难题。o1-preview能够做对，o1满血版几乎每次尝试都能做对。

目前o1花费在思考上的时间是几秒到十几秒，但OpenAI未来的改进方向不是缩短，反而是努力增加这个时间，

目标是让未来的版本思考几个小时、几天甚至几周。

推理成本会更高，但你会为一种新的抗癌药物付多少钱？为了电池的突破、黎曼猜想的证明又付多少？

人工智能可以不仅仅是聊天机器人

谁可以访问o1？

根据OpenAI官方说法，ChatGPT Plus和Team用户最早可在几个小时内可以体验到o1系列模型。

在发布时，o1-preview限制为每周30条消息，o1-mini每周50条。

API访问权限将首先给Tier 5级用户，也就是已经在OpenAI API上花费超过1000美元的人。

OpenAI正在努力提高这些速率，并使ChatGPT能够针对给定的提示自动选择合适的模型。

OpenAI震撼发布最强模型o1！强化学习突破LLM推理极限

OpenAI新模型无预警上新： o1系列，可以进行通用复杂推理，每次回答要花费更长时间思考。在解决博士水平的物理问题时，GPT-4o还是“不及格”59.5分，o1一跃来到“优秀档”，直接干到92.8分！ 没错…...

编程日记 2024/9/13 12:32:30

速通GPT-2：Language Models are Unsupervised Multitask Learners全文解读

文章目录 GPT系列论文速通引言总览GPT和GPT-2区别Abstract1. 概括2. 具体分析 Introduction1. 概括2. 具体分析当前机器学习系统的局限性希望构建通用型系统数据集与任务通用性缺乏的原因 Approach1. 概括与要点2. 原文阅读翻译3. 具体分析论文核心Training DatasetInput Repre…...

编程日记 2024/9/13 12:31:29

Python 最小公倍数计算器：从基础到应用

目录引言数学背景什么是最小公倍数（LCM）计算LCM的方法Python基础 Python简介Python安装和设置使用Python计算最小公倍数理论基础Python实现详细代码解析辅助函数LCM计算函数最小公倍数的应用工作中的应用场景日常生活中的应用场景优化与扩展代码优化处理多个数字进阶话…...

编程日记 2024/9/13 12:29:27

网络学习-eNSP配置路由器

#PC1网关：192.168.1.254 #PC3网关：192.168.3.254 #PC4网关：192.168.4.254# 注：路由器接口必须配置不同网段IP地址 <Huawei>system-view Enter system view, return user view with CtrlZ. #给路由器两个接口配置IP地址 [Hua…...

编程日记 2024/9/13 12:28:26

在 React 中，如何使用 Context API 来实现跨组件的通信？

在 React 中，Context API 提供了一种方式，允许你在组件树中传递数据，而无需在每个层级手动传递 props。这对于实现跨组件通信非常有用，特别是当你需要在多个组件间共享状态或函数时。以下是如何使用 Context API 来实现跨组件通…...

编程日记 2024/9/13 12:25:23

【基础算法总结】位运算

目录一，常见位运算操作总结二，算法原理和代码实现191.位1的个数338.比特位计数461.汉明距离面试题01.01.判断字符是否唯一268.丢失的数字371.两整数之和136.只出现一次的数字137.只出现一次的数字II260.只出现一次的数据III面试题17.19.消失的两个数字 …...

编程日记 2024/9/13 12:24:22

组件通信——provide 和 inject 实现爷孙组件通信

provide 和 inject 实现爷孙组件通信介绍 provide 和 inject 是 Vue.js 提供的一种在组件之间共享数据的机制，它允许在组件树中的任何地方注入依赖项。这对于跨越多个层级的组件间通信特别有用，因此无需手动将 prop 数据逐层传递下去。 provide&#…...

编程日记 2024/9/13 12:23:21

【ShuQiHere】探索人工智能核心：机器学习的奥秘

【ShuQiHere】 💡 什么是机器学习？ 机器学习（Machine Learning, ML）是人工智能（Artificial Intelligence, AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习&#x…...

编程日记 2024/9/13 12:21:19

LeeCode打卡第二十四天

LeeCode打卡第二十四天第一题：对称二叉树（LeeCode第101题）: 给你一个二叉树的根节点 root ， 检查它是否轴对称。 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* …...

编程日记 2024/9/13 12:20:18

什么是科技与艺术相结合的异形创意圆形(饼/盘)LED显示屏

在当今数字化与创意并重的时代，科技与艺术的融合已成为推动社会进步与文化创新的重要力量。其中，晶锐创显异形创意圆形LED显示屏作为这一趋势下的杰出代表，不仅打破了传统显示设备的形态束缚，更以其独特的造型、卓越的显示效果和广…...

编程日记 2024/9/13 12:19:17

AI大模型知识点大梳理_ai大模型知识学习，零基础入门到精通，收藏这一篇就够了

文章目录 AI大模型是什么AI大模型发展历程AI大模型的底层原理AI大模型解决的问题大模型的优点和不足影响个人观点 AI大模型是什么 AI大模型是指具有巨大参数量的深度学习模型，通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力&…...

编程日记 2024/9/13 12:17:15

NVG040W语音芯片：为制氧机带来个性化语音提示和报警功能

在当今社会，家庭医疗设备和健康保健产品越来越受到人们的关注。制氧机作为其中的一种，为许多需要氧气治疗的人们提供了重要的帮助。然而，对于许多用户来说，如何正确操作和维护这些设备仍然是一个挑战。为此，NVG040W语音…...

编程日记 2024/9/13 12:15:13

OpenCV结构分析与形状描述符（12）椭圆拟合函数fitEllipseAMS()的使用

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述围绕一组2D点拟合一个椭圆。该函数计算出一个椭圆，该椭圆拟合一组2D点。它返回一个内切于该椭圆的旋转矩形。使用了由[260]提出的近…...

编程日记 2024/9/13 12:13:51

安卓显示驱动

安卓显示驱动是用于在Android设备上提供图形和视频显示的底层软件组件。显示驱动在Android系统中扮演着至关重要的角色，它们负责将图形和视频内容从系统内存传输到显示屏上。这些驱动程序确保了用户界面、图像、视频和游戏等视觉元素的正常显示。以下是关于安卓显…...

编程日记 2024/9/13 12:11:46

java重点学习-集合（List）

七集合（List） 7.1 复杂度分析 7.2 数组 1.数组(Array)是一种用连续的内存空间存储相同数据类型数据的线性数据结构。 2.数组下标为什么从0开始寻址公式是:baseAddressi*dataTypeSize，计算下标的内存地址效率较高 3.查找的时间复杂度随机(…...

编程日记 2024/9/13 12:10:45

【PCB测试】最常见的PCB测试方法

系列文章目录 1.元件基础 2.电路设计 3.PCB设计 4.元件焊接 5.板子调试 6.程序设计 7.算法学习 8.编写exe 9.检测标准 10.项目举例 11.职业规划文章目录一、PCB测试的好处1.发现错误2.降低成本3.节省时间4.减少退货率5.提高安全性二、PCB测试内容1.孔壁质量2.电镀铜3.清…...

编程日记 2024/9/13 12:08:42

AtCoder Beginner Contest 370 ABCD题详细题解(C++,Python)

前言: 本文为AtCoder Beginner Contest 370 ABCD题的详细题解，包含C,Python语言描述，觉得有帮助或者写的不错可以点个赞个人感觉D比C简单，C那里的字典序有点不理解, E应该是前缀和加dp，但是是dp不明白，等我明白了会更…...

编程日记 2024/9/13 12:05:39

斯坦福研究人员探讨大型语言模型在社交网络生成中的应用及其在政治同质性上的偏见

社交网络生成在许多领域有着广泛的应用，比如流行病建模、社交媒体模拟以及理解社交现象如两极化等。当由于隐私问题或其他限制无法直接观察真实网络时，创建逼真的社交网络就显得尤为重要。这些生成的网络对于在这些情况下准确建模互动和预测结果至关重要…...

编程日记 2024/9/13 12:04:38

一招教你找到Facebook广告的最佳发帖时间

在社交媒体上做广告时，时机是至关重要的。有时候你投放的广告参与度低，很有可能是因为你没有在适当的时机投放广告。这篇文章会教你如何找到适合自己的广告投放时间，如果你感兴趣的话，就继续看下去吧！ 首先&#xff0…...

编程日记 2024/9/13 12:00:31

【数据库】MySQL-基础篇-多表查询

专栏文章索引：数据库有问题可私聊：QQ：3375119339 目录一、多表关系 1.一对多 2.多对多 3.一对一二、多表查询概述 1.数据准备 2.概述 3.分类三、内连接 1.隐式内连接 2.显式内连接 3.案例四、外连接 1.左外连接 2.右外连…...

编程日记 2024/9/13 11:59:30

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

编程新知 2025/6/15 19:07:20

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

0. 概述上一节对安装和使用有个基本介绍。根据这个 issue 的描述，后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作，其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

编程新知 2025/7/2 15:02:24

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/7/6 14:15:06

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2025/7/4 14:04:03