昨晚,OpenAI震撼发布o1大模型!我们正式迈入了下一个时代。
大半夜的,OpenAI抽象了整整快半年的新模型。
在没有任何预告下,正式登场。
正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫:
为什么取名叫o1,OpenAI是这么说的:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.
翻译过来是:
对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。
这次模型的强悍,甚至让OpenAI不惜推掉了过去GPT系列的命名,重新起了一个o系列。
炸了,真的炸了。
我现在,头皮发麻,真的,这次OpenAI o1发布,也标志着,AI行业,正式进入了一个全新的纪元。
**“我们通往AGI的路上,已经没有任何阻碍。”
**
在逻辑和推理能力上,我直接先放图,你们就知道,这玩意有多离谱。
AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1 预览版,是56.7%,还未发布的o1正式版,是83.3%。
代码竞赛,GPT4o准确率为11.0%,o1 预览版为62%,o1正式版,是89%。
而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。
我让Claude翻译了一下o1的图,丑是丑了点,但是能看的懂每项数据意思就行。
什么叫全面碾压,这就是。
特别是在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1 的表现全面超过了人类博士专家,这也是有史以来,第一个获得此成就的模型。
而整个模型之所以达到如此成就,基石就是Self-play RL,不知道这个的可以去看我前两天的预测文章:新模型草莓到底是个啥?
通过Self-play RL,o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。
它也学会了将复杂的步骤分解为更简单的步骤。
而且当当前的方法不起作用时,它也学会了尝试不同的方法。
他学会的这些,就是我们人类,最核心的思考方式:慢思考。
诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。
非常详细的阐述了人类的两种思考方式。
第一种是快思考(系统1),特点是快速、自动、直觉性、无意识,举几个例子:
- 看到一个笑脸就知道对方心情很好。
- 1+1=2 这样简单的计算。
- 开车时遇到危险情况立即踩刹车。
这些就是快思考,也就是传统的大模型,死记硬背后学得的快速反应的能力。
第二种是慢思考(系统2),特点是缓慢、需要努力、逻辑性、有意识,举几个例子:
- 解决一道复杂的数学题
- 填写税务申报表
- 权衡利弊后做出重要决定
这就是慢思考,我们人类之所以强大的核心,也是AI要通往下一步AGI路上的基石。
而现在,o1终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前,会反复的思考、拆解、理解、推理,然后给出最终答案。
说实话,这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。
例如o1可以被医疗研究人员用来注释细胞测序数据,被物理学家用来生成量子光学所需的复杂数学公式,以及被各个领域的开发人员用来构建和执行多步骤工作流,等等等等。
o1也绝对是全新一代的数据飞轮,如果答案正确,整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。
以OpenAI的用户级别,未来的进化速度,只会更恐怖。
写到这,我忽然叹了口气,我觉得我跟一年以后的o1比起来,可能就是个纯废物了,真的。。。
目前,o1模型已经逐步向所有ChatGPT Plus和 Team用户开放,未来会考虑对免费用户开放。
分为两个模型,o1预览版和o1 mini,o1-mini就是更快更小更便宜,推理啥的都不错,极度适合数学和代码,就是世界知识会差很多,适用于需要推理但不需要广泛世界知识的场景。
o1预览版每周30条,o1-mini每周50条。
雪崩,甚至不是按以前的3小时来限制的,是每周30条,也能从侧面看出来,o1这个模型,有多贵了。
对于开发者来说,只对已经付过1000美刀的等级5开发者开放,每分钟限制20次。
都挺少的。
而且在功能上阉割挺大,但是毕竟早期,理解。
API的价格上,o1预览版每百万输入15美元,每百万输出60美元,这个推理成本…
o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。
输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。
o1-mini还是勉强有一些经济效应的,不过还是开始,后面等着OpenAI打骨折。
既然说o1已经对Plus用户开放,我就直接去我的号上看了眼,还不错,拿到了。
那自然,第一时间试一试。
目前不支持曾经的所有功能,也就是没有图片理解、图片生成、代码解释器、网页搜索等等,只有一个可以对话的裸模型。
我先是一个曾经很致命的问题:
“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”
思考了6秒时间,给了我一个很完美的回答。
还有之前一个坑遍所有大模型的调休问题:
“这是中国2024年9月9日(星期一)开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。
请你告诉我除了我本来该休的周末,我因为放假多休息了几天?”
在o1思考了整整30秒以后,给出了一天不差的极度精准的答案。
无敌,真的无敌。
再来一个更难的,就是曾经姜萍那个比赛的奥数题:
别问我题目什么意思,我看不懂,我是废物,这题曾经屠杀所有的大模型,这次,我们让o1也来试一下看看。
在o1思考了整整1分多钟之后,他给出了答案。
…
全…对…
我裂开了。
目前我自己试下来,感觉Prompt,未来可能也要重新摸索,在GPT为代表的快思考大模型时代,我们有很多所谓的一步一步思考之类的玩意,现在全都无效了,对o1甚至还有负效果。
OpenAI给出的最佳写法是:
- **保持提示简单直接:**模型擅长理解和响应简短、清晰的指令,而不需要大量的指导。
- **避免思路链提示:**由于这些模型在内部进行推理,因此不需要提示它们“逐步思考”或“解释你的推理”。
- **使用分隔符来提高清晰度:**使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。
- **限制检索增强生成 (RAG) 中的附加上下文:**提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓
学习路线
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
相关文章:

昨晚,OpenAI震撼发布o1大模型!我们正式迈入了下一个时代。
大半夜的,OpenAI抽象了整整快半年的新模型。 在没有任何预告下,正式登场。 正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫: 为什么取名叫o1,OpenAI是这么说的: For complex …...
MySql8.x---开窗函数
1、定义 语法结构: ** 开窗函数|聚合函数 over([分组函数] [排序函数] [自定义窗口]) ** 分组函数:partition by ...,根据指定的字段对表分组,分组字段可以有多个。省略时表示整个表为一组。 排序函数:order by ...&…...

图文讲解HarmonyOS应用发布流程
HarmonyOS应用的开发和发布过程可以分为以下几个步骤:证书生成、应用开发、应用签名和发布。 1. 证书生成: 在开始开发HarmonyOS应用之前,首先需要生成一个开发者证书。开发者证书用于标识应用的开发者身份并确保应用的安全性。可以通过Har…...

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)
原文链接: https://tecdat.cn/?p37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预…...

经典负载调制平衡放大器(LMBA)设计-从理论到ADS仿真
经典负载调制平衡放大器(LMBA)设计-从理论到ADS仿真 ADS工程下载:经典负载调制平衡放大器(LMBA)设计-从理论到ADS仿真-ADS工程 参考论文: An Efficient Broadband Reconfigurable Power Amplifier Using Active Load…...

Web开发:基础Web开发的支持
创建项目: 添加依赖: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

【LeetCode每日一题】——LCR 168.丑数
文章目录 一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目注意】六【题目示例】七【题目提示】八【解题思路】九【时间频度】十【代码实现】十一【提交结果】 一【题目类别】 优先队列 二【题目难度】 中等 三【题目编号】 LCR 168.丑数 四【题目描述…...

Day7 | Java框架 | SpringMVC
Day7 | Java框架 | SpringMVC SpringMVC简介SpringMVC 概述入门案例入门案例工作流程分析Controller 加载控制与业务bean加载控制(SpringMVC & Spring)PostMan 请求与响应请求映射路径请求方式(不同类型的请求参数)࿱…...

【网络通信基础与实践第二讲】包括互联网概述、互联网发展的三个阶段、互联网的组成、计算机网络的体系结构
一、互联网概述 计算机网络是由若干节点(node)和连接这些节点的链路(link)组成。 网络之间还可以通过路由器互联起来,这就构成了一个覆盖范围更大的计算机网络。这样的网络称为互联网。 网络把许多计算机连接在一起…...
CentOS7下安装Ruby3.2.4的实施路径
一、CentOS版本 [userzt ~]$ cat /etc/os-release NAME"CentOS Linux" VERSION"7 (Core)" ID"centos" ID_LIKE"rhel fedora" VERSION_ID"7" PRETTY_NAME"CentOS Linux 7 (Core)" ANSI_COLOR"0;31" CPE…...
Redis 实现原理或机制
Redis 是一个高性能的、基于内存的键值对存储系统,广泛用于缓存、会话管理、排行榜和消息队列等场景。它的高效性得益于其独特的实现原理和机制,Redis支持丰富的数据结构和多种持久化、复制、集群和发布/订阅功能,提供了灵活性和高可用性。 …...

使用程序方式获取与处理MySQL表数据
8.1 执行多条语句获取 MySQL 表数据 8.1.1 MySQL 中的常量 8.1.2 MySQL 中的变量 1.用户变量 用户可以在表达式中使用自己定义的变量,这样的变量称为用户变量。 用户变量在使用前必须定义和初始化,如果使用没有初始化的变量&#x…...

计算机网络(五) —— 自定义协议简单网络程序
目录 一,关于“协议” 1.1 结构化数据 1.2 序列化和反序列化 二,网络版计算器实现准备 2.1 套用旧头文件 2.2 封装sock API 三,自定义协议 3.1 关于自定义协议 3.2 实现序列化和反序列化 3.3 测试 三,服务器实现 3.1…...
开源模型应用落地-qwen2-7b-instruct-LoRA微调-unsloth(让微调起飞)-单机单卡-V100(十七)
一、前言 本篇文章将在v100单卡服务器上,使用unsloth去高效微调QWen2系列模型,通过阅读本文,您将能够更好地掌握这些关键技术,理解其中的关键技术要点,并应用于自己的项目中。 使用unsloth能够使模型的微调速度提高 2 - 5 倍。在处理大规模数据或对时间要求较高的场景下,…...

[数据集][目标检测]车油口挡板开关闭合检测数据集VOC+YOLO格式138张2类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):138 标注数量(xml文件个数):138 标注数量(txt文件个数):138 标注类别…...
Delphi 的 RSA 库 LockBox
LockBox 是用于 Delphi 的一套加密/解密控件 最早是一套商业控件,后来开源了。再后来,又有一个新版本的 LockBox,和旧版本完全不同。 旧版本的 LockBox 叫 LockBox 2;新版本的叫 LockBox 3。 这两个控件,都可以通过…...
element UI学习使用(1)
https://element.eleme.cn/2.6/#/zh-CN/component/container vue模块库,可复制直接使用 1、搜索框、下拉搜索框 <el-form :inline"true" class"demo-form-inline"><el-form-item label"结果搜索"><el-inputplaceho…...

如何搞定日语翻译?试试这四款工具
写一篇字数800-1000字的软文,用翻译新手的角度分享福昕翻译在线、福昕翻译客户端、海鲸AI翻译以及彩云翻译在翻译日语时候的表现,要求口语化表达。 最近对于一些轻小说突然感兴趣了,所以我开始尝试各种翻译工具来帮助我搞定日语翻译。今天&am…...

【STM32】独立看门狗(IWDG)原理详解及编程实践(上)
本篇文章是对STM32单片机“独立看门狗(IWDG)”的原理进行讲解。希望我的分享对你有所帮助! 目录 一、什么是独立看门狗 (一)简介 (二)、独立看门狗的原理 (三)、具体操…...
前端框架大观:探索现代Web开发的基石
目录 引言 一、前端框架概述 二、主流前端框架介绍 2.1 React 2.1.1 简介 2.1.2 特点 2.1.3 代码示例 2.2 Vue.js 2.2.1 简介 2.2.2 特点 2.2.3 代码示例 2.3 Angular 2.3.1 简介 2.3.2 特点 2.3.3 代码示例 三、其他前端框架与库 四、前端框架的选择 五、结…...
【论文笔记】若干矿井粉尘检测算法概述
总的来说,传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度,通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

12.找到字符串中所有字母异位词
🧠 题目解析 题目描述: 给定两个字符串 s 和 p,找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义: 若两个字符串包含的字符种类和出现次数完全相同,顺序无所谓,则互为…...
【HTTP三个基础问题】
面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
【学习笔记】深入理解Java虚拟机学习笔记——第4章 虚拟机性能监控,故障处理工具
第2章 虚拟机性能监控,故障处理工具 4.1 概述 略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具 命令:jps [options] [hostid] 功能:本地虚拟机进程显示进程ID(与ps相同),可同时显示主类&#x…...
Java线上CPU飙高问题排查全指南
一、引言 在Java应用的线上运行环境中,CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时,通常会导致应用响应缓慢,甚至服务不可用,严重影响用户体验和业务运行。因此,掌握一套科学有效的CPU飙高问题排查方法&…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...

day36-多路IO复用
一、基本概念 (服务器多客户端模型) 定义:单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力 作用:应用程序通常需要处理来自多条事件流中的事件,比如我现在用的电脑,需要同时处理键盘鼠标…...

群晖NAS如何在虚拟机创建飞牛NAS
套件中心下载安装Virtual Machine Manager 创建虚拟机 配置虚拟机 飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...

stm32wle5 lpuart DMA数据不接收
配置波特率9600时,需要使用外部低速晶振...