当前位置: 首页 > news >正文

OpenAI 的最强模型 o1 的“护城河”失守?谷歌 DeepMind 早已揭示相同原理

发布不到一周,OpenAI 的最新模型 o1 的“护城河”似乎已经失守。

近日,有人发现谷歌 DeepMind 早在今年 8 月发表的一篇论文,揭示了与 o1 模型极其相似的工作原理。

图片

这项研究指出,在模型推理过程中增加测试时的计算量,比简单地扩展模型参数更有效。基于论文中提出的计算最优(compute-optimal)测试时计算扩展策略,规模较小的基础模型在某些任务上甚至可以超越一个规模大14倍的模型。

有网友惊呼:这几乎就是 OpenAI o1 的原理!

众所周知,OpenAI CEO 山姆·奥特曼(Sam Altman)喜欢走在谷歌的前面。那么,OpenAI 这次抢先发布 o1 的 preview 版本,难道就是因为他们意识到谷歌已经在研究这个方向了吗?

图片

没有护城河,也不可能有护城河

图片

这引发了一些人的感慨:谷歌在内部文件中曾经说过,没有任何一家企业拥有“护城河”,OpenAI 也不例外。这次的事件似乎再次印证了这一观点。

在这个充满变数的领域,模型发布的速度成为了关键因素。就在大家对 o1 争相讨论时,OpenAI 已经宣布将 o1-mini 的运行速度提高了7倍,并且每天可供使用50次;o1-preview 的使用限制也提升至每周50次。

图片

谷歌 DeepMind:测试时计算更优

谷歌 DeepMind 的这篇论文标题为:优化 LLM 测试时计算比扩大模型参数规模更高效

研究团队提出的核心思想源于对人类思维模式的观察。面对复杂问题时,人类往往需要更长的时间来思考并改进决策。那么,大型语言模型(LLM)是否也可以利用额外的测试时计算来提升性能呢?

一些先前的研究已经证明,这种方法确实可行,但效果较为有限。谷歌团队的目标是探索,在使用有限的额外推理计算时,能在多大程度上提升模型性能。

为此,他们设计了一组实验,使用 PaLM2-S* 在 MATH 数据集上进行了测试,主要分析了两种方法:

  1. 迭代自我修订:让模型多次尝试回答一个问题,在每次尝试后对答案进行修订以期获得更好的结果。

  2. 搜索:模型生成多个候选答案,然后选择最佳答案。

图片

实验结果显示,使用自我修订方法时,随着测试时计算量的增加,标准最佳 N 策略(Best-of-N)与计算最优扩展策略之间的差距逐渐拉大。使用搜索方法,计算最优扩展策略在初期表现出明显优势,并在某些情况下能以仅1/4的计算量达到与最佳 N 策略相同的效果。

在计算量与预训练计算相当的情况下,团队将 PaLM 2-S*(采用计算最优策略)与一个不进行额外推理、规模大14倍的预训练模型进行了对比。结果表明,当推理 tokens 远少于预训练 tokens 时,使用测试时计算策略的效果更佳。然而,随着比率增加,或在更难的问题上,预训练模型的表现仍然更好。

图片

研究还表明,在计算量有限的情况下,使用计算最优策略最多可节省 4 倍的计算资源。

图片

对比 OpenAI o1:原理如出一辙

对比 OpenAI 的 o1 模型,这篇研究几乎得出了相同的结论。o1 模型通过强化学习和思维链的不断完善,在推理时采取不同的策略,并能够认识和纠正自己的错误。随着更多的强化学习和延长思考时间,o1 的性能持续提升。

不同的是,OpenAI 更快地发布了该模型,而谷歌则在 PaLM2 之后尚未将其更新至 Gemini2。

网友感慨:护城河只剩下硬件了?

这一新发现不禁让人想起去年谷歌内部文件中提出的观点:“我们没有护城河,OpenAI 也没有。开源模型可以打败 ChatGPT。”

如今看来,各家科技巨头的研究速度都非常迅猛,谁都无法保证自己始终领先。唯一可能的护城河,似乎只剩下硬件了。

图片

因此,有人猜测,这或许是为什么马斯克近期积极建立自己的算力中心的原因。目前,英伟达在算力领域拥有绝对主导地位。但如果谷歌或微软开发出更具优势的定制芯片,情况又将如何呢?

图片

值得注意的是,不久前有消息称,OpenAI 正在研发首颗专属芯片,并将采用台积电最先进的 A16 纳米级工艺,专为 Sora 视频应用打造。这进一步显示,当前的大模型竞争不仅仅在于模型本身,硬件资源和算力也成了决定胜负的关键因素。

谷歌 DeepMind 的研究表明,通过增加测试时计算量,可以让规模较小的模型在某些任务上媲美甚至超越更大规模的模型。这一原理与 OpenAI 的 o1 模型不谋而合,体现了在 AI 领域中“思考时间”与“性能提升”之间的关系。

然而,谁将最终在这场竞争中胜出,目前仍是未知数。对于各大科技公司而言,硬件和算力正逐渐成为一场没有硝烟的战争的新战场。

参考链接:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

ChatGPT-4o需要直接私信!!!

相关文章:

OpenAI 的最强模型 o1 的“护城河”失守?谷歌 DeepMind 早已揭示相同原理

发布不到一周,OpenAI 的最新模型 o1 的“护城河”似乎已经失守。 近日,有人发现谷歌 DeepMind 早在今年 8 月发表的一篇论文,揭示了与 o1 模型极其相似的工作原理。 这项研究指出,在模型推理过程中增加测试时的计算量&#xff0c…...

【胡乱念叨】大模型的“我”

下面的内容很有可能事实错误,胡说八道,前后不连贯,举例随意且未经考证 甚至 有意欺骗!嘻嘻。所以是【胡乱念叨】 文章目录 【胡乱念叨】大模型的“我”参数量和“我”什么是“我”从输入输出的观点看“我”大模型的“我”乱讨论 …...

Flag_AGtivity_clear_top网页编程指南如何退出多activity程序

activity的启动模式:FLAG_ACTIVITY_CLEAR_TOP和FLAG_ACTIVITY_REORDER_TO_FRONT。 1. 如果已经启动了四个Activity:A,B,C和D。在D Activity里,我们要跳到B Activity,同时希望C finish掉,可以在start…...

克隆centos网卡uuid相同如何修改

在克隆CentOS系统后,网卡的UUID相同会导致网络配置冲突,使得网络无法正常工作。要解决这个问题,你需要为每个克隆的系统生成新的UUID。 以下是解决步骤: 进入原始CentOS系统。 找到网络配置文件的位置,通常在 /etc/s…...

C语言习题~day11

1、C程序常见的错误分类不包含:( ) A.编译错误 B.链接错误 C.栈溢出 D.运行时错误 栈溢出是运行时错误的一种,因此C程序不会将栈溢出错误单独列出来,栈溢出包含在运行时错误中。 因此:选择C 2、关于VS调…...

Ansible——Playbook基本功能???

文章目录 一、Ansible Playbook介绍1、Playbook的简单组成1)“play”2)“task”3)“playbook” 2、Playbook与ad-hoc简单对比区别联系 3、YAML文件语法:---以及多个---??使用 include 指令 1. 基本结构2. 数…...

多线程学习篇一:启动多线程的三种方式

1. 继承 Thread 类 Slf4j public class MyThread extends Thread {Overridepublic void run() {log.info("MyThread run ...");}public static void main(String[] args) {MyThread myThread new MyThread();myThread.start();} } 2. 实现 Runnable 接口 Slf4j pu…...

【专题】2024跨境出海供应链洞察-更先进供应链报告合集PDF分享(附原数据表)

原文链接:https://tecdat.cn/?p37665 当前,全球化商业浪潮促使跨境电商行业飞速发展,产业带与跨境电商接轨、平台半托管模式涌现、社交电商带来红利机会以及海外仓不断扩张,这使得产业带外贸工厂、内贸工厂、传统进出口企业和品…...

git submodule

git submodule 是 Git 提供的一种功能,用于在一个 Git 仓库中嵌套另一个 Git 仓库。它可以帮助管理和跟踪外部项目或依赖项,特别是在以下场景中非常有用: 1. 管理外部依赖 当你的项目依赖于其他外部项目或库时,可以使用 git sub…...

【Power Compiler手册】13.UPF多电压设计实现(3)

创建供电端口 要创建电源和地端口,请使用`create_supply_port`命令。 供电端口的名称应该是一个简单的(非层次化的)名称,并且在其定义的层次级别上是唯一的。除非指定了`-domain`选项,否则端口是在当前作用域或层次级别创建的,当前作用域中的所有电源域都可以使用创建的…...

RTX 4090 系列即将停产,RTX 5090 系列蓄势待发

据最新消息,英伟达将于今年10月正式终结其GeForce RTX 4090及RTX 4090D两款旗舰级显卡的生产线。根据行业媒体报道,英伟达及其合作厂商将从下个月开始全面停止这两款显卡的制造。 自2022年10月问世以来,GeForce RTX 4090凭借其无与伦比的GPU…...

【MySQL】使用C语言连接数据库

看到标题,可能会疑惑,我们学习的不是C吗,为什么使用C语言去连接数据库呢??实际上,这两种语言都可以连接数据库,但是C语言提供的API没有进行封装,更有利于我们学习数据库连接。面向API编程,哈哈…...

Vue学习记录之四(watch侦听器和watchEffect高级侦听器)

watch watch 用于侦听特定的响应式数据源(如数据、计算属性等),比如ref或者是reactive时,并在其变化时执行回调函数。它适合用于处理副作用,如 API 请求或异步操作。使用 watch 适合特定数据变化的侦听,提…...

RedisTemplate操作ZSet的API

文章目录 ⛄概述⛄常见命令有⛄RedisTemplate API❄️❄️ 向集合中插入元素,并设置分数❄️❄️向集合中插入多个元素,并设置分数❄️❄️按照排名先后(从小到大)打印指定区间内的元素, -1为打印全部❄️❄️获得指定元素的分数❄️❄️返回集合内的成员个数❄️❄…...

Android 15 正式发布至 AOSP

Google官方宣布,将于近期发布了 Android 15,而在早些时候,Google已经将其源代码推送至 Android 开源项目 (AOSP)。未来几周内,Android 15 将在受支持的 Pixel 设备上正式推出,并将于今年晚些时候在三星、Honor、iQOO、…...

IEEE Electronic Library(IEL)数据库文献检索下载介绍及个人获取IEEE文献途径

一、数据库介绍 IEEE(The Institute of Electrical and Electronics Engineers,电气电子工程师学会)是目前全球最大的非营利性专业技术学会,在全球160多个国家拥有超过45万名会员。IEEE在电气电子、计算机、半导体、通讯、电力能…...

动手学习RAG:大模型重排模型 bge-reranker-v2-gemma微调

动手学习RAG: 向量模型动手学习RAG: moka-ai/m3e 模型微调deepspeed与对比学习动手学习RAG:rerank模型微调实践 bge-reranker-v2-m3动手学习RAG:迟交互模型colbert微调实践 bge-m3动手学习RAG: 大模型向量模型微调 intfloat/e5-mistral-7b-instruct动手学…...

蓝桥杯2024省C

P10898 [蓝桥杯 2024 省 C] 拼正方形 题目描述 小蓝正在玩拼图游戏,他有 7385137888721个 22的方块和 10470245 个 11 的方块,他需要从中挑出一些来拼出一个正方形,比如用 3 个 22 和 4 个 11 的方块可以拼出一个 44 的正方形,用…...

C++:内部类,匿名对象,操作符new与delete

一.内部类 1.如果一个类定义在另一个类的内部,这个内部类就叫做内部类。内部类是一个独立的类,跟定义在全局相比,他只是受外部类类域限制和访问限定符限制,所以外部类定义的对象中不包含内部类。 2.内部类默认是外部类的友元类。…...

【数据结构】排序算法---计数排序

文章目录 1. 定义2. 算法步骤3. 动图演示4. 性质5. 算法分析6. 代码实现C语言PythonJavaGo 结语 1. 定义 计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。计数排序不是基于比较的排序算法,其核心在于将输入的数据值转化为键存储在额外开辟的数组…...

UDP(Echoserver)

网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块&#xff0c;用户不点击提交按钮&#xff0c;只要输入框失去焦点&#xff0c;就会提前提示验证码是否正确。 一&#xff0c;模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

linux 下常用变更-8

1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行&#xff0c;YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID&#xff1a; YW3…...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

AspectJ 在 Android 中的完整使用指南

一、环境配置&#xff08;Gradle 7.0 适配&#xff09; 1. 项目级 build.gradle // 注意&#xff1a;沪江插件已停更&#xff0c;推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

中医有效性探讨

文章目录 西医是如何发展到以生物化学为药理基础的现代医学&#xff1f;传统医学奠基期&#xff08;远古 - 17 世纪&#xff09;近代医学转型期&#xff08;17 世纪 - 19 世纪末&#xff09;​现代医学成熟期&#xff08;20世纪至今&#xff09; 中医的源远流长和一脉相承远古至…...

排序算法总结(C++)

目录 一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序 三、总结 一、稳定性 排序算法的稳定性是指&#xff1a;同样大小的样本 **&#xff08;同样大小的数据&#xff09;**在排序之后不会改变原始的相对次序。 稳定性对基础类型对象…...

RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发&#xff0c;后来由Pivotal Software Inc.&#xff08;现为VMware子公司&#xff09;接管。RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用 Erlang 语言编写。广泛应用于各种分布…...

Caliper 配置文件解析:fisco-bcos.json

config.yaml 文件 config.yaml 是 Caliper 的主配置文件,通常包含以下内容: test:name: fisco-bcos-test # 测试名称description: Performance test of FISCO-BCOS # 测试描述workers:type: local # 工作进程类型number: 5 # 工作进程数量monitor:type: - docker- pro…...

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分&#xff1a; 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...