当前位置: 首页 > news >正文

OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考

 ✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

编码

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中得分213分,排名在第49百分位,通过从o1初始化并进一步训练以提高编程技能。这个模型在2024年IOI中与人类参赛者在相同条件下竞争。它有十个小时的时间来解决六个具有挑战性的算法问题,并允许每个问题提交50次。

对于每个问题,我们的系统采样了许多候选提交,并基于测试时的选拔策略提交了其中的50个。提交是基于在IOI公开测试用例、模型生成的测试用例以及学习到的评分函数上的表现来选择的。如果我们随机提交,平均得分将只有156分,这表明在竞赛限制下,这种策略值得近60分。

在放宽提交限制的情况下,我们发现模型性能显著提高。当允许每个问题提交10,000次时,模型得分为362.14分——超过了金牌阈值——甚至没有使用任何测试时的选拔策略。

最后,我们模拟了由Codeforces主办的竞技编程比赛,以展示这个模型的编码技能。我们的评估与比赛规则紧密匹配,并允许10次提交。GPT-4o获得了808的Elo评分,这在人类参赛者中排在11百分位。这个模型远远超过了GPT-4o和o1——它获得了1807的Elo评分,表现优于93%的参赛者。
 

 在编程竞赛上的进一步微调,提高了o1的性能。改进后的模型在2024年国际信息学奥林匹克竞赛中,在竞赛规则下排名在第49百分位。

人类偏好评估


除了考试和学术基准测试,我们还评估了在广泛的领域中,对于具有挑战性的开放式提示,人类对o1预览版和GPT-4o的偏好。在这次评估中,人类训练师被展示了来自o1预览版和GPT-4o的匿名回应,并投票选择他们更喜欢的回应。在数据分析、编码和数学等需要大量推理的类别中,o1预览版以较大的优势被偏好于GPT-4o。然而,在一些自然语言任务上,o1预览版并不被偏好,这表明它并不适用于所有用例。

安全性


思维链推理为对齐(小梦备注:与人类意志对齐)和安全性提供了新的机会。

我们发现,将我们的模型行为政策整合到推理模型的思维链中,是一种有效的方法,可以稳健地教授人类价值观和原则。通过教授模型我们的安全规则以及如何在上下文中推理它们,我们发现推理能力直接有益于模型的鲁棒性:o1预览版在关键的越狱评估和我们评估模型安全拒绝边界的最困难的内部基准测试上取得了显著提高的性能。(小梦备注:这一点也可以参考OpenAI GPT o1技术报告阅读(2)- 关于模型安全性的测试案例_openai o1大模型中文技术报告-CSDN博客)

我们相信,使用思维链推理为安全性和对齐提供了重大进步,因为:

(1)它使我们能够以可读的方式观察模型的思考;

(2)模型对安全规则的推理更能抵御各种外部干扰场景的鲁棒性挑战;

为了对我们的改进进行压力测试,我们在部署前进行了一系列的安全测试和红队攻击,这符合我们的准备框架。

我们发现,思维链推理有助于我们评估中的能力提升。特别值得注意的是,我们观察到了一些有趣的奖励黑客行为实例。这些评估的详细结果可以在随附的系统卡片中找到。

相关内容:

【https://cdn.openai.com/o1-system-card.pdf#page=16】

【https://openai.com/index/openai-o1-system-card/】

贴一张微信截图自动翻译的评估内容,大概感受下...(翻译的有点烂,不过不影响理解)

隐藏思维链


我们认为,隐藏的思维链为监控模型提供了一个独特的机会。

假设它是忠实和清晰的,隐藏的思维链允许我们“读懂”模型的思维并理解其思考过程。

例如,在未来我们可能希望监控思维链,以寻找操纵用户的征兆。然而,为了使这行之有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到未对齐的思维链。

因此,在权衡了包括用户体验、竞争优势和追求思维链监控的选项在内的多个因素之后,我们决定不向用户展示原始的思维链。我们承认这个决定有其缺点。我们努力通过教授模型在答案中复制思维链中的任何有用想法来部分弥补这一点。对于o1模型系列,我们展示了模型生成的思维链摘要。


【小梦备注:哈,或许官方公布的这几个例子是唯一有完整思维链展示的,所以如果想要理解这个模型,还是满建议大家详细读读前边翻译的这几个案例的。当然,官网对于代码、化学和数学的案例也可以看看。】

结论


o1在人工智能推理方面显著推进了现有技术。

我们计划在我们继续迭代的过程中发布这个模型的改进版本。我们预计这些新的推理能力将提高我们使模型与人类价值观和原则对齐的能力。我们相信o1及其后续版本将为科学、编码、数学和相关领域的人工智能解锁许多新的用例。我们对用户和API开发者发现它如何改善他们的日常工作感到兴奋。
 

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

相关文章:

OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考

✨继续阅读报告:使用大模型来学习推理(Reason) 原文链接:https://openai.com/index/learning-to-reason-with-llms/ 编码 我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中得分213分,排名在第…...

nodejs 012:Babel(巴别塔)语言转换与代码兼容

这里写目录标题 安装 Babel配置presets配置:常见的 Babel Presetsplugins配置:以 plugin-transform-class-properties 的类中属性为例index.jsx Babel 是一个独立的 JavaScript 编译器,主要用于将现代 JavaScript 代码转换为旧版本的 JavaScr…...

时间安全精细化管理平台存在未授权访问漏洞

漏洞描述 登录--时间&安全精细化管理平台存在未授权访问漏洞导致与员工信息泄露 FOFA: body"登录--时间&安全精细化管理平台" 漏洞复现 POC: IP/acc/_checkinoutlog_/...

软件卸载工具(windows系统)-geek

有时候软件卸载会很麻烦,使用geek会比较方便。但是针对一些特别大的软件,geek也好像会稍微费点劲(比如MATLAB2022A),不过针对一般常规软件的卸载,geek就可以有效地完全卸载了,使用方法也很简单,…...

第三篇 第14篇 工程计价依据

第三篇 工程计价 第14篇 工程计价依据 14.1 工程造价管理标准体系与工程定额体系 14.1.1 工程造价管理标准体系 1.基础标准 工程造价术语标准建筑工程计价设备材料划分标准有关建设工程费用构成通则。建设工程费用构成和分类是工程计价最重要的基础工作。 2.管理规范 建筑…...

java 异常-Exception

异常的概念 Java 语言中,将程序执行中发生的不正常情况称为“异常”。(开发过程中的语法错误和逻辑错误不是异常) 执行过程中所发生的异常事件可分为两大类 (1)Error(错误):Java 虚…...

爬虫逆向学习(六):补环境过某数四代

声明:本篇文章内容是整理并分享在学习网上各位大佬的优秀知识后的实战与踩坑记录 引用博客: https://blog.csdn.net/shayuchaor/article/details/103629294 https://blog.csdn.net/qq_36291294/article/details/128600583 https://blog.csdn.net/weixin_…...

IO流体系(FiletOutputStream)

书写步骤: 1.创建字节输出流对象 细节1:参数是字符串表示的路径或者是File对象都是可以的 细节2:如果文件不存在会创建一个新的文件,但是要保证父级路径是存在的。 细节3:如果文件已经存在,则会清空文件 2.写数据 细节:write方法的参数…...

网络设备登录——《路由与交换技术》实验报告

目录 一、实验目的 二、实验设备和环境 三、实验记录 1.通过 Console 登录 步骤1:连接配置电缆。 步骤2:启动PC,运行超级终端。 步骤3:进入Console 配置界面 2.通过 Telnet 登录 步骤1:通过 Console 接口配置 Telnet 用户。 步骤2:配置 super 口令 步骤3:配置登录欢迎…...

CSS——网格布局(display: grid)之下篇

CSS——网格布局(display: grid)之下篇 前面我们介绍了网格布局的基础的创建以及一些比较基础的属性,下面我们将介绍网格布局的剩余部分,还将结合实例来进行细致的讲解(图文并茂,生动形象有内涵&#xff0…...

低势期操作

《周易》讲事务发展有六个阶段: 第一阶段:潜龙勿用。 第二阶段:见龙在田。 第三阶段:终日乾乾。 第四阶段:或跃在渊。 第五阶段:飞龙在天。 第六阶段:亢龙有悔。 现在大环境不好&#xff…...

IMS 呼叫流程(详细)

目录 业务模型 典型组网如图1所示 信令流程 具体的语音流程如图2所示 主叫信令面流程 01:UE_A->P-CSCF/ATCF 02:P-CSCF/ATCF_A->PCRF_A 03:PCRF_A->PCSCF/ATCF_A 04:P-CSCF/ATCF_A 处理(把S-CSCF加到Route) 05:S-CSCF_A->MMTel AS/SCC AS_A 06:MM…...

系统架构设计师:系统架构设计

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师:系统架构设计前言软件架构设计与生命周期SA 实现阶段主要关注的内容A…...

win11不显示已经打开的窗口

...

数学建模常用模型全面总结(含适用条件、优点、局限性和应用场景)

目录 1. 代数模型(Algebraic Models)2. 微分方程模型(Differential Equation Models)3. 概率模型(Probabilistic Models)4. 优化模型(Optimization Models)5. 统计模型(S…...

RabbitMQ消费者确认和重复机制

消费者确认机制 为了确认消费者是否成功处理消息,RabbitMQ提供了消费者确认机制(Consumer Acknowledgement)。即:当消费者处理消息结束后,应该向RabbitMQ发送一个回执,告知RabbitMQ自己消息处理状态。回执…...

【Verilog学习日常】—牛客网刷题—Verilog企业真题—VL77

编写乘法器求解算法表达式 描述 编写一个4bit乘法器模块,并例化该乘法器求解c12*a5*b,其中输入信号a,b为4bit无符号数,c为输出。注意请不要直接使用*符号实现乘法功能。 模块的信号接口图如下: 要求使用Verilog HDL语言实现以上…...

thinkPHP 8.0.4 安装

windows 上安装最新版 thinkPHP8.0.4 下载phpStudy V8.1:小皮面板安装Composer2.x,Composer是PHP的一个依赖管理工具,主要功能包括依赖管理、版本控制、自动加载、扩展开发以及集成其他工具。安装 php8.0.2 4. 网站-管理-compose&#xff0c…...

在k8s中,客户端访问服务的链路流程,ingress--->service--->deployment--->pod--->container

ingress是一个API资源。 其核心作用是nginx网页服务器。 当客户端访问服务器不同的url时, 用不同的location提供服务。 在k8s之外,nginx的配置一般如下: http {server {listen 80;server_name localhost;location / {root html; …...

寄存器二分频电路

verilog代码 module div2_clk ( input clk, input rst,output clk_div);reg clk_div_r; assign clk_div clk_div_r;always(posedge clk) beginif(rst)beginclk_div_r < 1b0;endelsebeginclk_di…...

保姆级教程:用PHPStudy+红日靶场复现一次完整的内网渗透(从外网打到域控)

从零构建内网渗透实战&#xff1a;PHPStudy环境下的红日靶场攻防演练 在网络安全领域&#xff0c;内网渗透测试是检验企业防御体系完整性的重要手段。本文将带领读者使用常见的PHPStudy环境搭建红日靶场&#xff0c;通过模拟真实攻击路径&#xff0c;从外网Web渗透逐步深入内网…...

SeqGPT-560M智能客服问答系统部署指南

SeqGPT-560M智能客服问答系统部署指南 1. 引言 想象一下这样的场景&#xff1a;你的电商平台每天收到上千条客户咨询&#xff0c;从"这个衣服有货吗"到"怎么申请退货"&#xff0c;问题五花八门。传统客服需要一个个手动回复&#xff0c;效率低下还容易出…...

保姆级教程:用Cadence Sigrity Power DC为海思HI3516A板卡提取电源树(附常见报错处理)

从零掌握Cadence Sigrity Power DC电源树提取&#xff1a;HI3516A实战避坑指南 刚拿到海思HI3516A评估板时&#xff0c;电源网络分析往往是硬件工程师的第一个拦路虎。面对密密麻麻的PCB走线和数十个电源域&#xff0c;传统手动梳理方式不仅耗时费力&#xff0c;还容易遗漏关键…...

解放你的创造力:用TEdit打造泰拉瑞亚专属世界地图

解放你的创造力&#xff1a;用TEdit打造泰拉瑞亚专属世界地图 【免费下载链接】Terraria-Map-Editor TEdit - Terraria Map Editor - TEdit is a stand alone, open source map editor for Terraria. It lets you edit maps just like (almost) paint! It also lets you change…...

桌面高颜值时钟工具,支持置顶鼠标穿透

软件介绍 今天要说的这款工具叫WithClock&#xff0c;它是一个时钟工具。这款工具的设计特别简洁&#xff0c;看着很舒服&#xff0c;没什么多余的东西&#xff0c;颜值也挺高。 功能操作 它支持鼠标穿透&#xff0c;你只需要在时钟上点右键&#xff0c;选择“置顶”&#xf…...

图解Linux内核DRM框架:从用户态ioctl到plane更新的完整数据流(以4.14版本为例)

图解Linux内核DRM框架&#xff1a;从用户态ioctl到plane更新的完整数据流&#xff08;以4.14版本为例&#xff09; 在图形显示技术领域&#xff0c;Linux内核的DRM&#xff08;Direct Rendering Manager&#xff09;框架扮演着核心角色。本文将聚焦于DRM_IOCTL_MODE_SETPLANE这…...

路沿模板,乐山水泥路面模板,40公分路面钢模哪里有名

打路面模板&#xff1a;乐山水泥路面的优质之选在道路建设中&#xff0c;打路面模板起着至关重要的作用。它不仅关系到路面的成型质量&#xff0c;还影响着整个工程的效率和成本。乐山地区对于道路建设的需求不断增加&#xff0c;尤其是在水泥路面的铺设方面&#xff0c;40公分…...

nuScenes数据集避坑指南:从数据下载到多模态可视化完整流程

nuScenes数据集实战全解析&#xff1a;从环境搭建到多模态融合可视化 自动驾驶研究离不开高质量的数据集支持&#xff0c;而nuScenes作为目前最全面的多模态自动驾驶数据集之一&#xff0c;包含了丰富的传感器数据和精细的标注信息。但在实际使用过程中&#xff0c;从数据下载到…...

nuScenes多传感器融合:毫米波雷达点云与图像时空对齐实战

1. 多传感器融合的核心挑战 自动驾驶系统就像一位全天候工作的司机&#xff0c;需要同时处理来自不同"感官"的信息。毫米波雷达擅长测距和测速&#xff0c;摄像头则能识别颜色和纹理&#xff0c;但要让它们像人类感官一样协同工作&#xff0c;首先要解决时空对齐的问…...

【Python MCP服务器安全开发黄金模板】:20年专家亲授7大零信任实践与3层防御体系

第一章&#xff1a;Python MCP服务器安全开发黄金模板概览Python MCP&#xff08;Model-Controller-Protocol&#xff09;服务器是一种面向协议驱动、可扩展性强的后端服务架构&#xff0c;广泛应用于物联网控制平台与微服务网关场景。本章所介绍的“黄金模板”并非通用框架&am…...