OpenAI开源超级对齐方法:用GPT-2,监督、微调GPT-4
12月15日,OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型,实现更好的新型对齐方法。
目前,大模型的主流对齐方法是RLHF(人类反馈强化学习)。但随着大模型朝着多模态、AGI发展,神经元变得庞大、复杂且难控制,RLHF便有点力不从心。
做个不太恰当的比喻,就像是工厂的保安一样:一个20人的小工厂,3个保安就能应付;如果发展到5000人的大工厂呢?仅靠人工就不太行,需要摄像头、智能门禁、温/湿传感器等设备,实现更高效的安全监控。
同理,OpenAI为了提升大模型的安全性,提出了“弱监督”的技术概念。并使用小参数的GPT-2去监督、微调GPT-4,同时使用辅助置信损失、无监督微调等增强方法,可以恢复GPT-4近80%的性能,达到GPT-3 和GPT-3.5之间的能力。
这表明,“弱监督”对齐方法是可行的。虽然目前还无法像RLHF那样拟人化、灵活,但这指明了一条全新对齐方向,用AI监督、微调AI,是未来提升大模型安全、性能的重要渠道之一。
开源地址:https://github.com/openai/weak-to-strong
论文下载地址:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

此外,OpenAI还公布成立了一个1000万美元的“超级对齐”安全专款。主要用于研究大模型的超级对齐,深度研究“弱监督”技术等。
个人开发者、研究机构、非盈利机构都能申请该奖金,申请流程非常方便简单。但需要在2024年2月18日之前完成申请。
申请地址:https://airtable.com/appnIXmOlWAJBzrJp/paghnoKL6EHiKmKbf/form

由于OpenAI公布论文的内容太多,技术概念也比较复杂,「AIGC开放社区」就用简单易懂的方式为大家解读。
什么是RLHF
需要先简单介绍一下RLHF,以便更好地理解OpenAI提出的“弱监督”技术概念。
RLHF的中文译为“人类反馈强化学习”,是一种结合人类指导和自动强化学习的训练方法。
人类通过对AI的行为进行评价或指导,帮助其在学习过程中做出更好的决策。
由于人类可以通过直觉、视觉和实践经验等来帮助AI,因此,应用RLHF的产品在拟人化方面获得大幅度提升。
简单来说,可以把RLHF看成是一种“妈妈教孩子”的的训练方法。AI相当于刚出生毫无经验的孩子,当他摔倒在地时,母亲(RLHF)会告诉他如何避免摔倒,以及更好的走路方法,孩子可以在这种不断反馈的学习环境中快速成长。
在过去的研究中,“强监督”一直被认为是训练智能模型的最佳方法,通过为模型提供准确的标签来监督其学习过程,RLHF便是最典型的应用。

然而,这种方法存在一些限制和挑战。因为,获取准确的标签可能非常困难或耗费大量时间,同时对于一些复杂的任务,人类很难准确地定义标签或出现偏见。
例如,最初的ChatGPT等产品会生成歧视内容,数据标签不准确是出现这个情况的主要原因之一。
因此,OpenAI提出了“弱监督”,希望用AI替代人工来监督大模型的行为表现。
“弱监督”简单介绍
为了探索“弱监督”应用潜力,研究人员使用了一系列GPT-4系列语言模型,在NLP、国际象棋和奖励建模任务中进行了深度测试。
惊奇发现,当使用弱模型生成的标签,对强预训练模型进行微调、指导时,强模型通常比弱监督模型表现更好,这一现象被称为“弱到强的泛化”。

简单来说,就是老师教完学生知识,学生居然比老师还强大。
多种增强“弱监督”方法
但是仅通过简单的微调并不能充分发挥强模型的全部性能,因此,研究人员尝试了一些别的方法来改善弱到强的泛化效果,以匹配RLHF训练模型的能力。
研究人员分别使用了辅助置信损失、中间模型的引导监督和无监督微调等方法。
辅助置信损失,主要用来更好地指导模型进行学习。例如,在处理具有噪声标签或不确定性很高的数据时,辅助损失可以帮助模型区分易于预测和难以预测的样本。
中间模型的引导监督,可以作为一个桥梁,将弱模型的监督信号传递给强模型,帮助其更好地学习弱模型的知识和表现。
无监督微调,可使强模型在没有标签监督的情况下进行微调,从而使其能够更好地适应新的任务和数据。

研究人员在NLP等测试任务中进行了实验,结果显示,使用GPT-2作为监督来微调GPT-4模型,并在上述增强功能的帮助下,性能差距仅有20%左右,达到了GPT-3 和GPT-3.5之间的能力。

本文素材来源OpenAI论文、开源项目,如有侵权请联系删除
相关文章:
OpenAI开源超级对齐方法:用GPT-2,监督、微调GPT-4
12月15日,OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型,实现更好的新型对齐方法。 目前,大模型的主流对齐方法是RLHF(人类反馈强化学习)。但随着大模型朝着多模态、AGI发展,神经元…...
TeeChart.NET 2023.11.17 Crack
.NET 的 TeeChart 图表控件提供了一个出色的通用组件套件,可满足无数的图表需求,也针对重要的垂直领域,例如金融、科学和统计领域。 数据可视化 数十种完全可定制的交互式图表类型、地图和仪表指示器,以及完整的功能集,…...
计算机网络常见的缩写
计算机网络常见缩写 通讯控制处理机(Communication Control Processor)CCP 前端处理机(Front End Processor)FEP 开放系统互连参考模型 OSI/RM 开放数据库连接(Open Database Connectivity)ODBC 网络操作系…...
vue cli 脚手架之配置代理
方法二...
STM32启动流程详解(超全,startup_stm32xx.s分析)
单片机上电后执行的第一段代码 1.初始化堆栈指针 SP_initial_sp 2.初始化 PC 指针Reset_Handler 3.初始化中断向量表 4.配置系统时钟 5.调用 C 库函数_main 初始化用户堆栈,然后进入 main 函数。 在正式讲解之前,我们需要了解STM32的启动模式。 STM32的…...
小程序接口OK,桌面调试接口不行
手机小程序OK,桌面版出现问题; 环境:iis反向url的tomcat服务,提供接口。 该接口post了一个很大的数组,处理时间比较久。 1)桌面调试出现错误,提示 用apipost调用接口同样出错, 502 - Web 服务器在作为网关或代理服…...
【贪心】LeetCode-406. 根据身高重建队列
406. 根据身高重建队列。 假设有打乱顺序的一群人站成一个队列,数组 people 表示队列中一些人的属性(不一定按顺序)。每个 people[i] [hi, ki] 表示第 i 个人的身高为 hi ,前面 正好 有 ki 个身高大于或等于 hi 的人。 请你重新…...
【C++11特性篇】C++11中新增的initializer_list——初始化的小利器
前言 大家好吖,欢迎来到 YY 滴C11系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! 目录 一.探究std::initializer_list是什么…...
springboot(ssm宠物美容机构CRM系统 宠物服务商城系统Java系统
springboot(ssm宠物美容机构CRM系统 客户关系管理系统Java系统 开发语言:Java 框架:ssm/springboot vue JDK版本:JDK1.8(或11) 服务器:tomcat 数据库:mysql 5.7(或8.0ÿ…...
LSTM 双向 Bi-LSTM
目录 一.Bi-LSTM介绍 二.Bi-LSTM结构 Bi-LSTM 代码实例 一.Bi-LSTM介绍 由于LSTM只能从序列里由前往后预测,为了既能够从前往后预测,也能从后往前预测,Bi-LSTM便被发明了出来。简单来说,BiLSTM就是由前向LSTM与后向LSTM组合而成。 二.Bi-LSTM结构 转自:...
2024测试开发面试题完整版本(附答案)
目录 1. 什么是软件测试, 谈谈你对软件测试的了解 2. 我看你简历上有写了解常见的开发模型和测试模型, 那你跟我讲一下敏捷模型 3. 我看你简历上还写了挺多开发技能的, 那你给我讲讲哈希表的实现流程 4. 谈一谈什么是线程安全问题, 如何解决 5. 既然你选择走测…...
MySQL作为服务端的配置过程与实际案例
MySQL是一款流行的关系型数据库管理系统,广泛应用于各种业务场景中。作为服务端,MySQL的配置过程对于数据库的性能、安全性和稳定性至关重要。本文将详细介绍MySQL作为服务端的配置过程,并通过一个实际案例进行举例说明。 一、MySQL服务端配…...
Appium 自动化自学篇 —— 初识Appium自动化!
Appium 简介 随着移动终端的普及,手机应用越来越多,也越来越重要。而作为测试 的我们也要与时俱进,努力学习手机 App 的相关测试,文章将介绍手机自动化测试框架 Appium 。 那究竟什么是 Appium 呢? 接下来我们一起来学习PythonS…...
Linux基本操作指令
哈喽小伙伴们,从这篇文章开始,在学习数据结构的同时,我们开启一个新的篇章——Linux操作系统的学习,这将会是又一个新的开始,希望小伙伴们能够认真细心,不要掉队哦。 目录 一.什么是Linux 二.为什么要学习…...
探索SD-WAN技术对传统制造业实现智能制造的作用
在智能制造背景下,传统制造业面临着日益增长的信息化建设需求。随着企业趋向数字化转型,构建稳定、高效的网络基础设施成为提升企业核心竞争力的重要一环。 制造业企业信息化建设中的组网需求: 第一,连接多地分支机构,…...
C++基础-this指针详解
本文详细讲解C++this指针 定义 this 是 C++ 中的一个关键字,一个特殊的指针,它指向当前对象地址(换句话说,其值为 &object),通过它可以访问当前对象的所有成员。 类定义好后我们就可以通过类来创建多个实例对象,每个对象都有各自的实例属性(实例变量),但是非内…...
如何一键生成多个文件二维码?批量文件二维码制作技巧
文件能批量生成二维码吗?现在的二维码用途范围越来越广,比如常见的有图文、文件、问卷、音频或者视频等内容生成二维码图片,扫码查看内容。那么当需要将很多的文件每个都单独生成一个二维码时,有没有比较简单快捷的操作方法吗&…...
SQL连续
SQL连续 1、连续概述2、SQL连续及应用2.1、静态连续2.2、动态连续1、连续概述 连续问题是实际数据开发中比较常见的场景。例如,统计用户连续活跃天数等 SQL如何解决连续问题?本文主要介绍连续性问题,重点以常见的连续活跃场景为例,抽象出通用的连续问题解决方案。连续问题…...
sql server导出与导入
解决:不同版本sql server复制表、导数据;把数据库的结构和全部数据从2016版导入到2014版。 分离数据为mdf,ldf后,导入过程中无权限、被占用问题。 文章目录 使用脚本(.sql文件)导出导入备注 使用mdf,mlf导…...
DevEco Studio 项目鸿蒙(HarmonyOS)资源引用(自定统和系统)
DevEco Studio 项目鸿蒙(HarmonyOS)资源引用(自定统和系统) 一、操作环境 操作系统: Windows 10 专业版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、资源访问 HarmonyOS应用资源分为两类,一类是应用资源&…...
什么是库存周转?如何用进销存系统提高库存周转率?
你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...
质量体系的重要
质量体系是为确保产品、服务或过程质量满足规定要求,由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面: 🏛️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限,形成层级清晰的管理网络…...
【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)
要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...
LLM基础1_语言模型如何处理文本
基于GitHub项目:https://github.com/datawhalechina/llms-from-scratch-cn 工具介绍 tiktoken:OpenAI开发的专业"分词器" torch:Facebook开发的强力计算引擎,相当于超级计算器 理解词嵌入:给词语画"…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码
目录 一、👨🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
提升移动端网页调试效率:WebDebugX 与常见工具组合实践
在日常移动端开发中,网页调试始终是一个高频但又极具挑战的环节。尤其在面对 iOS 与 Android 的混合技术栈、各种设备差异化行为时,开发者迫切需要一套高效、可靠且跨平台的调试方案。过去,我们或多或少使用过 Chrome DevTools、Remote Debug…...
【实施指南】Android客户端HTTPS双向认证实施指南
🔐 一、所需准备材料 证书文件(6类核心文件) 类型 格式 作用 Android端要求 CA根证书 .crt/.pem 验证服务器/客户端证书合法性 需预置到Android信任库 服务器证书 .crt 服务器身份证明 客户端需持有以验证服务器 客户端证书 .crt 客户端身份…...
