当前位置：首页 > news >正文

论文阅读——InstructGPT

news 2026/2/11 4:19:28

论文：Training_language_models_to_follow_instructions_with_human_feedback.pdf (openai.com)

github：GitHub - openai/following-instructions-human-feedback

将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如，大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。换句话说，这些模型与其用户不一致（models are not aligned with their users）。这是因为许多大语言模型的目标是从互联网上预测网页上的下一个token——与“帮助和安全地遵循用户的指示”的目标不同。

这既包括明确的意图，如遵循指示，也包括隐含的意图，例如保持真实，不带偏见、有毒或其他有害因素。

语言模型应该是helpful，honest，harmless，有帮助、诚实、无害的。

一、方法：

收集一个人工手写的提交到openai的prompts和一些人工写的prompts的理想行为的数据集，并使用这些数据集有监督训练基线模型；然后收集人类对openai的API在一个更大prompts输出结果比较的数据集，使用这些数据集训练一个奖励模型来预测标注者会喜欢模型的哪一个输出。最后使用这个奖励模型作为奖励函数并微调基线模型，使用PPO算法来最大化奖励。如下图：

step1：收集示范数据，并用来做监督策略

有一写输入提示分布，标注人员为这些提示提供模型理想输出。然后在使用监督学习在预训练GPT3上微调。

step2：收集比较数据，并训练奖励模型

对于模型输出，标注人员对这些输出做比较，标出最喜欢的输出，然后训练奖励（RM）模型来预测人类偏好的输出。

step3：使用PPO针对奖励模型优化策略

使用RM的输出作为奖励，使用PPO算法对监督策略进行微调，以优化该奖励策略。

二、数据集：

prompt dataset：提示数据集主要由提交给OpenAI API的文本提示组成，也有标注者自己写的。

InstructGPT模型最早版本的提示是标注者自己写的，这是因为我们需要一个类似指令的提示的初始来源来引导进程，而这些类型的提示并不经常提交给API上的常规GPT-3模型。

早期自己写的提示有三类：

1、Plain 简单：任意的任务，同时确保任务具有足够的多样性

2、Few-shot：给出一条指令，以及该指令的多个查询/响应对

3、User-based：在OpenAI API的等待列表应用程序中声明了许多用例。我们要求标注人员给出与这些用例相对应的提示。

从这些提示（提交给OpenAI API的文本提示和标注者自己写的）产生三个微调阶段的数据集：SFT(Supervised fine-tuning) dataset（约13K提示，从API和手写获得），RM dataset（约33K提示，从API和手写获得），PPO dataset（约31K提示，只从API获得）。

提示分布和例子说明如下表：

三、任务：

1、显示的任务（如：“写一个关于聪明的青蛙的故事”）；

2、隐式任务（如：给两个青蛙的故事，提示模型写一个新的故事）；

3、续写（如：提供一个故事的开头）

四、模型：

1、Supervised fine-tuning (SFT)：

根据RM分数选择最终模型

2、Reward modeling (RM)：

把SFT模型最终unembedding层去掉。把提示和响应作为输入，输出奖励值。使用6B RMs。RM训练时将比较作为标签，对4-9个输出进行比较，产生 $\binom{k}{2}$ 个比较，将每个提示的 $\binom{k}{2}$ 个比较作为一个训练批次，既不过拟合也能减少计算量（直接将所有比较打乱一起训练会导致过拟合）。

损失函数：

最后对奖励模型使用一个偏差归一化，以使得标注者示范例子在做RL前的平均分数是0。

3、Reinforcement learning (RL)

使用PPO算法优化SFT模型。

PPO：为每个token添加来自SFT模型的KL惩罚来缓和RM模型的过度优化，值函数从RM模型初始化。

PPO-ptx：将预训练模型梯度混合进PPO梯度

损失函数：

五、评价：

helpful, honest, and harmless.

论文阅读——InstructGPT

论文：Training_language_models_to_follow_instructions_with_human_feedback.pdf (openai.com) github：GitHub - openai/following-instructions-human-feedback 将语言模型做得更大并不能从本质上使它们更好地遵循用户的意图。例如，大型语…...

编程日记 2023/10/30 4:30:23

【表面缺陷检测】铝型材表面缺陷检测数据集介绍（含xml标签文件）

一、铝型材介绍铝型材是一种由铝合金材料制成的，具有固定截面形状和尺寸的条形建材。由于其优良的物理性能和广泛的应用领域，铝型材在现代工业和生活中发挥着重要的作用。 1、铝型材的分类根据截面形状的不同，铝型材可分为角铝、槽铝、工…...

编程日记 2023/10/30 4:29:22

我的学习：从本科到研究生的认识与实践经验总结

学习实践经历 18年上大学以后，因为对计算机的喜爱和对未知编程技术的好奇和探索，选择了从零开始学习程序设计，经过实践，选择了转专业到计算机科学与技术，开始了我的计算机学习之路。 19年因为想要拓宽自己的专业能力…...

编程日记 2023/10/30 4:27:19

云游长江大桥，3DCAT实时云渲染助力打造沉浸化数字文旅平台

南京长江大桥是中国第一座自主设计建造的双层公路铁路桥，也是世界上最早的双层公路铁路桥之一。它不仅是一座桥梁，更是一座历史文化的见证者和传承者。它见证了中国人民的智慧和奋斗，承载了中国社会的变迁和发展。如何让这座不可移动的文物…...

编程日记 2023/10/30 4:26:18

【音视频|PCM】PCM格式详解

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

编程日记 2023/10/30 4:25:16

行为型模式-行为型模式

在模板模式中，一个抽象类公开定义了执行它的方法的方式/模板。它的子类可以按需要重写方法实现，但调用将以抽象类中定义的方式进行。这种类型的设计模式属于行为型模式。意图：定义一个操作中的算法的骨架，而将一些步骤延迟到子类…...

编程日记 2023/10/30 4:24:15

openpnp - Warning - Unknown firmware

文章目录 openpnp - Warning - Unknown firmware概述笔记https://github.com/openpnp/openpnp/wiki/Motion-Controller-Firmwares备注END openpnp - Warning - Unknown firmware 概述接上飞达控制板后, 显示未知固件的警告开始没看源码之前, 总以为是回答的版本号不合适, …...

编程日记 2023/10/30 4:23:12

Android 中如何使用 App Links

1. 简介什么是 App Links呢？App Links 是 Android 6.0 (API 级别23) 引入的新功能，它是基于 DeepLinking，允许应用自动处理网站的 URL，而无需提示用户启动相应的应用。例如：如果你在手机浏览器中输入了某个网站&am…...

编程日记 2023/10/30 4:22:11

7 款好用的 PDF 密码删除工具

这是最佳 PDF 密码删除工具列表。该列表包括免费和付费软件。将要在线完成的所有事情都需要密码才能感到安全。数据传输也是如此。大多数数据是通过文件传输的，PDF有自己的标志。PDF是一种灵活的文件格式，因此也可以专业使用。有多种PDF 编辑器软件&am…...

编程日记 2023/10/30 4:21:09

你一般什么时候会用到GPT?

GPT（Generative Pre-trained Transformer）是一种自然语言处理技术，它在各种领域和场景中都有广泛的应用。下面将详细介绍一些常见的情况，人们在这些情况下通常会使用GPT： 自然语言生成： GPT可以用于生成文本…...

编程日记 2023/10/30 4:20:09

YUV编码格式解析

YUV 颜色编码 YUV 颜色编码采用的是明亮度和色度来指定像素的颜色。其中，Y 表示明亮度（Luminance、Luma），而 U 和 V 表示色度（Chrominance、Chroma）。而色度又定义了颜色的两个方面：色…...

编程日记 2023/10/30 4:19:07

mysql-面试50题-5

一、查询数据 ymysql-面试50题-2-CSDN博客二、问题 41.按照出生日期来算，当前月日 < 出生年月的月日则，年龄减一 mysql> select student.SId as 学生编号,student.Sname as 学生姓名, -> TIMESTAMPDIFF(YEAR,student.Sage,CURDATE(…...

编程日记 2023/10/30 4:17:03

微服务初始和Nacos安装

一)初始微服务: 微服务是将一个大型的，单一的应用程序拆分成多个小型服务，每一个服务负责于特定的业务功能，并且可以通过网络来和其他服务进行通讯，是一个思想，将一个大的项目拆分成多个小的项目，多个小的项…...

编程日记 2023/10/30 4:16:01

YouTube博主数据信息资源

YouTube博主数据信息资源 🔥我是一位拥有10年编程经验的程序猿，为你带来一个全新的优质资源 🔍您是否在寻找最新、最活跃的YouTube博主数据，以助力你的项目、营销或研究？ 我们的数据，您的优势：…...

编程日记 2023/10/30 4:12:58

算法通过村第十七关-贪心|黄金笔记|跳跃游戏

文章目录前言跳跃游戏最短跳跃游戏总结前言提示：曾走过山，走过水，其实只是借助他们走过我的生命；我看着天，看着地，其实只是借助它们确定我的位置；我爱这她，爱着你，其实…...

编程日记 2023/10/30 4:10:55

【精选】VMware部署ESXI6.5 vCenter Server详解

VMware部署ESXI6.5 vCenter Server 一、ESXi主机介绍1、虚拟机的好处2、为什么要使用虚拟机二、虚拟化服务器概述1、VSphere物理架构2、体系架构3、VMware vSphere 组件三、ESXi安装环境1、安装步骤2、使用VMware新建ESXi主机3、初始环境安装四、创建虚拟机五、安装部署VMwa…...

编程日记 2023/10/30 4:09:53

如何借助数据集更好的评估NLP模型的性能？

随着信息时代的迅猛发展，每天有无数文本、声音、图片和视频不断涌入互联网。如何从海量数据中提炼有意义信息成为学术界和工业界迫切需要解决的问题。在此背景下，自然语言处理（NLP）应运而生，成为人工智能领域最为活跃的…...

编程日记 2023/10/30 4:08:52

2023年腾讯云服务器地域节点选择指南（亲自整理）

腾讯云轻量应用服务器地域是指轻量服务器数据中心所在的地理位置，如上海、广州和北京等地域，如何选择地域？腾讯云百科txybk.com建议地域选择遵循就近原则，用户距离轻量服务器地域越近，网络延迟越低，速度就越…...

编程日记 2023/10/30 4:07:44

华媒舍：日韩媒体发稿推广中8个关键因素帮助你实现突破

在当今经济全球化的时代背景下，日韩地域媒体影响力日益提高。对于需要在这一地区开展发稿推广的人来讲，掌握适度的思路和流程是十分重要的。下面我们就为大家介绍8个关键因素，以帮助你在日韩地域媒体发稿推广中实现突破。 1.科学研究行业在逐…...

编程日记 2023/10/30 4:06:43

Docker数据卷

目录 1.bind mount 2.docker managed volume 1.bind mount docker run -it --rm -v /tmp/data1:/data1 -v /tmp/data2:/data2:ro -v /etc/passwd:/mnt/passwd:ro busybox 2.docker managed volume docker run -d --name web1 webserver:v3 docker inspect web1 cd/var/lib/doc…...

编程日记 2023/10/30 4:03:39

论文阅读——InstructGPT

相关文章：

论文阅读——InstructGPT

【表面缺陷检测】铝型材表面缺陷检测数据集介绍（含xml标签文件）

我的学习：从本科到研究生的认识与实践经验总结

云游长江大桥，3DCAT实时云渲染助力打造沉浸化数字文旅平台

【音视频|PCM】PCM格式详解

行为型模式-行为型模式

openpnp - Warning - Unknown firmware

Android 中如何使用 App Links

7 款好用的 PDF 密码删除工具

你一般什么时候会用到GPT?

YUV编码格式解析

mysql-面试50题-5

微服务初始和Nacos安装

YouTube博主数据信息资源

算法通过村第十七关-贪心|黄金笔记|跳跃游戏

【精选】VMware部署ESXI6.5 vCenter Server详解

如何借助数据集更好的评估NLP模型的性能？

2023年腾讯云服务器地域节点选择指南（亲自整理）

华媒舍：日韩媒体发稿推广中8个关键因素帮助你实现突破

Docker数据卷

大型活动交通拥堵治理的视觉算法应用

Leetcode 3577. Count the Number of Computer Unlocking Permutations

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

AspectJ 在 Android 中的完整使用指南

Linux离线（zip方式）安装docker

C++.OpenGL （20/64）混合（Blending）

9-Oracle 23 ai Vector Search 特性知识准备

Vue 3 + WebSocket 实战：公司通知实时推送功能详解

leetcode_69.x的平方根