当前位置：首页 > news >正文

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

news 2026/2/9 10:49:28

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

flyfish

四个阶段

预训练（pre-training）
监督微调（supervised fine tuning, SFT）
奖励建模（reward modeling）
强化学习（reinforcement learning）

每个阶段又分为三个部分（从上到下）：数据集、算法和输出的模型。

翻译图，最后附上原图

在这里插入图片描述
GPT助手（GPT Assistant）的训练流程，分为四个主要阶段：预训练（Pretraining）、有监督微调（Supervised Finetuning）、奖励建模（Reward Modeling）和强化学习（Reinforcement Learning）。每个阶段的详细内容如下：
一. 预训练阶段（Pretraining Stage）

数据集（Dataset）：
原始互联网数据（Raw Internet Data） ：使用来自互联网的原始文本数据，数据量达到万亿级别的单词（tokens）。这些数据量巨大但质量较低，涵盖了各种类型的内容。
算法（Algorithm）：
语言建模（Language Modeling） ：模型通过预测文本序列中的下一个token来进行训练。这是标准的自回归语言模型训练方式。
模型（Model）：
基础模型（Base Model） ：经过预训练的基础语言模型，例如GPT、LLaMA、PaLM等模型，经过数月使用成千上万块GPU训练而成。这些模型可以独立部署并用于各种任务。
备注（Notes）：
使用了数千块GPU，耗费数月时间训练 。这些基础模型是诸如GPT、LLaMA、PaLM等。

二. 有监督微调阶段（Supervised Finetuning Stage）

数据集（Dataset）：
展示数据（Demonstrations）： 由人工编写的理想助手响应数据集，包含约10到10万个问题及其响应。这些数据量相对较少，但质量非常高。
算法（Algorithm）：
语言建模（Language Modeling） ：继续通过语言建模的方式，对模型进行微调，专注于学习这些高质量的问答对。
模型（Model）：
微调模型（SFT Model）： 在基础模型的基础上，通过有监督微调训练得到的模型，例如Vicuna-13B。这些模型可以用于更具体的任务并部署。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。例如Vicuna-13B模型，经过微调后可以部署。

三. 奖励建模阶段（Reward Modeling Stage）

数据集（Dataset）：
比较数据（Comparisons）： 使用由人工编写的10万到100万个回答的好坏对比数据。这些数据量虽然较少，但质量非常高，用于训练模型区分高质量和低质量的回答。
算法（Algorithm）：
二值分类（Binary Classification）： 训练奖励模型，预测根据用户偏好进行奖励的结果。该模型用来评估和指导模型生成更好的回答。
模型（Model）：
奖励模型（RM Model）： 通过二值分类训练得到的奖励模型，它不能独立部署，主要用于强化学习阶段的模型优化。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。此模型用于指导强化学习阶段的训练。

四. 强化学习阶段（Reinforcement Learning Stage）

数据集（Dataset）：
提示数据（Prompts）： 使用由人工编写的约1到10万个提示语句进行训练。数据量较少但质量很高，帮助模型在特定上下文中生成更优质的响应。
算法（Algorithm）：
强化学习（Reinforcement Learning）： 使用奖励模型指导生成token，通过生成使奖励最大化的token序列来优化模型的表现。
模型（Model）：
强化学习模型（RL Model）： 经过强化学习训练的最终模型，初始化自微调模型，并利用奖励模型进行优化。这些模型可以在实际应用中部署，如ChatGPT、Claude等。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。最终模型例如ChatGPT、Claude，可以进行部署和实际应用。

原图

在这里插入图片描述

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ） flyfish 四个阶段预训练（pre-training） 监督微调（supervised fine tuning, SFT） 奖励建模（reward modeling&#xff09…...

编程日记 2024/8/17 21:56:08

网络如何发送一个数据包

网络如何发送一个数据包网络消息发送就是点一点屏幕。骚瑞，这一点都不好笑。（小品就是我的本质惹） 之前我就是会被这个问题搞的不安宁。是怎么知道对方的IP地址的呢？怎么知道对方的MAC呢？世界上计算机有那么多&…...

编程日记 2024/8/17 21:53:46

// 自定义class类对象类型 class Article {public id: numberpublic title: stringpublic content: stringconstructor(id: number, title: string, content: string) {this.id idthis.title titlethis.content content} }// 子组件 Component struct ArticleComponent {Pro…...

编程日记 2024/8/17 21:52:45

SQL基础教程（八）SQL高级处理

※食用指南：文章内容为《SQL基础教程》系列学习笔记，该书对新手入门非常友好，循序渐进，浅显易懂，本人主要用来补全学习MySQL中未涉及的部分，便于刷题和做项目。官方电子书：《SQL基础教程》第2…...

编程日记 2024/8/17 21:51:44

[论文笔记] Data-Juicer: A One-Stop Data Processing System for Large Language Models

https://arxiv.org/pdf/2309.02033 GitHub - modelscope/data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for (multimodal) LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大模型提供更高质量、更丰富、更易”…...

编程日记 2024/8/17 21:50:42

期末速成复习资料——操作系统

体型：选择20判断10填空10*2简答4*5计算2*10 第一章在一个计算机系统中，通常都含有多种硬件和软件资源。归纳起来可将这些资源分为四类：处理机、存储器、I/O设备以及文件（数据和程序）。相应地，OS的主要功能…...

编程日记 2024/8/17 21:49:41

Android之Service与IntentService区别

目录 Service特点使用场景示例 IntentService特点使用场景示例区别总结线程管理：生命周期：使用场景：自动停止： 总结在Android开发中，Service是一个可以在后台执行长时间运行操作的组件。主要有两种类型的Service&…...

编程日记 2024/8/17 21:48:36

【MySQL】表的设计

系列文章目录第一章数据库基础第二章数据库基本操作第三章数据库约束文章目录系列文章目录前言一、表的设计二、表的关系总结前言在前文中，我们学会了基本的CRUD操作，对数据库中的数据进行约束以提高数据库的准确性。接下来介绍的表的设计就是…...

编程日记 2024/8/17 21:46:33

NC 用两个栈实现队列

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。描述用两个栈来实…...

编程日记 2024/8/17 21:44:31

用后端实现一个简单的登录模块2 前端页面

该模块能做到的功能： 1阶：输入账号和密码，输入正确即可返回登录成功的信息，反之则登录失败 2阶：有简单的前端页面，有登录成功和失败的弹窗，还有登录成功的主页面 3阶：前端页面的注…...

编程日记 2024/8/17 21:38:22

MySQL慢查询的查找语法

一、引言数据库查询快慢是影响项目性能的一大因素，对于数据库，我们除了要优化SQL，更重要的是得先找到需要优化的SQL语句。性能优化的思路首先需要使用慢查询功能，去获取所有查询时间比较长的SQL语句其次使用explain命令去查…...

编程日记 2024/8/17 21:37:20

SQL中的聚合方法与Pandas的对应关系

在SQL和Pandas中，聚合方法是用来对数据进行汇总统计的重要工具。下面是SQL中的各种聚合方法及其与Pandas中相应操作的对应关系： 1. COUNT SQL: COUNT(*) 返回表中的行数。COUNT(column) 返回指定列中非空值的数量。 Pandas: count() 方法用于计算非空值…...

编程日记 2024/8/17 21:33:14

计算机毕业设计选题推荐-计算中心高性能集群共享平台-Java/Python项目实战

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…...

编程日记 2024/8/17 21:32:13

仿RabbitMq实现简易消息队列基础篇（future操作实现异步线程池）

TOC 介绍 std::future 是C11标准库中的一个模板类，他表示一个异步操作的结果，当我们在多线程编程中使用异步任务时，std::future可以帮助我们在需要的时候，获取任务的执行结果，std::future 的一个重要特性是能…...

编程日记 2024/8/17 21:30:08

经典算法题总结：数组常用技巧（双指针，二分查找和位运算）篇

双指针在处理数组和链表相关问题时，双指针技巧是经常用到的，双指针技巧主要分为两类：左右指针和快慢指针。所谓左右指针，就是两个指针相向而行或者相背而行；而所谓快慢指针，就是两个指针同向而行&#xf…...

编程日记 2024/8/17 21:29:07

版本控制基础理论

一、本地版本控制在本地记录文件每次的更新，可以对每个版本做一个快照，或是记录补丁文件，适合个人使用，如RCS. 二、集中式版本控制（代表SVN） 所有的版本数据都保存在服务器上，协同开发者从…...

编程日记 2024/8/17 21:26:02

微分方程（Blanchard Differential Equations 4th）中文版Section1.4

1.4 NUMERICAL TECHNIQUE: EULER’S METHOD 上一节中讨论的斜率场的几何概念与近似微分方程解的基本数值方法密切相关。给定一个初值问题 d y d t = f ( t , y ) , y ( t 0 ) = y 0 , \frac{dy}{dt}=f(t,y), \quad y(t_0) = y_0, dtdy=f(t,y),y(t0)=y0, 我们可以通过首…...

编程日记 2024/8/17 21:25:01

求职Leetcode算法题（7）

1.搜索旋转排序数组这道题要求时间复杂度为o（log n），那么第一时间想到的就是二分法，二分法有个前提条件是在有序数组下，我们发现在这个数组中存在两部分是有序的，所以我们只需要对前半部分和后半部分分别…...

编程日记 2024/8/17 21:21:56

ActiveMQ、RabbitMQ、Kafka、RocketMQ在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略的区别

ActiveMQ、RabbitMQ、Kafka、RocketMQ这四种消息队列在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略等方面各有其特点和差异。以下是对这些方面的详细比较： 1. 事务性消息 ActiveMQ：支持事务性消息。ActiveMQ可以基于JMS&#xff08…...

编程日记 2024/8/17 21:19:53

HanLP分词的使用与注意事项

1 概述 HanLP是一个自然语言处理工具包，它提供的主要功能如下： 分词转化为拼音繁转简、简转繁提取关键词提取短语提取词语自动摘要依存文法分析下面将介绍其分词功能的使用。 2 依赖下面是依赖的jar包。 <dependency><groupId>com.ha…...

编程日记 2024/8/17 21:18:52

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/2/8 20:43:02

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用：作为微服务架构的网关，统一入口，处理所有外部请求。核心能力： 路由转发（基于路径、服务名等）过滤器（鉴权、限流、日志、Header 处理）支持负…...

编程新知 2025/11/28 2:51:33

Java如何权衡是使用无序的数组还是有序的数组

在 Java 中，选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南： ⚖️ 核心权衡维度维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...

编程新知 2025/8/3 11:17:37

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代，情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现，消费者对内容的“有感”程度，正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

编程新知 2026/2/2 1:48:09

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2026/2/1 22:23:58

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2026/1/28 3:43:20

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

九天毕昇深度学习平台 | 如何安装库？

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子： 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

编程新知 2026/1/31 2:13:57

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

四个阶段

翻译图，最后附上原图

原图

相关文章：

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

网络如何发送一个数据包

【Harmony OS 4.0】向上滑动加载案例

SQL基础教程（八）SQL高级处理

[论文笔记] Data-Juicer: A One-Stop Data Processing System for Large Language Models

期末速成复习资料——操作系统

Android之Service与IntentService区别

【MySQL】表的设计

NC 用两个栈实现队列

用后端实现一个简单的登录模块2 前端页面

MySQL慢查询的查找语法

SQL中的聚合方法与Pandas的对应关系

计算机毕业设计选题推荐-计算中心高性能集群共享平台-Java/Python项目实战

仿RabbitMq实现简易消息队列基础篇（future操作实现异步线程池）

经典算法题总结：数组常用技巧（双指针，二分查找和位运算）篇

版本控制基础理论

微分方程（Blanchard Differential Equations 4th）中文版Section1.4

求职Leetcode算法题（7）

ActiveMQ、RabbitMQ、Kafka、RocketMQ在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略的区别

HanLP分词的使用与注意事项

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

7.4.分块查找

java_网络服务相关_gateway_nacos_feign区别联系

Java如何权衡是使用无序的数组还是有序的数组

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

家政维修平台实战20：权限设计

【2025年】解决Burpsuite抓不到https包的问题

有限自动机到正规文法转换器v1.0

九天毕昇深度学习平台 | 如何安装库？

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案