当前位置：首页 > news >正文

GPT 模型介绍 | GPT3 / GPT3.5 + Flask | Github源码链接

news 2026/2/10 10:44:25

1. 模型介绍

Chatgpt 使用与 InstructGPT相同的方法，使用来自人类反馈的强化学习 (RLHF) 来训练该模型，但数据收集设置略有不同。我们使用监督微调训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方——用户和 AI 助手。我们让培训师可以访问模型编写的建议，以帮助他们撰写回复。我们将这个新的对话数据集与 InstructGPT 数据集混合，我们将其转换为对话格式。

为了创建强化学习的奖励模型，我们需要收集比较数据，其中包含两个或多个按质量排序的模型响应。为了收集这些数据，我们收集了 AI 培训师与聊天机器人的对话。我们随机选择了一条模型编写的消息，抽取了几个备选的完成方式，并让 AI 培训师对它们进行排名。使用这些奖励模型，我们可以使用近端策略优化来微调模型。模型可以学习用自然语言表达对其自身答案的不确定性——无需使用模型逻辑。当给出问题时，模型会生成答案和置信度（例如“90% 置信度”或“高置信度”）。这些级别映射到经过良好校准的概率。该模型还在分布变化下保持适度校准，并且对自身答案的不确定性敏感，而不是模仿人类的例子。

2. 模型结构

ChatGPT的基本模型结构：

输入嵌入层（Input Embedding Layer）：
输入嵌入层将文本序列中的每个单词转换成一个高维向量。这些向量的维度通常是几百维，其中每个维度代表单词的一个特定特征。ChatGPT使用预训练的词嵌入向量作为输入，这些向量基于大规模的文本语料库训练得到。
多层Transformer编码器（Multi-layer Transformer Encoder）：
在编码器中，模型将输入序列的嵌入向量通过一系列的自注意力（Self-Attention）和前馈神经网络（Feed-Forward Neural Networks）进行非线性变换。自注意力机制使模型能够自适应地学习输入序列中不同单词之间的依赖关系。在这个过程中，模型将输入序列的嵌入向量逐层传递到下一个编码器层，每层中向量的维度都会被扩大，以提取更多的语义信息。
多层Transformer解码器（Multi-layer Transformer Decoder）：
在解码器中，模型将编码器的输出和上下文信息（如聊天对话历史）通过一系列的自注意力和前馈神经网络进行非线性变换，生成下一个文本序列。在生成期间，模型会根据之前生成的所有单词和输入序列的信息，预测下一个单词的概率分布，并将概率最高的单词作为下一个单词输出。生成的单词向量也会被传递到下一层，每层中向量的维度都会被缩小，以逐渐将生成的序列转换成更高层次的语义表示。
头部层（Head Layer）：
在模型的顶部，可以添加不同的头部层，以使模型适用于不同的自然语言处理任务。例如，对于聊天机器人任务，可以添加一个生成头部层，将模型的输出作为自然语言回复。对于文本分类任务，可以添加一个分类头部层，将模型的输出作为文本分类的概率分布。头部层通常是由全连接层（Fully Connected Layer）和softmax函数组成，以将模型的输出转换成相应的目标格式。

在训练期间，ChatGPT模型使用自回归的方式，即从左到右逐个生成文本。每个时间步生成的单词基于之前生成的所有单词和输入序列的信息。而在生成期间，ChatGPT模型使用了自注意力机制，能够在不同的上下文中自适应地学习语言模型。

3. Openai API + Flask Github 源代码

GPT 3 + Flask (text-davinci-003 API):
https://github.com/redemptionwxy/GPT3-API-Flask-Python_Chat_Website

GPT 3.5 + Flask (gpt-3.5-turbo API ):
https://github.com/redemptionwxy/ChatGPT-API-Flask-Website

GPT 模型介绍 | GPT3 / GPT3.5 + Flask | Github源码链接

1. 模型介绍

2. 模型结构

3. Openai API + Flask Github 源代码

相关文章：

GPT 模型介绍 | GPT3 / GPT3.5 + Flask | Github源码链接

蓝桥杯入门即劝退（二十六）组合问题（回溯算法）

现代卷积神经网络（ResNet）

PTA：L1-019 谁先倒、L1-020 帅到没朋友、L1-021 重要的话说三遍（C++）

STL常见容器之set/multiset、map/multimap

ThreadLocal 实现原理

BUUCTF [羊城杯 2020]easyre 题解

网络协议(十二)：HTTPS（SSL/TLS、TLS1.2的连接）

九九乘法表--课后程序(Python程序开发案例教程-黑马程序员编著-第3章-课后作业)

在超算上安装文件树命令tree

论文投稿指南——中文核心期刊推荐（经济管理）

在vue中如果computed属性是一个异步操作怎么办？

SRP合批问题

蓝牙5.1低功耗SOC 私有协议2.4GHz芯片HS6621

数据库连接池

Arrays-sort-的用法

华为OD机试真题Java实现【寻找相同子串】真题+解题思路+代码（20222023）

性能指标确定性能目标性能场景设计

ENVI_Classic：快速入门_菜单栏常见功能的基本介绍

【深度探讨】公共部门在选择区块链平台时要考虑的6个方面

springboot 百货中心供应链管理系统小程序

CTF show Web 红包题第六弹

（十）学生端搭建

LeetCode - 199. 二叉树的右视图

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

CSS | transition 和 transform的用处和区别

算法打卡第18天

阿里云Ubuntu 22.04 64位搭建Flask流程（亲测）

快速排序算法改进:随机快排-荷兰国旗划分详解

二维FDTD算法仿真