当前位置：首页 > news >正文

【人工智能】第四部分：ChatGPT的技术实现

news 2026/4/3 10:31:53

🌈个人主页：人不走空

💖系列专栏：算法专题

⏰诗词歌赋：斯是陋室，惟吾德馨

🌈个人主页：人不走空

💖系列专栏：算法专题

⏰诗词歌赋：斯是陋室，惟吾德馨

4.1 算法与架构

4.1.1 Transformer解码器

4.1.2 自注意力机制的实现

4.1.3 多头注意力机制的实现

4.2 训练方法

4.2.1 预训练

4.2.2 微调

4.3 优化技巧

4.3.1 学习率调度

4.3.2 梯度裁剪

4.3.3 混合精度训练

4.4 模型评估

作者其他作品：

4.1 算法与架构

ChatGPT的核心技术基于Transformer架构，尤其是其解码器部分。为了更深入地理解其技术实现，我们需要详细了解以下几个关键组件和步骤：

4.1.1 Transformer解码器

Transformer解码器由多个解码器层组成，每个层包括以下主要组件：

自注意力机制（Self-Attention Mechanism）：用于捕捉输入序列中各个单词之间的关系。
前馈神经网络（Feedforward Neural Network）：对每个位置的表示进行非线性变换。
残差连接（Residual Connection）和层归一化（Layer Normalization）：提高训练的稳定性和速度。

每个解码器层的输出将作为下一层的输入，经过多次堆叠，模型可以捕捉到复杂的语言模式和上下文信息。

4.1.2 自注意力机制的实现

自注意力机制的实现涉及三个步骤：生成查询、键和值向量，计算注意力权重，并加权求和值。

import torch
import torch.nn.functional as F# 输入矩阵 X，形状为 (batch_size, seq_length, d_model)
X = torch.rand(2, 10, 512)  # 例如，batch_size=2, seq_length=10, d_model=512# 生成查询、键和值向量
W_Q = torch.rand(512, 64)
W_K = torch.rand(512, 64)
W_V = torch.rand(512, 64)Q = torch.matmul(X, W_Q)
K = torch.matmul(X, W_K)
V = torch.matmul(X, W_V)# 计算注意力权重
d_k = Q.size(-1)
scores = torch.matmul(Q, K.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
attention_weights = F.softmax(scores, dim=-1)# 计算加权和
attention_output = torch.matmul(attention_weights, V)

这个简单的实现展示了自注意力机制的核心步骤。多头注意力机制可以通过将查询、键和值向量分割成多个头并分别计算注意力来实现。

4.1.3 多头注意力机制的实现

多头注意力机制将输入向量分成多个子空间，并在每个子空间内独立计算注意力。

# 生成多头查询、键和值向量
num_heads = 8
d_k = 64 // num_heads  # 假设每个头的维度相同Q_heads = Q.view(2, 10, num_heads, d_k).transpose(1, 2)
K_heads = K.view(2, 10, num_heads, d_k).transpose(1, 2)
V_heads = V.view(2, 10, num_heads, d_k).transpose(1, 2)# 分别计算每个头的注意力
attention_heads = []
for i in range(num_heads):scores = torch.matmul(Q_heads[:, i], K_heads[:, i].transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))attention_weights = F.softmax(scores, dim=-1)head_output = torch.matmul(attention_weights, V_heads[:, i])attention_heads.append(head_output)# 将多头注意力的输出拼接并线性变换
multi_head_output = torch.cat(attention_heads, dim=-1)
W_O = torch.rand(512, 512)
output = torch.matmul(multi_head_output.transpose(1, 2).contiguous().view(2, 10, -1), W_O)

4.2 训练方法

ChatGPT的训练方法分为预训练和微调两个阶段。下面详细介绍这两个阶段。

4.2.1 预训练

预训练阶段，模型在大规模的无监督文本数据上进行训练。训练的目标是预测给定上下文条件下的下一个单词。预训练采用自回归（Autoregressive）方法，即每次预测一个单词，然后将其作为输入用于下一次预测。

预训练过程通常使用交叉熵损失函数：

# 伪代码示例
for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batch  # inputs 和 targets 是输入序列和目标序列optimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()optimizer.step()

4.2.2 微调

微调阶段，模型在特定任务或领域的数据上进一步训练。微调可以通过监督学习和强化学习两种方式进行。

监督学习微调：使用带标注的数据进行训练，优化特定任务的性能。例如，在对话生成任务中，使用对话数据对模型进行微调。
强化学习微调：通过与环境的交互，优化特定的奖励函数。强化学习微调通常使用策略梯度方法，例如Proximal Policy Optimization (PPO)。

# 伪代码示例
for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)rewards = compute_rewards(outputs, targets)loss = -torch.mean(torch.sum(torch.log(outputs) * rewards, dim=1))loss.backward()optimizer.step()

4.3 优化技巧

为了提高ChatGPT的性能和效率，通常会采用一些优化技巧：

4.3.1 学习率调度

学习率调度器（Learning Rate Scheduler）可以根据训练进度动态调整学习率，从而提高模型的收敛速度和性能。

from torch.optim.lr_scheduler import StepLRoptimizer = torch.optim.Adam(model.parameters(), lr=0.001)
scheduler = StepLR(optimizer, step_size=10, gamma=0.1)for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()optimizer.step()scheduler.step()

4.3.2 梯度裁剪

梯度裁剪（Gradient Clipping）用于防止梯度爆炸，尤其是在训练深层神经网络时。

for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))loss.backward()torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)optimizer.step()

4.3.3 混合精度训练

混合精度训练（Mixed Precision Training）使用半精度浮点数进行计算，可以显著减少计算资源和内存使用，同时保持模型性能。

from torch.cuda.amp import GradScaler, autocastscaler = GradScaler()for epoch in range(num_epochs):for batch in data_loader:inputs, targets = batchoptimizer.zero_grad()with autocast():outputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()

4.4 模型评估

在训练和微调过程中，对模型进行评估是确保其性能和质量的关键步骤。常用的评估指标包括困惑度（Perplexity）、准确率（Accuracy）、BLEU分数（BLEU Score）等。

# 伪代码示例
model.eval()
total_loss = 0.0with torch.no_grad():for batch in eval_data_loader:inputs, targets = batchoutputs = model(inputs)loss = F.cross_entropy(outputs.view(-1, vocab_size), targets.view(-1))total_loss += loss.item()perplexity = torch.exp(torch.tensor(total_loss / len(eval_data_loader)))
print(f"Perplexity: {perplexity}")

下一部分将探讨ChatGPT在不同应用场景中的实际案例和未来发展方向。

作者其他作品：

【Java】Spring循环依赖：原因与解决方法

OpenAI Sora来了，视频生成领域的GPT-4时代来了

[Java·算法·简单] LeetCode 14. 最长公共前缀详细解读

【Java】深入理解Java中的static关键字

[Java·算法·简单] LeetCode 28. 找出字a符串中第一个匹配项的下标详细解读

了解 Java 中的 AtomicInteger 类

算法题 — 整数转二进制，查找其中1的数量

深入理解MySQL事务特性：保证数据完整性与一致性

Java企业应用软件系统架构演变史

【人工智能】第四部分：ChatGPT的技术实现

人不走空 🌈个人主页：人不走空 💖系列专栏：算法专题 ⏰诗词歌赋：斯是陋室，惟吾德馨目录 🌈个人主页：人不走空 💖系列专栏：算法专题 ⏰诗词歌…...

编程日记 2024/6/4 18:33:47

小程序配置自定义tabBar及异形tabBar配置操作

什么是tabBar？ 小程序的tabbar是指小程序底部的一组固定导航按钮，通常包含2-5个按钮，用于快速切换小程序的不同页面。每个按钮都有一个图标和文本标签，点击按钮可以切换到对应的页面。tabbar通常放置在小程序的底部，以…...

编程日记 2024/6/4 18:32:46

解析《动物园规则怪谈》【逻辑】

鉴赏《动物园规则怪谈》【逻辑】前言版权推荐鉴赏《动物园规则怪谈》推理游客正方“它”方其他物品不同规则或纸条的对比联系出现的地方及联系游客入园历程：被“它”污染的过程鉴赏升华最后前言 2024-5-31 13:05:38 以下内容源自《【逻辑】》仅供学习交流使用…...

编程日记 2024/6/4 18:31:45

上传RKP 证书签名请求息上传到 Google 的后端服务器

上传证书签名请求 1.准备环境：OK pip3 install google-auth2.13.0 requests2.28下载 device_info_uploader.py 。没找到先跳过选项 1：通过 GCP 帐户使用 device_info_uploader.py 运行脚本。 ./device_info_uploader.py --credentials /secure/s…...

编程日记 2024/6/4 18:29:43

Debian和ubuntu 嵌入式的系统的区别

随着开源操作系统的日益流行，Debian和Ubuntu这两个基于Linux的发行版本成为了众多开发者和系统管理员的首选。它们各自拥有独特的优势和特点，那么，在选择时，哪一个更适合你呢？接下来，我们将深入探讨两者的关…...

编程日记 2024/6/4 18:26:39

HTML旋转照片盒子

效果图 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv"X-UA-Compatible" content…...

编程日记 2024/6/4 18:25:38

【UE5 刺客信条动态地面复刻】实现无界地面01：动态生成

2024.6.4更新昨天半夜意识到生成Cube的方案不合适，又开始到处找动态地面的方法，发现了我想要的效果直接可以用nigara实现！！！！ 于是这个部分就暂时告一段落，今季开始新的方向的学习。为了快速…...

编程日记 2024/6/4 18:24:37

AI产品经理系列-如何使用kimi快速撰写用户故事(含提示词)

在AI时代，可能人人都可成为产品经理。之前我们聊过如何使用kimi协助完成产品需求文档，如何写竞品分析报告，这一篇我们聊聊用户故事，如何使用kimi协助撰写产品需求文档中的用户故事。在此之前我们先了解下什么是用户故事&#…...

编程日记 2024/6/4 18:23:36

MySQL索引与事务

前言👀~ 紧接着数据库的相关知识，今天讲解MySQL面试中频繁被问到的知识点，索引与事务!!! 如果各位对文章的内容感兴趣的话，请点点小赞，关注一手不迷路，如果内容有什么问题的话，欢迎各位评论纠正…...

编程日记 2024/6/4 18:21:29

『大模型笔记』从基础原理出发提升深度学习性能

从基础原理出发提升深度学习性能文章目录一. 从基础原理出发提升深度学习性能1.1. 计算（compute）1.2. 带宽（Bandwidth）1.2.1 关于内存带宽成本的推理(Reasoning about Memory-Bandwidth Costs)1.3. 开销（Overhead）二. 总结三. 参考文献Making Deep Learning Go Brrrr F…...

编程日记 2024/6/4 18:19:27

【二叉树】Leetcode 222. 完全二叉树的节点个数【简单】

完全二叉树的节点个数你一棵完全二叉树的根节点 root ，求出该树的节点个数。完全二叉树的定义如下：在完全二叉树中，除了最底层节点可能没填满外，其余每层节点数都达到最大值，并且最下面一层的节点都集中在该层最…...

编程日记 2024/6/4 18:18:26

golang界面设计器，全网少见

今天登录govcl的网站，无意中看到有个简易UI设计器。对于golang的UI专用设计器，还没在网上真正见过。之前也用govcl来做过两三个桌面应用，好用是好用，不过要安装Lazarus的IDE来拖动设计UI，还要配置很多东西&#xff0…...

编程日记 2024/6/4 18:17:25

如何在GlobalMapper中加载高清卫星影像？

GlobalMapper在GIS行业几乎无人不知，无人不晓，但它可以直接加载卫星影像也许就不是每个人都知道的了。这里就来分享一下如何在GlobalMapper中加载高清卫星影像，并可以在文末查看领取软件安装包和图源的方法。如何加载高清图源首先&…...

编程日记 2024/6/4 18:16:23

【机器学习】解锁AI密码：神经网络算法详解与前沿探索

👀传送门👀 🔍引言🍀神经网络的基本原理🚀神经网络的结构📕神经网络的训练过程🚆神经网络的应用实例💖未来发展趋势💖结语 🔍引言随着人工智能技术的飞速发…...

编程日记 2024/6/4 18:15:23

Java如何实现pdf转base64以及怎么反转？

问题需求今天在做发送邮件功能的时候，发现邮件的附件部分，比如pdf文档，要求先把pdf转为base64，邮件才会发送。那接下来就先看看Java 如何把 pdf文档转为base64。两种方式，一种是通过插件 jar 包的方式引入&#xf…...

编程日记 2024/6/4 18:08:16

动态规划5：62. 不同路径

动态规划解题步骤： 1.确定状态表示：dp[i]是什么 2.确定状态转移方程：dp[i]等于什么 3.初始化：确保状态转移方程不越界 4.确定填表顺序：根据状态转移方程即可确定填表顺序 5.确定返回值题目链接：62. …...

编程日记 2024/6/4 18:07:13

Python编程学习第一篇——Python零基础快速入门（五）-列表（List）

今天我们来一起学习Python的列表（list），Python中的列表（List）是一种有序、可变的数据结构，可以用来存储多个值。列表可以包含不同类型的数据，例如整数、浮点数、字符串等。以下是关于Python列表…...

编程日记 2024/6/4 18:06:12

c# - 运算符＜＜不能应用于 long 和 long 类型的操作数

Compiler Error CS0019 c# - 运算符 << 不能应用于 long 和 long 类型的操作数处理方法特此记录 anlog 2024年5月30日...

编程日记 2024/6/4 18:03:09

问题排查｜记录一次基于mymuduo库开发的服务器错误排查(回响服务器无法正常工作)

问题背景： 服务器程序如下： #include <mymuduo/TcpServer.h> #include <mymuduo/Logger.h>#include <string> #include <functional>class EchoServer { public:EchoServer(EventLoop *loop,const InetAddress &addr, con…...

编程日记 2024/6/4 18:01:06

中介模式实现聊天室

中介者模式的核心逻辑就是解耦对象‘多对多’的相互依赖关系。当遇到一大堆混乱的对象呈现“网状结构”，利用通过中介者模式解耦对象之间的通讯。代码案例抽象中介类 public abstract class AbstractChatRoom {public abstract void notice(String message , Us…...

编程日记 2024/6/4 18:00:05

良心推荐！阿贝云免费云服务器，新手小白也能轻松上手

最近在折腾个人网站，想找个免费的云服务器练练手，试了好几家都不太满意。后来朋友推荐了阿贝云，体验下来感觉真的不错。首先，阿贝云的免费云服务器配置很实在：1核CPU、1GB内存、5M带宽，还带独立公网IP。对…...

编程新知 2026/4/3 9:30:42

盟接之桥®：当新ERP撞上“紧急接入”，WebEDI如何成为制造业的“救命稻草”？

在制造业的数字化征途中，最令人焦虑的场景之一莫过于：“下游客户（如汽车主机厂）明天就要看EDI对接数据，而你们的全新ERP系统，还在测试环境里试运行。”这绝非危言耸听。在汽车供应链、高端装备制造等领域&a…...

编程新知 2026/4/3 9:10:02

别再用PS硬P了！用Python+OpenCV实现泊松融合，5分钟搞定图片无缝拼接

告别PS繁琐操作：5行Python代码实现专业级图片融合每次在Photoshop里手动调整图层蒙版、反复擦除边缘时，你是否想过——数字图像处理应该更智能？2023年，我们完全可以用代码自动化完成这些重复劳动。本文将带你用PythonOpenCV实现泊…...

编程新知 2026/4/3 6:37:39

Qwen3-ForcedAligner-0.6B在ASR质检中的应用：快速验证时间戳准确性

Qwen3-ForcedAligner-0.6B在ASR质检中的应用：快速验证时间戳准确性 1. 引言：ASR质检中的时间戳痛点在语音识别(ASR)系统的实际应用中，时间戳准确性常常是被忽视却至关重要的指标。想象这样一个场景：你开发了一个会议记录系统&a…...

编程新知 2026/4/3 5:38:36

OpenClaw多模型对比：Phi-3-mini-128k-instruct与Qwen在自动化任务中的表现

OpenClaw多模型对比：Phi-3-mini-128k-instruct与Qwen在自动化任务中的表现 1. 测试背景与实验设计去年夏天，当我第一次尝试用OpenClaw自动化处理日常办公任务时，最困扰我的问题就是模型选择。不同的模型在理解能力、响应速度和资源消耗上差…...

编程新知 2026/4/3 5:30:27

《AI 小游戏开发（5）｜零基础复刻经典贪吃蛇！AI 生成完整代码，支持难度切换》

目录一、本课目标二、需要准备的工具三、超详细操作步骤（分两步：生成基础代码 → 添加难度切换）第一步：生成基础贪吃蛇游戏（AI 一键生成） 1. 给 AI 的详细提示词（复制完整） 2. 复制 AI 生成的基础代码 3. 保存并运行基础游戏第二步：给游戏添加难度切换功…...

编程新知 2026/4/3 5:02:05

use-context-selector 与 Suspense 集成：实现数据加载的优雅处理

use-context-selector 与 Suspense 集成：实现数据加载的优雅处理【免费下载链接】use-context-selector React useContextSelector hook in userland 项目地址: https://gitcode.com/gh_mirrors/us/use-context-selector 在 React 18 的并发渲染时代&#x…...

编程新知 2026/4/3 4:19:27

golang.org/x/net WebSocket开发完全手册：实现实时双向通信

golang.org/x/net WebSocket开发完全手册：实现实时双向通信【免费下载链接】net [mirror] Go supplementary network libraries 项目地址: https://gitcode.com/gh_mirrors/ne/net 在现代Web应用开发中，实时双向通信已成为提升用户体验的关键技术…...

编程新知 2026/4/3 3:49:03

Java协议解析性能天花板在哪？IEEE论文级基准测试对比：Jackson vs FlatBuffers vs Kaitai Struct vs 自研Parser（附可复现压测代码仓库）

第一章：Java协议解析性能天花板在哪？IEEE论文级基准测试对比：Jackson vs FlatBuffers vs Kaitai Struct vs 自研Parser（附可复现压测代码仓库）协议解析性能瓶颈往往隐匿于内存布局、序列化语义与JVM运行时特性的交界处…...

编程新知 2026/4/3 3:37:00

2026 年4月深圳高精度 TOF 传感器，这些推荐值得关注！

随着科技的飞速发展，高精度TOF（Time of Flight）传感器在众多领域的应用越来越广泛。从智能家居到自动驾驶，从工业自动化到医疗成像，TOF传感器的市场需求呈现出爆发式增长。今天，我们就来聊聊2026年值得关注…...

编程新知 2026/4/3 3:30:59

🌈个人主页：人不走空

💖系列专栏：算法专题

⏰诗词歌赋：斯是陋室，惟吾德馨

4.1 算法与架构

4.1.1 Transformer解码器

4.1.2 自注意力机制的实现

4.1.3 多头注意力机制的实现

4.2 训练方法

4.2.1 预训练

4.2.2 微调

4.3 优化技巧

4.3.1 学习率调度

4.3.2 梯度裁剪

4.3.3 混合精度训练

4.4 模型评估

作者其他作品：

相关文章：