当前位置：首页 > news >正文

人工智能大模型之ChatGPT原理解析

news 2026/2/10 1:57:54

前言

近几个月ChatGPT爆火出圈，一路狂飙；它功能十分强大，不仅能回答各种各样的问题，还可以信写作，给程序找bug…
我经过一段时间的深度使用后，十分汗颜，"智障对话"体验相比，它是如此的丝滑流畅
作为一名技术人，情不自禁的对它的原理产生了十分浓厚的兴趣；于是花费了一些时间去研究其实现技术原理，在此与大家分享

ChatGPT基本信息&原理

ChatGPT基本信息

研发公司：OpenAI
创立年份：2015年
创立人：马斯克、Sam Altman及其他投资者
目标：造福全人类的AI技术
GPT(Generative Pre-trained Transformer):生成式预训练语言模型
GPT作用：问答，生成文章等
模型发展史
参数量(单位：亿)
预训练数据量(单位：GB)

原理解析

训练过程总览

在这里插入图片描述

训练过程详解

训练监督策略模型

作为技术人员都知道，一直有两个难题困扰我们：

让机器理解人类通用指令下的意图
生成内容是否是高质量

ChatGPT如何解难题？

数据集中随机抽取问题，由人类标注人员给出高质量答案，得到多轮对话的数据，然后用这些人工标注好的数据来微调 GPT模型；由于数据来源于网上海量数据，通过监督学习可以让模型生成出更加符合我们预期的答案

训练奖励模型（RM）

叠加效应：通过人工标注训练数据，来训练回报模型，从而使模型不断地自我迭代完善；
具体如下：
- 在上一步微调后，在数据集中随机抽取问题，使用第一阶段生成的模型，对于每个问题，生成多个不同的回答
- 人类标注者对输出结果从好到差排序
- 用这个排序结果数据来训练奖励模型
- RM模型接受一个输入，给出评价回答质量的分数，从而使ChatGPT从命令驱动转向意图驱动，引导ChatGPT输出符合人类预期的内容。

强化学习来优化策略(PPO)

使用PPO强化模型优化奖励模型
具体步骤如下：
- 利用上段训练好的奖励模型，靠奖励打分来更新预训练模型参数
- 在数据集中随机抽取问题，使用PPO模型生成回答，并用上一阶段训练好的RM模型给出质量分数
- 将回报分数依次传递，从而产生策略梯度，通过强化学习的方式来更新PPO模型参数
- 不断迭代，从而训练出更高质量的模型

编程日记 2023/3/28 16:07:52

傅里叶谱方法-傅里叶谱方法的原理、快速傅里叶变换及其Matlab程序实现

第 3 章傅里叶谱方法本章介绍的求解偏微分方程（组）的方法都包含着周期性边界条件, 尽管周期性边界条件不属于数学物理方法中常见的传统三类边界条件, 但它并不脱离实际。某些科学问题的研究重点不受边界的影响, 如孤子之间的相互作用 (非线性薛定谔方程或 K d V \mathrm{…...

编程日记 2023/3/28 16:02:51

11万字数字政府智慧政务大数据建设平台（大数据底座、数据治理）

本资料来源公开网络，仅供个人学习，请勿商用，如有侵权请联系删除。部分资料内容： 一.1.1 数据采集子系统数据采集需要实现对全区各委办单位的数据采集功能，包括离线采集、准实时采集和实时采集的采集方式，根…...

编程日记 2023/3/28 15:57:49

Node.js学习笔记——Node.js模块化

一、介绍 1.1.什么是模块化与模板？ 将一个复杂的程序文件依据一定规则（规范）拆分成多个文件的过程称之为模块化。其中拆分出的每个文件就是一个模块，模块的内部数据是私有的，不过模块可以暴露内部数据以便其他模块…...

编程日记 2023/3/28 15:52:48

【洛谷刷题】蓝桥杯专题突破-广度优先搜索-bfs（12）

目录写在前面： 题目：P1746 离开中山路 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题目描述： 输入格式： 输出格式： 输入样例： 输出样例： 解题思路： 代码： …...

编程日记 2023/3/28 15:47:45

【数据结构】堆（堆的实现堆向下调整算法堆的创建堆的插入堆的删除堆的代码实现堆的应用）

文章目录堆的实现堆向下调整算法堆的创建堆的插入堆的删除堆的代码实现堆的应用堆的实现堆是属于操作系统进程地址空间内存区域的划分。我们下面实现数据结构中的堆。堆是一个完全二叉树：分为小根堆和大根堆。小根堆：任何一个节点的值都<孩子的…...

编程日记 2023/3/28 15:42:44

JDBC数据库驱动的下载与安装与连接

目录 JDBC数据库驱动下载 Intellij IDEA安装JDBC驱动在使用 JDBC 之前，需要下载相应的 JDBC 驱动程序，该驱动程序应该与你使用的数据库的版本相对应。可以在数据库官网上找到相应的 JDBC 驱动程序。 JDBC数据库驱动下载点击官方链接 MySQL :: MySQ…...

编程日记 2023/3/28 15:37:42

如何更改 PDF 背景颜色？

PDF 是用于简洁演示的文件格式，许多员工都参考它来演示文件。如果您想要 PDF 文本的最佳对比度方案，我们建议您更改PDF 背景颜色。您甚至可以更改 PDF 颜色的文本，但它不会有太大吸引力，而是尝试使用 PDF 背景更改器应用程序。如果…...

编程日记 2023/3/28 15:32:41

room数据库使用以及增加表的使用

依赖 "androidx.room:room-runtime:2.2.6" "androidx.room:room-compiler:2.2.6" 1.实体类实体类需要保存到数据库的新类用Entity注解表示 tableName是数据库中表的名字，my_advert可以根据自己需要自定义 PrimaryKey，NonNull主键…...

编程日记 2023/3/28 15:27:38

目录 1.802.11 标准简介 2.802.11 协议格式 2.1管理帧协议格式 2.1.1(Beacon (信标) 帧) 2.1.2(Probe Request (探测请求) 帧) 2.1.3(Probe Response (探测响应) 帧) 2.1.4(ATIM 帧) 2.1.5(Disassociation (解除关联) 与 Deauthentication (解除认证) 帧) 2.1.6(Assoc…...

编程日记 2023/3/28 15:22:35

基于ZYNQ+linux+xenomai 的多轴运动控制平台关键技术研发-测试系统搭建(四）

本章搭建实验测试平台，对多轴运动控制平台的硬件功能和系统任务通信功能进行测试。通过测试结果，进行平台硬件设计正确性验证和系统实时处理与同步控制的功能与性能验证。 5.1 测试平台搭建多轴运动控制系统的测试平台搭建如图 5.1 所示。测试平台由安…...

编程日记 2023/3/28 15:17:33

初识操作系统

目录 1.操作系统是什么 2.为什么要有操作系统 3.操作系统的相关关系 1.驱动程序 2.系统调用接口 3.用户调用接口 4.用户程序 4.用具体的例子理解操作系统 1.操作系统是什么 （1）操作系统是一组管理计算机硬件与软件资源的计算机软件程序。 （…...

编程日记 2023/3/28 15:12:31

#详细介绍！！！线程池

本篇详细： 1.介绍了什么是线程池 2.使用线程池有什么好处 3.线程池的工作流程 4.线程池的各个参数介绍 5.如何编写Java代码来创建线程池 6.使用线程池的注意事项目录一：什么是线程池二：为什么使用线程池来管理线程三：线程池…...

编程日记 2023/3/28 15:07:30

【嵌入式Linux学习笔记】基于Linux官方库的标准外设驱动

对于标准的外设如LED，KEY，PWM等，以及标准通信协议，Linux都自带有标准的驱动库，不需要我们自行编写，只需要配置好相应的GPIO属性和电气属性，即可匹配相应的驱动，在应用程序中直接使用…...

编程日记 2023/3/28 15:02:26

网络爬虫抓包工具

📚介绍：Charles是著名的抓包工具🐂，可以抓取移动端与pc端网络访问🕷的所有数据。我们将使用它抓取我们与小程序交互的所有信息。🎇我们可以百度搜索Charles官网下载适用于自己系统的Charles安装包&#x1f…...

编程日记 2023/3/28 14:57:25

$10^5$

蓝桥杯倒计时 | 倒计时17天

作者🕵️‍♂️：让机器理解语言か专栏🎇：蓝桥杯倒计时冲刺描述🎨：蓝桥杯冲刺阶段，一定要沉住气，一步一个脚印，胜利就在前方！ 寄语💓&#xff1a…...

编程日记 2023/3/28 14:52:23

【Spring Cloud Alibaba】7.Sentinel熔断器仪表盘监控

文章目录简介什么是 Sentinel控制台获取源码方式下载jar包方式启动访问服务配置项目，启用Sentinel完整配置测试简介接下来我们通过Sentinel控制台来实现对服务消费者提供的熔断机制进行监控和控制，本操作先要完成之前的步骤，详情请参照【Sp…...

编程日记 2023/3/28 14:47:21

个人博客系统项目测试报告

项目背景介绍背景：当在学习一项技能的时候，我们总会习惯通过博客来记录所学的知识点，方便后期遗忘时随时查看和快速复习。本次开发的Web网站程序便是为了更加轻量和方便地记录自己的学习笔记概述：一个Web网站程序，…...

编程日记 2023/3/28 14:42:18

flutter安装自用笔记

参照文章： 开发环境搭建 Flutter环境配置步骤： 1.系统配置要求 2.Java环境 3.Flutter SDK 4.Android 开发环境一、系统配置要求操作系统：Windows 7 SP1 或更高的版本（基于 x86-64 的 64 位操作系统） 磁盘空间&…...

编程日记 2023/4/25 18:49:21

tomcat线程池以及在SpringBoot中的启动过程

tomcat两大组件：连接器Connector，容器Container tomcat线程池 Tomcat线程池扩展了ThreadPoolExecutor，行为稍有不同重写了ThreadPoolExecutor的execute方法如果总线程数达到maximumPoolSize，不会立刻抛RejectedExecutionExcept…...

编程日记 2023/3/28 14:32:14

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2026/2/8 6:37:39

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

大家好，欢迎来到《云原生核心技术》系列的第七篇！ 在上一篇，我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在，我们就像一个拥有了一块崭新数字土地的农场主，是时…...

编程新知 2025/12/14 22:32:59

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2026/1/22 15:36:10