当前位置：首页 > news >正文

一文入门生成式AI（理解ChatGPT的原理）

news 2026/2/9 6:23:52

一、什么是生成式AI？

以ChatGPT为代表的生成式AI，是对已有的数据和知识进行向量化的归纳，总结出数据的联合概率。从而在生成内容时，根据用户需求，结合关联字词的概率，生成新的内容。

可以这么联想，ChatGPT就是一个词语接龙的机器，他会根据你给出的关键词，自动生成关键词的下一个最有可能衔接的词语。比如你说，“世界上最高的山”，ChatGPT就会回答“喜马拉雅山”。

二、怎么得到一个大模型？

大模型需要：算力、数据/存力、算法这三大要素。

算力：即需要GPU、NPU这些硬件进行训练。

数据/存力：生成式AI需要处理和存储大量的数据。以GPT-3为例，光是训练参数就达到了1750亿个，训练数据达到45TB，每天会产生45亿字内容。

算法：生成式AI的主要算法是深度学习。从仿生学的角度，人类希望AI能够模仿人脑的运行机制，对知识进行思考推理——这就是通常所说的深度学习。

三、算法

为了实现深度学习，学者们提出了大量的神经网络架构：

先看三个经典的：

深度神经网络（DNN）是最普遍的神经网络架构，但是随着数据对于网路架构的要求越来越复杂，这种方法逐渐有些吃力。
卷积神经网络（CNN）是一种专门为处理图像数据而设计的神经网络架构，能够有效地处理图像数据，但是需要对输入数据进行复杂的预处理。
循环神经网络（RNN）架构成为处理序列数据的常用方法。

（1）Transformer架构

由于RNN在处理长序列时容易遇到梯度消失和模型退化问题，著名的Transformer算法被提出。

Transformer架构：是目前文本生成领域的主流架构，GPT、llama等LLM（大语言模型）都是基于Transformer实现了卓越的性能。

Transformer架构：主要由输入部分（输入输出嵌入与位置编码）、多层编码器、多层解码器以及输出部分（输出线性层与Softmax）四大部分组成。

（1）输入部分：
源文本嵌入层：将源文本中的词汇数字表示转换为向量表示，捕捉词汇间的关系。
位置编码器：为输入序列的每个位置生成位置向量，以便模型能够理解序列中的位置信息。
目标文本嵌入层（在解码器中使用）：将目标文本中的词汇数字表示转换为向量表示。
（2）编码器部分：
由N个编码器层堆叠而成。
每个编码器层由两个子层连接结构组成：第一个子层是一个多头自注意力子层，第二个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。
（3）解码器部分：
由N个解码器层堆叠而成。
每个解码器层由三个子层连接结构组成：第一个子层是一个带掩码的多头自注意力子层，第二个子层是一个多头注意力子层（编码器到解码器），第三个子层是一个前馈全连接子层。每个子层后都接有一个规范化层和一个残差连接。
（4）输出部分：
线性层：将解码器输出的向量转换为最终的输出维度。
Softmax层：将线性层的输出转换为概率分布，以便进行最终的预测。

（2）训练

目前有两种训练方式：预训练和SFT（有监督微调）

预训练：是指将一个大型、通用的数据集作为知识喂给AI进行初步学习。经过预训练的模型叫作“基础模型”，它对每个领域都有所了解，但是无法成为某个领域的专家。
SFT（有监督微调）：SFT是指在预训练之后，将一个特定任务的数据集喂给AI，进一步训练模型。例如，在已经预训练的语言模型基础上，用专门的医学文本来微调模型，使其更擅长处理医学相关的问答或文本生成任务。

四、Transformer里的编码解码到底是什么？

语义的最小单位，是TOKEN，可以翻译成“词元”，它是语言类模型中用数字来表示单词的最小语义单位。

比如下图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元，其中[CLS][SEP]为一句话的起始与结束符号（CLS：classification 告知系统这是句子级别的分类的开始、SEP：separator 告知系统结束本句或分割下一句），然后再通过 Embedding 的方式转化为向量。

比如猴子和香蕉，这两个语义关系紧密。原子能和香蕉，差距就比较远。

Transformer中，编码器和解码器中的“码”指的是什么？

以下是ChatGPT-4o-mini给出的答案：

编码器中的“码”

输入表示：编码器接收输入序列（如文本），并将其转换成一个高维的向量表示。这些向量捕捉了输入序列中单词之间的关系和上下文信息。
特征提取：编码器通过多层自注意力机制和前馈神经网络提取特征，使得每个输入的表示包含了其在上下文中的重要性。

解码器中的“码”

生成输出：解码器使用编码器生成的表示以及之前生成的单词，逐步生成目标序列（如翻译后的文本）。这里的“码”指的是解码器对已生成内容的处理和对未来内容的预测。
上下文结合：解码器同样使用自注意力机制来考虑已生成的单词与当前生成位置的关系。

总结来说，“码”在这里代表了对输入和输出数据的数学表示方式，帮助模型理解和生成语言。

总的来说，编码器负责理解和处理输入，而解码器则负责生成输出，二者协同工作以实现有效的序列转换。

参考：

https://baijiahao.baidu.com/s?id=1801561545647449293&wfr=spider&for=pc

一文入门生成式AI（理解ChatGPT的原理）

一、什么是生成式AI？ 以ChatGPT为代表的生成式AI，是对已有的数据和知识进行向量化的归纳，总结出数据的联合概率。从而在生成内容时，根据用户需求，结合关联字词的概率，生成新的内容。可以这么联想&#x…...

编程日记 2024/9/22 21:19:48

C# 中Faker

在 C# 中，Faker 类通常用于生成模拟数据（也称为虚拟数据、测试数据），这对于开发、测试以及演示应用程序非常有用。一个流行的库叫做 Faker，它提供了一种简单的方式来生成各种随机数据。安装 Faker 库要使用 Faker …...

编程日记 2024/9/22 21:17:47

数据权限的设计与实现系列9——前端筛选器组件Everright-filter集成框架开发2

功能实现 ‍ 规则转换为 SQL 片段‍ 规则解析首先我们来构造一个典型的规则，包括两个条件组，每个组由两个条件组成，由且与或两种逻辑关系，如下图： 然后看看生成的规则，如下： {"filt…...

编程日记 2024/9/22 21:15:45

鸿蒙Harmony-Next 徒手撸一个日历控件

本文将介绍如何使用鸿蒙Harmony-Next框架实现一个自定义的日历控件。我们将创建一个名为CalendarView的组件（注意,这里不能叫 Calendar因为系统的日历叫这个）,它具有以下功能: 显示当前月份的日历支持选择日期显示农历日期可以切换上一月和下一月组件…...

编程日记 2024/9/22 21:14:43

直播音频解决方案

音频解决方案公司具体解决的是什么样的问题？什么样的客户需要找音频方案公司？相信还是有很多人不是很了解。音频解决方案公司工作就像是为音频设备“量身定制衣服”，帮助客户解决各种音频相关的问题。无论你是音响制造商、会议设备商、耳机品…...

编程日记 2024/9/22 21:11:40

Git基本用法总结

设置全局用户名 git config --global user.name xxx #设置全局用户名设置全局邮箱地址 git config --global user.email xxxxxx.com #设置全局邮箱地址查看所有的 Git 配置，包括用户信息 git config --list #查看所有的 Git 配置，包括用户信…...

编程日记 2024/9/22 21:10:39

SQLite的入门级项目学习记录（四）

性能评估和测试规划项目 1、框架选择：前端交互和线程控制用pyside，SQLite作为数据库支持。 2、预估数据量：每秒10个数据，每个月约26000000（26M）条。 3、压力测试：首先用python脚本创建一个数据…...

编程日记 2024/9/22 21:09:38

Docker工作目录迁移

文章目录前言一、迁移步骤1.停掉docker服务2.创建存储目录3.迁移docker数据4.备份5.添加软链接6.重启docker服务，测试总结前言安装docker，默认的情况容器的默认存储路径会存储系统盘的 /var/lib/docker 目录下，系统盘一般默认 50G&#…...

编程日记 2024/9/22 21:07:35

【多维动态规划】64. 最小路径和（面试真题+面试官调整后的题目）

64. 最小路径和难度：中等力扣地址：https://leetcode.cn/problems/minimum-path-sum/description/ 1. 原题以及解法 1.1 题目给定一个包含非负整数的 m x n 网格 grid ，请找出一条从左上角到右下角的路径，使得路径上的数字总和…...

编程日记 2024/9/22 21:04:31

Web后端开发技术：RESTful 架构详解

RESTful 是一种基于 REST（表述性状态转移，Representational State Transfer）架构风格的 API 设计方式，通常用于构建分布式系统，特别是在 Web 应用开发中广泛应用。REST 是一种轻量级的架构模式，利用标准的 …...

编程日记 2024/9/22 21:00:28

【Fastapi】参数获取，json和query

【Fastapi】参数获取，json和query 前言giteegithub query形式json传递同步方法使用json 前言花了半个月的时间看了一本小说，懈怠了…今天更新下fastapi框架的参数获取 gitee https://gitee.com/zz1521145346/fastapi_frame.git github https://git…...

编程日记 2024/9/22 20:59:27

【Node.js】初识微服务

概述 Node.js 的微服务架构是一种通过将应用程序分解为独立的、松耦合的小服务的方式进行系统设计。每个微服务负责处理一个特定的业务功能，并且这些服务可以独立开发、部署、扩展和管理，并且可以通讯。它的核心思想就是解耦。微服务和微前端是类…...

编程日记 2024/9/22 20:57:24

React项目实战(React后台管理系统、TypeScript+React18)

### 项目地址:(线上发布) (1)别人的项目地址 gitgitee.com:zqingle/lege-react-management.git (2)我自己的项目地址 gitgitee.com:huihui-999/lege-react-management.git ### B站讲解视频地址 https://www.bilibili.com/video/BV1FV4y157Zx?p37&spm_id_frompageDrive…...

编程日记 2024/9/22 20:54:16

【专题】2024中国生物医药出海现状与趋势蓝皮书报告合集PDF分享（附原数据表）

原文链接：https://tecdat.cn/?p37719 出海已成为中国医药产业实现提速扩容的重要途径。目前，中国医药产业发展态势良好，创新能力不断增强，然而也面临着医保政策改革和带量集采带来的压力。政府积极出台多项政策支持医药企业出海…...

编程日记 2024/9/22 20:53:15

【iOS】KVC

文章目录 KVC的定义容器类中KVC的实现 KVC设值 KVC取值 KVC使用KeyPath KVC处理异常 KVC处理设值nil异常 KVC处理UndefinedKey异常 KVC处理数值和结构体类型属性 KVC键值验证 KVC处理集合简单集合运算符对象运算符 KVC处理字典 KVC应用动态地取值和设值用…...

编程日记 2024/9/22 20:48:08

【2024年华为杯研究生数学建模竞赛C题】完整论文与代码

这里写目录标题基于数据驱动下磁性元件的磁芯损耗建模一、问题重述1.1问题背景1.2问题回顾问题分析与模型假设模型建立与求解基于数据驱动下磁性元件的磁芯损耗建模一、问题重述 1.1问题背景在现代电力电子和变压器设计中，磁性元件是确保能量高效传递和系统稳…...

编程日记 2024/9/22 20:46:05

svn回退到以前历史版本修改并上传

svn回退到以前版本，并在以前版本上修改代码后，上传到svn库当中，如下步骤： 3、以回退到版本号4为例：选中版本号4，右键->Revert to this version,在出现的对话框中点击yes！ 4、 5、...

编程日记 2024/9/22 20:45:03

fiddler抓包07_抓IOS手机请求

课程大纲前提：电脑和手机连接同一个局域网 （土小帽电脑和手机都连了自己的无线网“tuxiaomao”。） 原理如下： 电脑浏览器抓包时，直接就是本机网络。手机想被电脑Fiddler抓包，就要把Fiddler变成手机和网络…...

编程日记 2024/9/22 20:43:01

Windows系统及Ubuntu系统安装Java

Java语言简介 Java是一种高级编程语言，Java语言的创始可以追溯到1990年代初，当时任职于Sun Microsystems（后来被甲骨文公司收购）的詹姆斯高斯林（James Gosling）等人开始开发一种名为“Oak”(名字来源于詹姆…...

编程日记 2024/9/22 20:40:58

uni-data-select 使用 localdata 传入数据出现不回显 | 下拉显示错误的解决方法

目录 1. 问题所示2. 正确Demo3. 下拉显示错误（Bug复现）4. 下拉不回显（Bug复现）1. 问题所示 uni-app的下拉框uni-data-select 使用 localdata 传入数据主要总结正确的Demo以及复现一些Bug 数据不回显数据不显示下拉选项2. 正确Demo 详细的基本知识推荐阅读：uni-app中的…...

编程日记 2024/9/22 20:38:56

【杂谈】-递归进化：人工智能的自我改进与监管挑战

递归进化：人工智能的自我改进与监管挑战文章目录递归进化：人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管？3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

编程新知 2025/12/9 0:22:01

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2026/1/29 3:00:56

让AI看见世界：MCP协议与服务器的工作原理

让AI看见世界：MCP协议与服务器的工作原理 MCP（Model Context Protocol）是一种创新的通信协议，旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天，MCP正成为连接AI与现实世界的重要桥梁。…...

编程新知 2026/1/31 11:13:53

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

JVM暂停（Stop-The-World，STW）的完整原因分类及对应排查方案，结合JVM运行机制和常见故障场景整理而成：一、GC相关暂停 1. 安全点（Safepoint）阻塞现象：JVM暂停但无GC日志，日志显示No GCs detected。原因：JVM等待所有线程进入安全点（如…...

编程新知 2026/2/7 11:25:15

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

目录一、👋🏻前言二、😈sinx波动的基本原理三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理四、🌊波动优化…...

编程新知 2026/2/6 22:55:12

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中，损失函数的选择对模型性能具有决定性影响。均方误差（MSE）作为经典的损失函数，在处理干净数据时表现优异，但在面对包含异常值的噪声数据时，其对大误差的二次惩罚机制往往导致模型参数…...

编程新知 2026/1/28 2:18:46

嵌入式学习笔记DAY33（网络编程——TCP）

一、网络架构 C/S （client/server 客户端/服务器）：由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序，负责提供用户界面和交互逻辑 ，接收用户输入，向服务器发送请求，并展示服务…...

编程新知 2026/2/7 11:00:30

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机

这个博客介绍了如何通过 settings.json 文件添加一个无人机外的固定位置监控相机，因为在使用过程中发现 Airsim 对外部监控相机的描述模糊，而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置，最后在源码示例中找到了，所以感…...

编程新知 2026/2/5 18:58:39

Redis：现代应用开发的高效内存数据存储利器

一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发，其初衷是为了满足他自己的一个项目需求，即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源，Redis凭借其简单易用、…...

编程新知 2025/11/15 1:41:43