翻译: 深入分析LLMs like ChatGPT 一

大家好,我想做这个视频已经有一段时间了。这是一个全面但面向普通观众的介绍,介绍像ChatGPT这样的大型语言模型。我希望通过这个视频让大家对这种工具的工作原理有一些概念性的理解。
首先,我们来谈谈你在这个文本框里输入内容并点击回车后背后的运作机制。我们应该输入什么?这些生成出来的词又是怎么回事?它是如何工作的?你到底是在和什么交流?

我们将从构建像ChatGPT这样的东西开始讲起,在这个过程中,我会提到一些这些工具在认知心理学方面的影响。
预训练数据(互联网)

预训练阶段是整个过程的第一步。预训练阶段的第一步是从互联网下载和处理数据。为了让大家对这个有个直观的感受,我推荐大家看看这个网址。有一家公司叫Hugging Face,他们收集、整理并创建了一个名为FineWeb的数据集。他们在这个博客文章里详细介绍了FineWeb数据集的构建过程。像OpenAI、Anthropic和Google等主要的LLM提供商内部也有类似的数据集。

我们试图从互联网上获取大量高质量的文本,这些文本来源公开可用,并且我们希望文档的种类非常丰富,因为我们希望模型能包含大量的知识。实现这个目标其实很复杂,需要多个步骤。比如FineWeb数据集最终大概是44TB的磁盘空间。虽然互联网非常大,但我们处理的是文本,并且经过了严格的筛选。

Common Crawl是一个从2007年开始就一直在抓取互联网的组织。截至2024年,他们索引了27亿个网页。他们有很多爬虫在互联网上抓取数据,从一些种子网页开始,顺着链接不断抓取并索引信息。Common Crawl的数据很原始,需要经过很多处理步骤,比如URL过滤,去除恶意网站、垃圾网站等;文本提取,把HTML代码转化为纯文本;语言过滤,比如FineWeb会用语言分类器筛选出英语占比超过65%的网页;还有去重和去除个人身份信息等操作。

标记化(Tokenization)
在把文本输入神经网络之前,我们需要决定如何表示这些文本并将其输入。我们的技术要求文本是一维符号序列,并且符号数量有限。我们先把文本转化为UTF - 8编码的原始比特,然后通过字节对编码算法等方式将文本转化为有限的符号序列。比如GPT - 4使用了大约10万个可能的符号。
神经网络的输入输出
我们把文本序列用标记器转化为标记序列后,就进入神经网络训练阶段。我们希望模型学习标记在序列中的统计关系。我们会从数据中选取一定长度的标记窗口,预测下一个标记。开始时神经网络是随机初始化的,我们会根据预测结果和真实标签调整网络参数,让正确答案的概率更高。
神经网络内部
神经网络的输入是变长标记序列,输出是对下一个标记的预测概率。这些参数就像DJ调音台上的旋钮,通过调整参数来优化模型的预测结果。现代神经网络有数十亿个参数,训练过程就是不断调整这些参数使其与训练数据的统计模式相匹配。
推理(Inference)
推理阶段是从模型中生成新数据。我们从一些起始标记开始,根据模型的概率分布采样下一个标记,不断重复这个过程。由于采样和随机性的存在,生成的结果具有一定的随机性,可能与训练数据不完全相同。
GPT - 2:训练和推理
GPT - 2是OpenAI发布的第二代Transformer神经网络,有16亿个参数,最大上下文长度为1242个标记,训练了约1000亿个标记。我曾尝试复现GPT - 2,训练成本在2019年估计约为40000美元,现在可以做得更好且成本更低。
Llama 3.1基础模型推理
我们还可以使用一些大科技公司训练好的模型。比如Llama 3,它是Meta发布的450亿参数模型,训练了15万亿个标记。Meta还发布了Instruct版本,使其成为一个助手模型。我们可以与基础模型交互,但它还不是完整的助手,只是一个标记自动补全工具,并且结果是随机的。虽然它能提供一些知识,但这些知识是模糊、概率性的,而且可能存在幻觉。不过,通过巧妙的提示设计,基础模型也可以在一些实际应用中发挥作用,比如构建翻译应用等。甚至可以通过特定的提示结构让基础模型扮演助手的角色。
最后,我们来回顾一下从预训练到后训练的过程。我们希望训练像ChatGPT这样的LLM助手,预训练阶段主要是获取互联网文档,将其分割成标记,然后用神经网络预测标记序列。
参考
https://www.youtube.com/live/7xTGNNLPyMI
相关文章:
翻译: 深入分析LLMs like ChatGPT 一
大家好,我想做这个视频已经有一段时间了。这是一个全面但面向普通观众的介绍,介绍像ChatGPT这样的大型语言模型。我希望通过这个视频让大家对这种工具的工作原理有一些概念性的理解。 首先,我们来谈谈你在这个文本框里输入内容并点击回车后背…...
springboot之HTML与图片生成
背景 后台需要根据字段动态生成HTML,并生成图片,发送邮件到给定邮箱 依赖 <!-- freemarker模板引擎--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-freemarker</artifa…...
数据结构(初阶)(三)----单链表
单链表 概念 概念:链表是⼀种物理存储结构上⾮连续、⾮顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。 结点 与顺序表不同的是,链表的结构类似于带车头的火车车厢,,链表的每个车厢都是独立…...
ChatGPT与DeepSeek:AI语言模型的巅峰对决
目录 引言 一、ChatGPT 与 DeepSeek 简介 (一)ChatGPT (二)DeepSeek 二、技术原理剖析 (一)ChatGPT 技术原理 (二)DeepSeek 技术原理 (三)技术原理对比…...
DaoCloud 亮相 2025 GDC丨开源赋能 AI 更多可能
2025 年 2 月 21 日至 23 日,上海徐汇西岸,2025 全球开发者先锋大会以 “模塑全球,无限可能” 的主题,围绕云计算、机器人、元宇宙等多元领域,探讨前沿技术创新、应用场景拓展和产业生态赋能,各类专业论坛、…...
人工智能之数学基础:线性代数中矩阵的运算
本文重点 矩阵的运算在解决线性方程组、描述线性变换等方面发挥着至关重要的作用。通过对矩阵进行各种运算,可以简化问题、揭示问题的本质特征。在实际应用中,我们可以利用矩阵运算来处理图像变换、数据分析、电路网络等问题。深入理解和掌握矩阵的运算,对于学习线性代数以…...
(上)基于机器学习的图像识别——遥感图像分类(LeNet-5;AlexNet;VGGNet;GoogLeNet;ResNet)
遥感图像识别: 专业词汇: kernel:卷积 目录 遥感图像分类 1.1 LeNet-5 视频来源: 任务:使用什么网络实现遥感图像的分类 LeNet-5结构: 遥感图像分类 1.2 AlexNet(冠军) 视频…...
数据集笔记:NUSMods API
1 介绍 NUSMods API 包含用于渲染 NUSMods 的数据。这些数据包括新加坡国立大学(NUS)提供的课程以及课程表的信息,还包括上课地点的详细信息。 可以使用并实验这些数据,它们是从教务处提供的官方 API 中提取的。 该 API 由静态的…...
HTML元素,标签到底指的哪块部分?单双标签何时使用?
1. 标签(Tag) vs 元素(Element) 标签(Tag) 标签是 HTML 中用于定义元素的符号,用尖括号 < > 包裹。例如 <img> 是标签。元素(Element) 元素是由 标签 内容…...
基于ai技术的视频生成工具
一、通用型AI视频生成工具 腾讯智影 特点:支持数字人播报、文字转视频,提供免费模板和素材库,登录即送5分钟免费时长,每日签到可兑换额外额度。 限制:免费版分辨率较低,部分高级功能需付费。 LunaAI.vid…...
【Java 后端】Restful API 接口
Restful API 接口 REST:Representational State Transfer,表现层(前端的视图页面和后端的控制层)资源状态转移。 一种软件架构的风格(格式) RESTful 是目前最流行的互联网软件架构,如果一个架…...
Matlab地图绘制教程第2期—水陆填充图
上一期分享了海岸线图的绘制方法: 本着由浅入深的理念,本期再来分享一下水陆填充图的绘制方法。 先来看一下成品效果: 特别提示:Matlab地图绘制教程系列,旨在降低大家使用Matlab进行地图类科研绘图的门槛,…...
企业知识库搭建:14款开源与免费系统选择
本文介绍了以下14 款知识库管理系统:1.Worktile;2.PingCode;3.石墨文档; 4. 语雀; 5. 有道云笔记; 6. Bitrix24; 7. Logseq等。 在如今的数字化时代,企业和团队面临着越来越多的信息…...
【Linux系统】—— 冯诺依曼体系结构与操作系统初理解
【Linux系统】—— 冯诺依曼体系结构与操作系统初理解 1 冯诺依曼体系结构1.1 基本概念理解1.2 CPU只和内存打交道1.3 为什么冯诺依曼是这种结构1.4 理解数据流动 2 操作系统2.1 什么是操作系统2.2 设计OS的目的2.3 操作系统小知识点2.4 如何理解"管理"2.5 系统调用和…...
Android内存优化指南:从数据结构到5R法则的全面策略
目录 一、APP 内存限制 二、内存的三大问题 2.1、内存抖动(Memory Churn) 2.1.1 频繁创建短生命周期对象 2.1.2 系统API或第三方库的不合理使用 2.1.3 Handler使用不当 2.2、内存泄漏(Memory Leak) 2.2.1 静态变量持有Activity或Context引用 2.2.2 未取消的回调或…...
机器学习:线性回归,梯度下降,多元线性回归
线性回归模型 (Linear Regression Model) 梯度下降算法 (Gradient Descent Algorithm) 的数学公式 多元线性回归(Multiple Linear Regression)...
Linux上用C++和GCC开发程序实现两个不同MySQL实例下单个Schema稳定高效的数据迁移到其它MySQL实例
设计一个在Linux上运行的GCC C程序,同时连接三个不同的MySQL实例,其中两个实例中分别有两个Schema的表结构分别与第三实例中两个Schema个结构完全相同,同时复制两个实例中两个Schema里的所有表的数据到第三个实例中两个Schema里,使…...
RabbitMQ系列(一)架构解析
RabbitMQ 架构解析 RabbitMQ 是一个基于 AMQP 协议的开源消息中间件,其核心架构通过多组件协作实现高效、可靠的消息传递。以下是其核心组件与协作流程的详细说明: 一、核心组件与功能 Broker(消息代理服务器) RabbitMQ 服务端核…...
XSL 语言:XML 样式表的语言基础与应用
XSL 语言:XML 样式表的语言基础与应用 引言 XSL(Extensible Stylesheet Language)是一种专门用于XML文档样式的语言,它允许用户定义XML文档的格式、布局和外观。XSL是XML技术家族中的重要组成部分,与XML和XPATH等语言共同构成了处理和格式化XML文档的强大工具集。本文将…...
【计算机网络】常见tcp/udp对应的应用层协议,端口
TCP 和 UDP 对应的常见应用层协议 📌 基于 TCP 的应用层协议 协议全称用途默认端口HTTPHyperText Transfer Protocol超文本传输协议80HTTPSHTTP Secure加密的超文本传输协议443FTPFile Transfer Protocol文件传输协议(20 传输数据,21 控制连…...
全球人形机器人革命浪潮涌动,特斯拉/微美全息聚焦AI具身量产应用新突破!
近日,特斯拉(TSLA.US)马斯克宣布开启人类历史上规模最大的芯片制造项目——TERAFAB,目标实现每年超过1太瓦的算力产出。该设施将整合芯片设计、光刻、制造等全流程,其生产的部分芯片未来将直接用于驱动特斯拉电动车以及人形机器人。人形机器人…...
Dress Code:突破性高分辨率虚拟试衣数据集的技术架构与实战应用
Dress Code:突破性高分辨率虚拟试衣数据集的技术架构与实战应用 【免费下载链接】dress-code 项目地址: https://gitcode.com/gh_mirrors/dre/dress-code Dress Code是由意大利摩德纳大学研究团队开发的高分辨率多类别虚拟试衣数据集,为计算机视…...
Qwen2.5-0.5B-Instruct实战:用Docker快速搭建个人专属AI聊天机器人
Qwen2.5-0.5B-Instruct实战:用Docker快速搭建个人专属AI聊天机器人 1. 引言 你是否想过拥有一个随时待命的AI助手?今天,我们将用最简单的方式,在10分钟内搭建一个属于你自己的智能聊天机器人。Qwen2.5-0.5B-Instruct是阿里开源的…...
Kazumi终极解析:如何用自定义规则引擎和实时超分辨率技术重塑动漫观看体验
Kazumi终极解析:如何用自定义规则引擎和实时超分辨率技术重塑动漫观看体验 【免费下载链接】Kazumi 基于自定义规则的番剧采集APP,支持流媒体在线观看,支持弹幕,支持实时超分辨率。 项目地址: https://gitcode.com/gh_mirrors/k…...
保姆级教程:用交大镜像源5分钟安装PyTorch 2.3.0(支持CUDA 12.6)
5分钟极速部署PyTorch 2.3.0开发环境(CUDA 12.6兼容方案) 深度学习开发环境配置一直是让开发者头疼的问题,尤其是当硬件驱动与框架版本不匹配时。最近在技术社区中,"Torch CUDA is not available"成为高频搜索词&#x…...
django让所有的静态文件都需要登录才能访问-----exoplayer设置cookie
禁止apache直接访问:设置:/etc/apache2/sites-available/000-default.conf<Directory "/var/www/html/music">Require all denied </Directory>def get_music(request,filename):file_path f"/var/www/html/music/{filename…...
插件语言转换解决方案:让Obsidian插件无缝支持中文界面
插件语言转换解决方案:让Obsidian插件无缝支持中文界面 【免费下载链接】obsidian-i18n 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-i18n obsidian-i18n(国际化缩写)是一款专为中文用户设计的Obsidian插件翻译工具&#…...
牧苏苏传.辣个男人 4/3
今天复习了求组合,这个题的特点是可以多次选择,这里是用到了回溯,然后使用的是回溯的选还是不选的模型,让然后我用了startindex记录位置,让不选了之后可以不再出现,这重要吗?如果是用for一直选&…...
仲景GPT:首个中医大语言模型如何革新传统医学诊疗?[特殊字符]
仲景GPT:首个中医大语言模型如何革新传统医学诊疗?🚀 【免费下载链接】CMLM-ZhongJing 首个中医大语言模型——“仲景”。受古代中医学巨匠张仲景深邃智慧启迪,专为传统中医领域打造的预训练大语言模型。 The first-ever Traditio…...
边缘计算与云原生的融合:从中心到边缘
边缘计算与云原生的融合:从中心到边缘 前言 作为一个在数据深渊里捞了十几年 Bug 的女码农,我深知边缘计算在现代应用中的重要性。随着物联网、5G 等技术的发展,边缘计算已经成为处理海量数据、降低延迟的关键技术。今天,我就来聊…...
