Build a Large Language Model (From Scratch) 序章
关于本书
《从零构建大型语言模型》旨在帮助读者全面理解并从头创建类似GPT的大型语言模型(LLMs)。
全书首先聚焦于文本数据处理的基础知识和注意力机制的编码,随后指导读者逐步实现一个完整的GPT模型。书中还涵盖了预训练机制以及针对文本分类和指令遵循等特定任务的微调方法。
通过阅读本书,读者将深入理解LLM的工作原理,并掌握构建自有模型的技能。尽管书中创建的模型规模小于大型基础模型,但它们使用相同的核心概念,是掌握构建尖端LLM所需核心机制和技术的有力教学工具。
适合读者
本书适合希望深入理解LLM工作原理并从头学习构建模型的机器学习爱好者、工程师、研究人员、学生和从业者。无论是初学者还是有经验的开发人员,都能利用现有技能和知识掌握创建LLM的相关概念和技术。
本书的独特之处在于全面覆盖了构建LLM的整个过程,从数据集处理到模型架构实现、无标签数据预训练以及特定任务微调。截至成书时,尚无其他资源提供如此完整且实操性强的从零构建LLM的方法。
阅读要求
理解本书中的代码示例需要扎实的Python编程基础。
虽然熟悉机器学习、深度学习和人工智能会有所助益,但并非必需。LLM是人工智能的一个独特子集,即使是该领域的新手也能轻松跟随学习。
如果读者具备深度神经网络相关经验,可能会对某些概念更易理解,因为LLM基于这些架构构建。不过,本书不要求精通PyTorch,附录A提供了PyTorch的简明介绍,帮助读者掌握理解全书代码示例所需的技能。
具备高中水平的数学知识(尤其是向量和矩阵运算)将有助于理解LLM的内部工作原理,但掌握书中的关键概念和思想无需高等数学知识。
最重要的前提是扎实的Python编程基础。有了这一基础,读者将做好充分准备,探索LLM的迷人世界,并理解书中呈现的概念和代码示例。
本书结构:路线图
本书建议按顺序阅读,每章均基于前一章介绍的概念和技术展开。全书分为七章,涵盖LLM的核心要点及其实现。
- 第1章 概述LLM的基本概念,探讨作为ChatGPT等LLM基础的Transformer架构。
- 第2章 规划从头构建LLM的流程,包括LLM训练的文本准备(如将文本拆分为单词和子词标记、使用字节对编码进行高级分词、滑动窗口采样训练示例,以及将标记转换为输入LLM的向量)。
- 第3章 聚焦LLM中的注意力机制,从基础自注意力框架逐步介绍到增强自注意力机制,还涵盖因果注意力模块的实现(支持LLM一次生成一个标记)、通过 dropout 随机掩码注意力权重以减少过拟合,以及将多个因果注意力模块堆叠为多头注意力模块。
- 第4章 重点介绍如何编码可训练生成类人文本的类GPT模型,涉及层激活归一化以稳定神经网络训练、在深度神经网络中添加快捷连接以提升训练效率、实现Transformer块以创建不同规模的GPT模型,以及计算GPT模型的参数数量和存储需求。
- 第5章 实现LLM的预训练流程,包括计算训练集和验证集损失以评估LLM生成文本的质量、实现训练函数并预训练LLM、保存和加载模型权重以继续训练,以及从OpenAI加载预训练权重。
- 第6章 介绍不同的LLM微调方法,包括准备文本分类数据集、修改预训练LLM以进行微调、微调LLM以识别垃圾邮件,以及评估微调后LLM分类器的准确性。
- 第7章 探讨LLM的指令微调流程,包括准备监督指令微调数据集、将指令数据组织为训练批次、加载预训练LLM并微调以遵循人类指令、提取LLM生成的指令响应以进行评估,以及评估指令微调后的LLM。
关于代码
为方便读者跟随学习,本书所有代码示例均提供于Manning网站(https://www.manning.com/books/build-a-large-language-model-from-scratch)和GitHub(https://github.com/rasbt/LLMs-from-scratch)的Jupyter笔记本中。所有代码练习的解决方案可在附录C中找到。
书中代码示例以编号列表和正文内联形式呈现,均使用等宽字体排版,以区别于普通文本。在许多情况下,为适应书中页面空间,原始源代码会进行重新格式化,添加换行和调整缩进。极少数情况下需要使用行延续标记(➥)。此外,当代码在正文中被描述时,源代码中的注释通常会被省略。许多代码列表附带注释,以突出重要概念。
本书的核心目标之一是确保可访问性,因此代码示例经过精心设计,可在普通笔记本电脑上高效运行,无需特殊硬件。如果具备GPU,部分章节会提供扩展数据集和模型以利用额外算力的实用技巧。
全书使用PyTorch作为张量和深度学习库从头实现LLM。如果读者对PyTorch不熟悉,建议从附录A开始学习,其中提供了深入介绍和环境设置建议。
liveBook 讨论论坛
购买《从零构建大型语言模型》可免费访问Manning的在线阅读平台liveBook。借助liveBook的独家讨论功能,读者可在全书范围内或针对特定章节、段落添加评论,轻松记笔记、提出并回答技术问题,并获得作者和其他用户的帮助。访问论坛请前往https://livebook.manning.com/book/build-a-large-language-model-from-scratch/discussion,也可通过https://livebook.manning.com/discussion了解Manning论坛的更多信息和行为规则。
Manning致力于为读者提供一个与作者和其他读者进行有意义对话的平台。作者对论坛的参与是自愿的(且无报酬),不承诺特定参与度。建议读者尝试提出具有挑战性的问题,以免作者失去参与热情!只要本书仍在出版,论坛和过往讨论存档均可从出版社网站访问。
其他在线资源
- 关注最新AI和LLM研究趋势:访问作者博客https://magazine.sebastianraschka.com,定期探讨以LLM为重点的最新AI研究。
- 快速掌握深度学习和PyTorch:作者网站https://sebastianraschka.com/teaching提供多门免费课程,助您快速掌握最新技术。
- 获取本书补充材料:访问GitHub仓库https://github.com/rasbt/LLMs-from-scratch,获取补充资源和示例。
相关文章:
Build a Large Language Model (From Scratch) 序章
关于本书 《从零构建大型语言模型》旨在帮助读者全面理解并从头创建类似GPT的大型语言模型(LLMs)。 全书首先聚焦于文本数据处理的基础知识和注意力机制的编码,随后指导读者逐步实现一个完整的GPT模型。书中还涵盖了预训练机制以及针对文本…...
【HarmonyOS 5】教育开发实践详解以及详细代码案例
以下是基于 HarmonyOS 5 的教育应用开发实践详解及核心代码案例,结合分布式能力与教育场景需求设计: 一、教育应用核心开发技术 ArkTS声明式UI 使用 State 管理学习进度状态,LocalStorageProp 实现跨页面数据同步(如课程…...
NoSQL 之Redis哨兵
目录 一、Redis 哨兵模式概述 (一)背景与核心目标 (二)基本架构组成 (三)核心功能 二、哨兵模式实现原理 (一)配置关键参数 (二)哨兵节点的定时任务 …...
【nano与Vim】常用命令
使用nano编辑器 保存文件 : 按下CtrlO组合键,然后按Enter键确认文件名。 退出编辑器 : 按下CtrlX组合键。 使用vi或vim编辑器 保存文件 : 按Esc键退出插入模式,然后输入:w并按Enter键保存文件。 退出编辑器 …...

OpenCV 图像色彩空间转换与抠图
一、知识点: 1、色彩空间转换函数 (1)、void cvtColor( InputArray src, OutputArray dst, int code, int dstCn 0, AlgorithmHint hint cv::ALGO_HINT_DEFAULT ); (2)、将图像从一种颜色空间转换为另一种。 (3)、参数说明: src: 输入图像,即要进行颜…...

Amazing晶焱科技:电子系统产品在多次静电放电测试后的退化案例
在我们的电子设计世界里,ESD(静电放电)问题总是让人头疼。尤其是当客户面临系统失效的困境时,寻找一个能够彻底解决问题的方案就变得格外重要。这一次,我们要谈的是一个经典案例:电子系统产品在多次静电放电…...
Go 中的 Map 与字符处理指南
Go 中的 Map 与字符处理指南 在 Go 中,map 可以存储字符,但需要理解字符在 Go 中的表示方式。在 Go 语言中,"字符" 实际上有两种表示方法:byte(ASCII 字符)和 rune(Unicode 字符&…...
互联网大厂Java求职面试:云原生架构下的微服务网关与可观测性设计
互联网大厂Java求职面试:云原生架构下的微服务网关与可观测性设计 郑薪苦怀着忐忑的心情走进了会议室,对面坐着的是某大厂的技术总监张总,一位在云原生领域有着深厚积累的专家。 第一轮面试:微服务网关的设计挑战 张总…...
C++中const关键字详解:不同情况下的使用方式
在 C 中,const 关键字用于指定一个对象或变量是常量,意味着它的值在初始化之后不能被修改。下面详细介绍 const 修饰变量、指针、类对象和类中成员函数的区别以及注意事项。 修饰变量 详细介绍 当 const 修饰变量时,该变量成为常量&#x…...
Java 2D 图形类总结与分类
一、基本形状类 这些类用于绘制简单的标准几何形状。 1. 圆形 / 椭圆类 Ellipse2D:椭圆基类,支持浮点精度。 子类: Ellipse2D.Double:双精度浮点坐标。Ellipse2D.Float:单精度浮点坐标。 参数:x, y, wid…...

C# 快速检测 PDF 是否加密,并验证正确密码
引言:为什么需要检测PDF加密状态? 在批量文档处理系统(如 OCR 文字识别、内容提取、格式转换)中,加密 PDF 无法直接操作。检测加密状态可提前筛选文件,避免流程因密码验证失败而中断。 本文使用 Free Spire…...
服务器信任质询
NSURLSession 与 NSURLAuthenticationMethodServerTrust —— 从零开始的“服务器信任质询”全流程 目标读者:刚接触 iOS 网络开发、准备理解 HTTPS 与证书校验细节的同学 出发点:搞清楚为什么会有“质询”、质询的触发时机、以及在 delegate 里怎么正确…...

华为云Flexus+DeepSeek征文| 华为云Flexus X实例单机部署Dify-LLM应用开发平台全流程指南
华为云FlexusDeepSeek征文| 华为云Flexus X实例单机部署Dify-LLM应用开发平台全流程指南 前言一、相关名词介绍1.1 华为云Flexus X实例介绍1.2 Dify介绍1.3 DeepSeek介绍1.4 华为云ModelArts Studio介绍 二、部署方案介绍2.1 方案介绍2.2 方案架构2.3 需要资源2.4 本…...

Python: 操作 Excel折叠
💡Python 操作 Excel 折叠(分组)功能详解(openpyxl & xlsxwriter 双方案) 在处理 Excel 报表或数据分析时,我们常常希望通过 折叠(分组)功能 来提升表格的可读性和组织性。本文将详细介绍如何使用 Python 中的两个主流 Excel 操作库 —— openpyxl 和 xlsxwriter …...

IBM官网新闻爬虫代码示例
通常我们使用Python编写爬虫,常用的库有requests(发送HTTP请求)和BeautifulSoup(解析HTML)。但这里需要注意的是,在爬取任何网站之前,务必遵守该网站的robots.txt文件和相关法律法规,…...
Java持久层技术对比:Hibernate、MyBatis与JPA的选择与应用
目录 简介持久层技术概述Hibernate详解MyBatis详解JPA详解技术选型对比最佳实践与应用场景性能优化策略未来发展趋势总结与建议 简介 在Java企业级应用开发中,持久层(Persistence Layer)作为连接业务逻辑与数据存储的桥梁,其技…...
Spring Boot实现接口时间戳鉴权
Spring Boot实现接口时间戳鉴权,签名(sign)和时间戳(ts)放入请求头(Header)。 一、请求头参数设计 参数名类型说明tsLong13位时间戳(Unix毫秒值),必填&…...

视觉SLAM基础补盲
3D Gaussian Splatting for Real-Time Radiance Field Rendering SOTA方法3DGS contribution传统重建基于点的渲染NeRF 基础知识补盲光栅化SFM三角化极线几何标准的双目立体视觉立体匹配理论与方法立体匹配的基本流程李群和李代数 李群和李代数的映射李代数的求导李代数解决求导…...
STM32外设问题总结
SPI: ①.软件SPI和硬件SPI有什么不一样? 答:软件SPI需要在代码中进行配置相关代码,如配置引脚等,而硬件SPI的话是它已经在硬件上已经配置好SPI了,已经可以直接实现,所以可以直接使…...

Vue-3-前端框架Vue基础入门之VSCode开发环境配置和Tomcat部署Vue项目
文章目录 1 安装配置VSCode1.1 安装中文语言插件1.2 主题颜色1.3 禁用自动更新1.4 开启代码提示设置1.5 安装open in browser插件2 安装配置nodejs2.1 配置环境变量2.2 npm与maven的区别2.3 使用npm避坑3 创建Vue项目3.1 两种创建方式3.2 package.json3.3 安装新的依赖3.4 运行…...
动态IP与静态IP:数字世界的“变脸术”与“身份证”
目录 动态IP:互联网的“游牧民族” 静态IP:数字世界的“常驻公民” 动态VS静态:场景驱动的选择逻辑 未来演进:IP地址的“液态化”趋势 选型指南:没有最好,只有最合适 在互联网的海洋里,每个…...

“一代更比一代强”:现代 RAG 架构的演进之路
编者按: 我们今天为大家带来的文章,作者的观点是:RAG 技术的演进是一个从简单到复杂、从 Naive 到 Agentic 的系统性优化过程,每一次优化都是在试图解决无数企业落地大语言模型应用时出现的痛点问题。 文章首先剖析 Naive RAG 的基…...

My图床项目
引言: 在海量文件存储中尤其是小文件我们通常会用上fastdfs对数据进行高效存储,在现实生产中fastdfs通常用于图片,文档,音频等中小文件。 一.项目中用到的基础组件(Base) 1.网络库(muduo) 我们就以muduo网络库为例子讲解IO多路复用和reactor网络模型 1.1 IO多路复用 我们可以…...
SpringBoot3项目架构设计与模块解析
一、项目概述 这是一个基于SpringBoot3构建的企业级后台管理系统,从项目结构来看,系统采用了经典的分层架构设计,包含完整的控制器层、服务层、数据访问层和实体层。项目整合了Web开发、数据库访问、权限控制等核心功能模块。 二、项目整体…...
C#文件压缩与解压缩全攻略:使用ZipFile与ZipArchive实现高效操作
C#文件压缩与解压缩全攻略:使用ZipFile与ZipArchive实现高效操作 在.NET 开发中,文件压缩与解压缩是常见的需求。无论是减少存储空间、加速网络传输,还是实现数据备份,System.IO.Compression命名空间都提供了强大的工具。本文将结…...

1、Go语言基础中的基础
摘要:马士兵教育的Go语言基础的视频笔记。 第一章:走进Golang 1.1、Go的SDK介绍 1.2、Go的项目基本目录结构 1.3、HelloWorld 1.4、编译 1.5、执行 1.6、一步到位 1.7、执行流程分析 1.8、语法注意事项 (1)源文件以"go&qu…...
Go语言基础知识总结(超详细整理)
1. Go语言简介 Go语言(又称Golang)是Google于2009年发布的开源编程语言,具备简洁、高效、并发等特点,适合服务器开发、云计算、大数据等场景。 2. 环境安装与配置 下载地址:https://golang.org/dl/安装后配置环境变量…...

buuctf——web刷题第二页
[网鼎杯 2018]Fakebook和[SWPU2019]Web1没有,共30题 目录 [BSidesCF 2020]Had a bad day [网鼎杯 2020 朱雀组]phpweb [BJDCTF2020]The mystery of ip [BUUCTF 2018]Online Tool [GXYCTF2019]禁止套娃 [GWCTF 2019]我有一个数据库 [CISCN2019 华北赛区 Day2…...

MVC与MVP设计模式对比详解
MVC(Model-View-Controller)和MVP(Model-View-Presenter)是两种广泛使用的分层架构模式,核心目标是解耦业务逻辑、数据和界面,提升代码可维护性和可测试性。以下是它们的对比详解: MVC 模式&…...
内嵌式mqtt server
添加moquette依赖 <dependency><groupId>io.moquette</groupId><artifactId>moquette-broker</artifactId><version>0.17</version><exclusions><exclusion><groupId>org.slf4j</groupId><artifactId>…...