当前位置：首页 > news >正文

前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警（手打纯干货，通俗易懂）

news 2025/9/27 5:49:12

2025.2.17晚上21:57看完了整个视频，作为一个ai专业的学生虽然每天都在用ai，但是对于其背后的原理却不是那么清楚，而卡帕西的这支视频却让我醍醐灌顶，而且全程听起来很舒服，没有知识强行进入脑子的痛感，在他的讲解下一切都是那么的自然，所有内容娓娓道来，感谢karpathy的讲解，记住他的提醒，ai只是你的工具，他并不神秘。

AI 大神Karpathy再发LLM介绍视频，入门必看！_哔哩哔哩_bilibili

那么好，接下来就是我对这个视频的学习笔记部分了，我将根据视频内容分为四个部分，按顺序来分别是pre training,post training,rl,other

一、预训练（0:00:00-1:00:00）

视频主旨是介绍到底什么是llm，我们在使用的时候需要注意什么缺陷，你在和他对话的时候究竟是在和一个什么样的东西说话。

如何构建一个chatgpt？

下载和处理互联网数据，网站：huggingface/fineweb,讲解如何构建一份互联网数据。本质上是爬虫，爬取互联网上的高质量文档。common crawl是一个互联网组织，做的事情就是扫描索引互联网上的各种网页，跟踪链接，最终就拿到了很多互联网数据。
1. 然后开始过滤。首先是URL过滤，过滤到你不想要的网站。然后是文本提取，从html中提取出文本，也就是说去掉各种各样的修饰。那么在这一步其实公司就可以控制自己模型对于语言的侧重，比如我排除掉中文网页，那么模型在最后的中文表现一定很垃圾，还有很多步骤，但是总体来说是这样的流程。
2. 最后讲这些文本连接在一起，就形成了一个纯文字的txt文本，相当震撼。我们开始用它训练神经网络，这样神经网络就可以内化并建模这些文本的流动方式。
决定如何表示这些文本，以及如何输入它
1. 因为这些神经网络接受一维的符号序列，虽然这些文本已经是连续的一维序列了，但是计算机本质上只能接受0和1，所以我们需要用数字来表示。并且这个序列我们不想让他仅有0和1两个字符，这样序列也会太长，那会占用大量的资源，我们需要去权衡这个词汇表的数量。
2. 当我们将每8个bit看做一个处理单元（现在还没有引入token的概念）的时候，就把序列长度缩短了8倍，数字大小在0～255之间。这里我们严重可以讲这些数字看作为一个独特的emoji
3. 在制作现代的大模型的时候，我们为了继续缩短序列长度，可以表达出更多的emoji，我们会寻找非常常见的连续字符，举个例子，“你”和“好”就经常一起出现，那么我们就可以把他俩组合成一个新的emoji，编号为256.以此类推，现在的大模型词汇表大小量级在10万左右（gpt4：100277）
4. 文本转化成这些emoji的过程，我们就称之为tokenization（标记化）
5. 形象的观察gpt是如何进行标记化的，登录：https://tiktokenizer.vercel.app
我们在这里就可以看到之前很火的一个问题strawberry有几个r，在这里就被分成了三个token，这个问题后面我们会再次谈到。还可以试试hello world等等词语，很有意思的一个观察，获得对“token”的一个直观感受。连不同数量的空格对应的都有独特的token.在gpt中就一共有10万个这样的token
nerural network training
1. 在这一步我们是要建模这些token在序列中如何相互跟随的统计关系。我们在数据海洋中随机选择一段文本，同时长度大小（也叫窗口长度）不易过大，窗口的长度可以在0-max之间随便变化，一般max就是取4千8千这种，处理太多的token在计算上是expensive。
2. 比如说我现在去了4个token作为模型输入了，剩下的就是和学过的深度学习一样，降低loss，让预测和实际的下一个token一样。注意，这里的4个token就称为context（上下文）。模型的输出是这100277个token分别对应的概率。整个网络在训练过程中正在并行的重演无数次这样的预测和改进。
3. 神经网络内部的样子：
这个网络中的参数在一开始是随机的，但是在训练过后就会逐渐形成训练文本中的统计关系。你可以想象这个网络就像DJ的调音台，你不断微调这个调音台上的各种参数旋钮，最终能够演奏出曲风相似的音乐来

想要观看一个实际的生产级示例，这个网站：https://bbycroft.net/llm,展示了具体的模型，但是内部的模型结构并不是我们关注的焦点，因为这个教程是面向非技术人员的，具体的技术分析会放在另外的笔记中
4. 推理部分：算法和训练是一模一样的，只是参数不用再变化。karpathy在讲的时候也始终保持着通俗易懂的讲法，比如在推理时我们输入一些token，然后模型开始根据这些token掷硬币，将可能性最大的硬币选出来，必须强调，这是个随机系统！所以我们并不太可能完全重现我们训练文本中的内容，模型学到的其实是一种有损压缩ok吧。
5. 在实际过程中我们在训练时会尝试不同种类设置，不同种类排列，和不同尺寸的网络。当有一个好的参数的时候，你就ship他，嘻嘻。
6. GPT-2 从现在的视角来看gpt-2和现在的模型并没有什么区别，只是所有东西都变得更大。token的最大上下文才是1024个，意味着无论是训练还是推的时候他的窗口大小都不会差过1024.上下文和窗口的含义略有区别，在这里做一些严谨的定义

总结来说：

•上下文是模型理解和生成的内容，它是动态的，取决于模型正在处理的文本。

•窗口是一个固定大小的滑动范围，它限定了模型能看到的上下文的长度。
1. 记住，重要指标就是loss，越低越好，就能更好的预测下一个标记。这样训练出来的模型叫做基础模型 base model ,他只是一种互联网文本的模拟器，并不是我们现在常用的assitant，可以在大模型实验场试一下这两类模型的回答，相当明显的区别
2. base model vs instruct model 他俩的区别可能用具体的回答来展示更为直观。虽然base model并不能像chatgpt一样正常回答问题，但是还是可以通过设计完成一些任务（虽然我觉得没什么必要）

二、后训练：监督微调（1:00:00-2:07:00）

post training在计算上比预训练要便宜的多，在这里我们讲一个模型变成一个助手。

具体做法就是给他一些人类对话的数据集，让模型学习，完全相同的算法，只是换了一下数据集。在这个过程中有一些和前面相关联的知识点

对话的分词处理，我们制定一个规则或者数据结构，将对话编码为token

如图所示的 <|im_start>就是一种显著的token，也是我们在后训练期间新增加的一个token，在那十万个token之中（所有句子只是那十万个token的排列组合而已，莫忘莫忘），以 <|im_end> 结束对话。这个方法的发明也是openai的杰作，发的有论文。

kapathy在这里也非常哲学式地思考我们在和chatgpt对话的时候到底是在和什么对话？式给他标注对话数据集的人类么？只是人类标注者的模拟
幻觉
1. 幻觉从何而来？因为在对话数据集中都是自信满满的回答，早期模型并没有学会说不哈哈，所以他必须继续依靠概率输出自己的回答，这就是所谓幻觉。但是如果在数据集中加入了对于不知道问题的回答示例，那么模型就能学会：在知道自己不知道的时候敢于说不知道。
2. 首先要明确自己的模型不知道什么，搞清楚模型的知识边界（其实就是问很多问题，然后把所有他确实不知道的问题单独列成数据集进行训练）；然后针对这些数据集进行“不知道”的回答。这样的做法听起来似乎非常简单，但是却很有用，因为在base模型中模型可能已经有了自我认知，你知道自己不知道某些事情，某些时候特定的几个神经元将会亮起，那个时候就应该是说不知道的时候了！只需要稍加演示他们就能学会。
3. 缓解幻觉的第二个方法：加入网络搜索，也是加入一组新的token表示搜索，比如看到说<search_satrt> and <search_end>这种，就去执行搜索，讲搜索结果放进上下文。同样的，构造数据集让模型训练和学习。同时强化一个认知，就是大模型的记忆是对话联网知识的有损压缩，上下文是直接记忆，可以直接用的，无损的。因为当你需要更精确的内容的时候最好可以在上下文中直接给出参考资料而不是仅仅依靠他的记忆力。
4. 还有一点就是模型的自我认知，比如我们问deepseek他可能会回答自己是openai训练的，但实际上如果不预先训练的话，ai只是从训练资料中选择最佳回答，无疑openai和chatgpt是被提到最多的，他不知道自己是谁，只有给他看一些对话数据集才行哦。
5. 关于如何让模型的数学计算能力变强？本质上这还是涉及到神经网络结构，及其计算方式。比如下面这道数学题，我们应该选择哪种解法放进训练集呢？肯定是第二种！第一种直接给出答案本质上就是在心算，因为都是根据前文的概率吐出下一个字，也就是说这个答案只是经验的结果；第二个解答过程就是一步一步的推导，得出最终答案之后模型已经经过了充分的思考，答案就更有可信度。更理论一点的来讲，每个token经过整个网络的计算量是有限的，在得到答案前尽可能多的思考肯定是有利的。其实我们多实验几个例子之后不难发现，让模型直接说出答案往往是错误答案。
  
  包括模型的计数能力，查草莓的r，查。。。。的点数，都不会太好，一个是上面说的，模型的心算能力并不是很强，第二个原因就是模型都是token化的，查数也不友好，他们看不见字符，他的世界里只有token，或许我们将来会有一个字符级或字节级的模型，但是那样序列会很长，目前还不知道要如何处理。
  
  包括9.11和9.9比大小,这个有可能是圣经读太多了(bushi

三、强化学习（2:10:00）

大神在这解题节的开始用学生学习一本书承上启下：课本知识就像是预训练，例题就像是SFT，那么RL就是课后习题，给你答案，模型要自己找出最好的解题路径。

请添加图片描述

为什么这很重要？因为llm的语言与我们人类的语言并不相通，我们并不知道对于llm而言什么样的token排列方式能够更好的求解出答案，因此我们最好是让模型自己来摸索，根据最终答案来进行反馈，找到自己写题的最佳思考方式。

总结就是：认知不同，不要瞎掺合

RL的过程：比如让模型写一道题，尝试多次，每一次尝试都会生成不同的结果。假设结果如下图所示，有正确的有错误的，我们的目的是鼓励那些能得出正确答案的解决方案，所以就用这些正确的解题过程拿去训练模型（肯定要训练啊，不然模型现在不还是不会写这道题，方法论略有不同但思想一样）

请添加图片描述

所以在前面进行的SFT等一系列操作都是有必要的，相当于讲模型带到了正确解的附近，模型只需要开始尝试即可，有很大概率能写出正确答案，而强化学习就是那临门一脚！

deepseek是第一家公开赞扬强化学习对大模型作用的公司，引起了大家对于强化学习的信心，图为强化学习后的ds模型在AIME数学题上提升

请添加图片描述

而且模型在学习过程中用到的token也越来越多，这是自然而然的表现，模型在rl过程中学会了多角度思考和验证自己的思路，称为涌现。这都是模型自己学出来的，因为没有人类标注员在回答里面嵌入这些思考过程，amazing啊llm，aha moment

谈到强化学习，就绕不过去一个东西，alphago。当我们将目光投向AlphaGo的论文，发现了一个似曾相识的图表。。。

请添加图片描述

从图中可以看出，单纯的模仿并不能超越人类玩家，但是探索可以。

第37步：指神之一手，阿尔法狗打出来的。

四、杂谈（RLHF、Karpathy对未来的一些思考）（2:47:00-3:09:00是未来展望）

在不可验证领域，比如写作，讲笑话这种，不好直接打分，所以我们的解决方法是：

RLHF：（注意：他的本质当然是RL，但他更像是是一种微调，因为这个强化学习并不能无限运行下去）人类先训练一个模型，充当评分器（这个训练好的模型要与人类的偏好保持一致），比如判断小说的好笑程度，对回答排个序，然后模型就可以基于此进行训练。这个方法来源于openai的一篇论文：在无人验证的领域进行强化学习
请添加图片描述

这个方法的好处：让我们能再人愿意领域进行实验，包括那些无法验证的领域；而且允许人们在不必完成极其困难的人物的情况下提供他们的监督，比如写诗。

显著缺点：一开始模型的表现会逐渐变好，但是到最后他的表现可能会一落千丈，因为被模型内部发现了这种训练方式在这个问题下的不足（强化学习很擅长找到欺骗他的方式），也就是说，总会有很荒谬的结果来干预这个过程，毕竟这个模拟器他并不完美。因此我们在模型改善差不多之后应该立刻进行裁剪，不然就会变差。

ok，差不多到这里就结束了！3小时之后的内容就没有再做记录了，因为个人感觉重复有点多，，很多信息现在也都知道了。学的很爽。RL正在觉醒….

前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警（手打纯干货，通俗易懂）

一、预训练（0:00:00-1:00:00）

二、后训练：监督微调（1:00:00-2:07:00）

三、强化学习（2:10:00）

四、杂谈（RLHF、Karpathy对未来的一些思考）（2:47:00-3:09:00是未来展望）

相关文章：

前x-ai首席科学家karpathy的从零构建ChatGPT视频学习笔记--8000字长图文笔记预警（手打纯干货，通俗易懂）

【智慧校园】分体空调节能监管：打造高效节能的学习环境

深度学习-1.简介

【Rust中级教程】1.10. 引用及内部可变性（简单回顾）：引用、内部可变性、`Cell`类型及相关操作

Docker 安装和配置 Nginx 详细图文教程

基于Java+Swing+Mysql实现旅游管理信息系统

使用 Openpyxl 操作 Excel 文件详解

统信服务器操作系统V20 1070A 安装docker新版本26.1.4

【数据分享】1929-2024年全球站点的逐年降雪深度数据（Shp\Excel\免费获取）

python爬虫系列课程1：初识爬虫

大模型工具大比拼：SGLang、Ollama、VLLM、LLaMA.cpp 如何选择？

什么是语料清洗、预训练、指令微调、强化学习、内容安全；什么是megatron，deepspeed，vllm推理加速框架

HTTP的“对话”逻辑：请求与响应如何构建数据桥梁？

【深度学习】预训练和微调概述

自动化测试框架搭建-单次接口执行-三部曲

【阮一峰】2.数组

DeepSeek 接入PyCharm实现AI编程！（支持本地部署DeepSeek及官方DeepSeek接入）

【Java Card】Applet 使用Shareable进行数据分享以及部分问题处理

国产FPGA开发板选择

com.typesafe.config

SpringBoot-17-MyBatis动态SQL标签之常用标签

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

华为OD机试-食堂供餐-二分法

苍穹外卖--缓存菜品

2025盘古石杯决赛【手机取证】

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

USB Over IP专用硬件的5个特点

人工智能--安全大模型训练计划：基于Fine-tuning + LLM Agent

面试高频问题

Neko虚拟浏览器远程协作方案：Docker+内网穿透技术部署实践