DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下:
书籍及参考资料链接
第一章节
从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence)的主要技术途径之一。
1.1 语言模型的发展历程
- 1.1.1 统计语言模型
对语言序列进行建模,但是对于高阶统计语言模型来说,随着阶数n的增加,需要统计的转移概率项数会呈指数级增加,导致“维数灾难”。 - 神经语言模型(Neural Lannguage Model,NLM)
以RNN、LSTM、GRU等为代表的神经网络模型,在这一时期,出现了分布式词表示这一概念,并构建了基于聚合上下文特征的目标词预测函数,分布式词表示使用低维稠密向量来表示词含义,与稀疏词向量(one-hot)表示有着本质区别,稀疏词向量表示能够刻画更为丰富的隐含语义特征。
稠密向量的非零表征对于复杂语言模型的搭建非常友好,能够有效克服统计语言模型中数据稀疏的问题。,分布式词向量又被称为词嵌入,word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。

从上图可以看出,语言模型逐渐越来越火热。
- 1.1.2 预训练语言模型(Pre-trained Language Model)
在这一时期代表是 ELMo模型,该模型使用大量无标注数据训练双向LSTM网络,预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示,这与word2vec学习固定的词表示有着显著不同,ELMo还可以根据下游任务对模型进行微调,但是传统序列神经网络的长文本建模能力较弱,并且不容易训练,因此早期ELMo性能表现并不惊艳。

在这之后,2017年Google提出了Self-attention的Transformer模型,通过自注意力机制建模长程序列关系,Transformer的设计适合并行计算,不在向RNN,LSTM那样是单向计算,基于Transformer架构,谷歌进一步提出了预训练模型BERT,BERT采用了仅编码器的结构,于此同时,GPT-1采用了仅解码器的Transformer架构,从而确立了“预训练-微调”这一任务求解范式。一般来说,仅编码器结构的模型更适合用于文本理解,文本摘要生成等任务,而解码器结构模型更适合去解决文本生成任务。 - 1.1.3 大语言模型
与小规模预训练模型不同的是,大语言模型的文本生成能力更强,也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展,新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务数据的微调进行通用任务的求解。
1.2 大语言模型的特点
- 具备丰富的世界知识
- 具有较强的通用任务解决能力
随着模型参数、训练数据、计算算力的大规模扩展,最新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务
数据的微调进行通用任务的求解。 - 具有较好的复杂任务推理能力
- 具有较强的人类指令遵循能力
- 具有较好的人类对齐能力
目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。 - 具有可拓展的工具使用能力
虽然大语言模型,在一些领域的能力表现较差,但是大语言模型的理解能力和上下文学习能力,可以使得大模型借助网络搜索和计算器,python解释器等工具,来更好的解决这些领域问题。
1.3 大语言模型关键技术概览
1.规模不断扩展,数据、算力、模型参数量都在逐渐变大,但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。
2.数据质量不断提升,追求更多高质量的数据,以及各类任务的配比训练。
3.高校预训练,很多机构都发布了专用的分布式优化框架,其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM
4.能力激发
5.人类对齐,让大模型输出符合人类偏好的数据,对人类无害的信息。
对此Open-ai提出了RLHF对齐方法,最近学术界开始涌现除了一批使用监督微调的对齐方式,从而简化RLHF的优化过程算法,如DPO算法等。
6.让大模型使用工具
1.4 大语言模型对科技发展的影响
一些传统领域的研究,已经逐渐被大模型取代,而转向为如何提升大模型的领域能力和综合能力。在信息检索领域,出现了较火的RAG和大模型增强的搜索系统,同时大语言模型对科技发展也在产生着非常重要的影响。
第二章节
2.1 大语言模型的涌现能力和扩展法则
主要讨论了大模型的涌现能力和扩展法则,在这方面有大量的研究,但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现,就像小孩子的语言学习,会突然说出令爸妈惊讶的话来。
这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性,到目前为止,还没有实验能够有效验证特定参数规模语言模型的饱和数据规模(即随着数据规模的扩展,模型性能不再提升)
代表的涌现能力:
- 上下文学习
- 指令遵循
- 逐步推理
2.2 GPT的发展脉络
- GPT-1: GPT-1与同时期的BERT不同,GPT-1采用的是仅解码器的模型,但在当时与BERT参数量相当的GPT模型性能不如BERT模型,因此没有引起学术界的足够关注。
- GPT-2:沿用了GPT-1架构,但是扩大了参数规模,达到了1.5B
- GPT-3: 与GPT-2相比,GPT-3直接将参数规模提升了100余倍,对于模型扩展在当时给出了一个极限尝试,其雄心、魄力可见一斑。,GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑,它证明了将神经网络扩展到超大规模可以带来大幅的
模型性能提升,并且建立了以提示学习方法为基础技术路线的任务求解范式。 - 后续能力增强上,增加了代码训练数据和人类对齐,增强的模型被称为GPT-3.5
- 后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用
第五章节
首先介绍大语言模型的架构配置:

5.1 Transformer模型
Transformer是由多层的多头自注意力(Multi-headSelf-attention)模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于Transformer 本身的结构与配置改变并不大。
5.1.1 输入编码
首先将输入的词元序列转换成 嵌入编码 + 位置编码的形式(公式如下),再送入到后续的神经网路中进行训练。

通过这种建模方法的表示,Transformer 模型可以利用位置编码 𝒑𝑡 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定,因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息,然而它只能局限于建模训练样本中出现的位置,无法建模训练数据中未出现过的位置,因此极大地限制了它们处理长文本的能力。
5.1.2 多头注意力机制


5.1.3 归一化方法

第五章还有许多部分,没有完全理解…待更新。。。。。。
相关文章:
DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下: 书籍及参考资料链接 第一章节 从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence&…...
【设计模式】掌握建造者模式:如何优雅地解决复杂对象创建难题?
概述 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 分离了部件的构造(由Builder来负责)和装配(由Director负责)。 从而可以构造出复杂的对象。这个模式适用于:某个对象的构建过程复杂的情况。 由于实现了构建和装配的解耦。…...
Nuxt.js 全栈开发指南:构建现代 Web 应用的终极解决方案
一、Nuxt.js 的核心价值与演进 1.1 现代 Web 开发的挑战与破局 根据 2023 年 Web Almanac 统计,全球 Top 1000 网站中有 68% 采用服务端渲染方案。Nuxt.js 作为 Vue 生态的 SSR 框架,完美解决了以下痛点: SEO 困境:传统 SPA 的…...
PPT内视频播放无法播放的原因及解决办法
PPT内视频无法播放,通常是视频编解码的问题。目前我遇到的常见的视频编码格式有H.264,H.265,VP9,AV1这4种。H.264编解码的视频,Windows原生系统可以直接播放,其他的视频编码格式需要安装对应的视频编解码插…...
关于ModbusTCP/RTU协议转Ethernet/IP(CIP)协议的方案
IGT-DSER智能网关模块支持西门子、倍福(BECKHOFF)、罗克韦尔AB,以及三菱、欧姆龙等各种品牌的PLC之间通讯,支持Ethernet/IP(CIP)、Profinet(S7),以及FINS、MC等工业自动化常用协议,同时也支持PLC与Modbus协议的工业机器人、智能仪…...
为什么要开源?
互联网各领域资料分享专区(不定期更新): Sheet 正文 开源(Open Source)是软件、硬件或知识产品将其源代码或设计公开,允许任何人自由使用、修改和分发的模式。开源的核心不仅是“免费”,更是一种协作和透明的理念。以下是开源的主要动因和优势: 一、技术驱动:提升质量…...
WPF在特定领域的应用:打造一款专业的图像编辑工具
WPF在特定领域的应用:打造一款专业的图像编辑工具 一、前言二、WPF 基础概念2.1 什么是 WPF2.2 WPF 的核心特性 三、图像编辑工具的需求分析3.1 基本功能3.2 高级功能 四、使用 WPF 实现图像编辑工具4.1 项目搭建4.2 图像加载与显示4.3 基本编辑操作4.4 图层管理4.5…...
从0开始的操作系统手搓教程43——实现一个简单的shell
目录 添加 read 系统调用,获取键盘输入 :sys_read putchar和clear 上班:实现一个简单的shell 测试上电 我们下面来实现一个简单的shell 添加 read 系统调用,获取键盘输入 :sys_read /* Read count bytes from the file pointed to by fi…...
Visual Studio Code(VS Code)支持的编程语言
JavaScript:VS Code 原生支持 JavaScript,提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查。 TypeScript:作为 JavaScript 的超集,TypeScript 在 VS Code 中也得到原生支持…...
探索AI对冲基金:开源自动化交易系统的革新之路
在量化交易领域,人工智能技术的应用正悄然改变传统对冲基金的运作模式。GitHub上的开源项目ai-hedge-fund为开发者和金融从业者提供了一个独特的实践平台。该项目通过多智能体系统架构,整合市场数据分析、量化策略生成、风险管理和投资组合优化等核心功能,实现了从数据采集到…...
C语言每日一练——day_3(快速上手C语言)
引言 针对初学者,每日练习几个题,快速上手C语言。第三天。(会连续更新) 采用在线OJ的形式 什么是在线OJ? 在线判题系统(英语:Online Judge,缩写OJ)是一种在编程竞赛中用…...
vue3中接收props的两种写法
在 Vue 3 中,接收 props 有两种主要的写法,分别是运行时声明和基于类型的声明。下面为你详细介绍这两种写法。 1. 运行时声明 运行时声明是 Vue 2 中就已经存在的方式,在 Vue 3 中依然可以使用。这种方式通过在组件中使用 defineProps 宏来…...
Django下防御Race Condition
目录 漏洞原因 环境搭建 复现 A.无锁无事务时的竞争攻击 B.无锁有事务时的竞争攻击 防御 A.悲观锁加事务防御 B.乐观锁加事务防御 总结 漏洞原因 Race Condition 发生在多个执行实体(如线程、进程)同时访问共享资源时,由于执行顺序…...
Vue 项目中,.env文件怎么用?
在 Vue 项目中,.env 文件用于存储环境变量,不同的环境(如开发环境、测试环境、生产环境)可以使用不同的 .env 文件来管理对应的配置信息。以下是关于 Vue 项目中 .env 文件的详细使用方法: 1. 项目创建 确保你已经使…...
LeetCode hot 100—爬楼梯
题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1. 1 阶 1 阶 2. 2 阶 示例…...
【js逆向】
地址:aHR0cHM6Ly93d3cud2VpYm90b3AuY24vMi4wLw f12进入 debugger,过debugger 查看预览数据 全局搜索 请求网址中的 api.weibotop.cn 在下方疑似找到了加密和解密的函数 断点调试 控制台输出 那个n就是 常见的 cryptoJs库 const cryptoJs require(cry…...
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位(中国)
论文英文题目:A spatial interaction model of Qin-Han Dynasty organisation on the northern frontier and the location of the Zhidao highway (China) 发表于:journal of archaeological science,影响因子:3.030 论文主要是…...
DirectX12(D3D12)基础教程四 入门指南
本章主要讲了些D3D12概念和理论,对第一、二章相关概念的补充和纠正,要的理解D3D12概念和理论基础,结合代码加深理解。 命令队列和命令列表 为了实现渲染工作的重用和多线程缩放, 在 D3D12 中,做了三个重要方面不同于 …...
C语言:确定进制
题目: 6942对于十进制来说是错误的,但是对于13进制来说是正确的。即, 6(13) 9(13) 42(13), 而 42(13)4131213054(10)。 任务是写一段程序,读入三个整数p、q和 r,然后确定一个进制 B(2<B<40) 使得 p q r。 如果…...
如何在 Windows 10 启用卓越性能模式及不同电源计划对比
在使用 powercfg -duplicatescheme 命令启用 “卓越性能模式”(即 Ultimate Performance 模式)之前,有几个前提条件需要注意: 前提条件: 系统版本要求:卓越性能模式 仅在 Windows 10 专业版 或更高版本&a…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...
三体问题详解
从物理学角度,三体问题之所以不稳定,是因为三个天体在万有引力作用下相互作用,形成一个非线性耦合系统。我们可以从牛顿经典力学出发,列出具体的运动方程,并说明为何这个系统本质上是混沌的,无法得到一般解…...
初学 pytest 记录
安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...
QT3D学习笔记——圆台、圆锥
类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体(对象或容器)QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质(定义颜色、反光等)QFirstPersonC…...
uniapp 实现腾讯云IM群文件上传下载功能
UniApp 集成腾讯云IM实现群文件上传下载功能全攻略 一、功能背景与技术选型 在团队协作场景中,群文件共享是核心需求之一。本文将介绍如何基于腾讯云IMCOS,在uniapp中实现: 群内文件上传/下载文件元数据管理下载进度追踪跨平台文件预览 二…...
一些实用的chrome扩展0x01
简介 浏览器扩展程序有助于自动化任务、查找隐藏的漏洞、隐藏自身痕迹。以下列出了一些必备扩展程序,无论是测试应用程序、搜寻漏洞还是收集情报,它们都能提升工作流程。 FoxyProxy 代理管理工具,此扩展简化了使用代理(如 Burp…...
C# winform教程(二)----checkbox
一、作用 提供一个用户选择或者不选的状态,这是一个可以多选的控件。 二、属性 其实功能大差不差,除了特殊的几个外,与button基本相同,所有说几个独有的 checkbox属性 名称内容含义appearance控件外观可以变成按钮形状checkali…...
rm视觉学习1-自瞄部分
首先先感谢中南大学的开源,提供了很全面的思路,减少了很多基础性的开发研究 我看的阅读的是中南大学FYT战队开源视觉代码 链接:https://github.com/CSU-FYT-Vision/FYT2024_vision.git 1.框架: 代码框架结构:readme有…...
goreplay
1.github地址 https://github.com/buger/goreplay 2.简单介绍 GoReplay 是一个开源的网络监控工具,可以记录用户的实时流量并将其用于镜像、负载测试、监控和详细分析。 3.出现背景 随着应用程序的增长,测试它所需的工作量也会呈指数级增长。GoRepl…...
HTTPS证书一年多少钱?
HTTPS证书作为保障网站数据传输安全的重要工具,成为众多网站运营者的必备选择。然而,面对市场上种类繁多的HTTPS证书,其一年费用究竟是多少,又受哪些因素影响呢? 首先,HTTPS证书通常在PinTrust这样的专业平…...
