DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下:
书籍及参考资料链接
第一章节
从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence)的主要技术途径之一。
1.1 语言模型的发展历程
- 1.1.1 统计语言模型
对语言序列进行建模,但是对于高阶统计语言模型来说,随着阶数n的增加,需要统计的转移概率项数会呈指数级增加,导致“维数灾难”。 - 神经语言模型(Neural Lannguage Model,NLM)
以RNN、LSTM、GRU等为代表的神经网络模型,在这一时期,出现了分布式词表示这一概念,并构建了基于聚合上下文特征的目标词预测函数,分布式词表示使用低维稠密向量来表示词含义,与稀疏词向量(one-hot)表示有着本质区别,稀疏词向量表示能够刻画更为丰富的隐含语义特征。
稠密向量的非零表征对于复杂语言模型的搭建非常友好,能够有效克服统计语言模型中数据稀疏的问题。,分布式词向量又被称为词嵌入,word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。

从上图可以看出,语言模型逐渐越来越火热。
- 1.1.2 预训练语言模型(Pre-trained Language Model)
在这一时期代表是 ELMo模型,该模型使用大量无标注数据训练双向LSTM网络,预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示,这与word2vec学习固定的词表示有着显著不同,ELMo还可以根据下游任务对模型进行微调,但是传统序列神经网络的长文本建模能力较弱,并且不容易训练,因此早期ELMo性能表现并不惊艳。

在这之后,2017年Google提出了Self-attention的Transformer模型,通过自注意力机制建模长程序列关系,Transformer的设计适合并行计算,不在向RNN,LSTM那样是单向计算,基于Transformer架构,谷歌进一步提出了预训练模型BERT,BERT采用了仅编码器的结构,于此同时,GPT-1采用了仅解码器的Transformer架构,从而确立了“预训练-微调”这一任务求解范式。一般来说,仅编码器结构的模型更适合用于文本理解,文本摘要生成等任务,而解码器结构模型更适合去解决文本生成任务。 - 1.1.3 大语言模型
与小规模预训练模型不同的是,大语言模型的文本生成能力更强,也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展,新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务数据的微调进行通用任务的求解。
1.2 大语言模型的特点
- 具备丰富的世界知识
- 具有较强的通用任务解决能力
随着模型参数、训练数据、计算算力的大规模扩展,最新一代大语言模型的任务求解能力有了显著提升,能够不再依靠下游任务
数据的微调进行通用任务的求解。 - 具有较好的复杂任务推理能力
- 具有较强的人类指令遵循能力
- 具有较好的人类对齐能力
目前广泛采用的对齐方式是基于人类反馈的强化学习技术,通过强化学习使得模型进行正确行为的加强以及错误行为的规避,进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用,都能够有效阻止典型的模型功能滥用行为,一定程度上规避了常见的使用风险。 - 具有可拓展的工具使用能力
虽然大语言模型,在一些领域的能力表现较差,但是大语言模型的理解能力和上下文学习能力,可以使得大模型借助网络搜索和计算器,python解释器等工具,来更好的解决这些领域问题。
1.3 大语言模型关键技术概览
1.规模不断扩展,数据、算力、模型参数量都在逐渐变大,但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。
2.数据质量不断提升,追求更多高质量的数据,以及各类任务的配比训练。
3.高校预训练,很多机构都发布了专用的分布式优化框架,其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM
4.能力激发
5.人类对齐,让大模型输出符合人类偏好的数据,对人类无害的信息。
对此Open-ai提出了RLHF对齐方法,最近学术界开始涌现除了一批使用监督微调的对齐方式,从而简化RLHF的优化过程算法,如DPO算法等。
6.让大模型使用工具
1.4 大语言模型对科技发展的影响
一些传统领域的研究,已经逐渐被大模型取代,而转向为如何提升大模型的领域能力和综合能力。在信息检索领域,出现了较火的RAG和大模型增强的搜索系统,同时大语言模型对科技发展也在产生着非常重要的影响。
第二章节
2.1 大语言模型的涌现能力和扩展法则
主要讨论了大模型的涌现能力和扩展法则,在这方面有大量的研究,但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现,就像小孩子的语言学习,会突然说出令爸妈惊讶的话来。
这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性,到目前为止,还没有实验能够有效验证特定参数规模语言模型的饱和数据规模(即随着数据规模的扩展,模型性能不再提升)
代表的涌现能力:
- 上下文学习
- 指令遵循
- 逐步推理
2.2 GPT的发展脉络
- GPT-1: GPT-1与同时期的BERT不同,GPT-1采用的是仅解码器的模型,但在当时与BERT参数量相当的GPT模型性能不如BERT模型,因此没有引起学术界的足够关注。
- GPT-2:沿用了GPT-1架构,但是扩大了参数规模,达到了1.5B
- GPT-3: 与GPT-2相比,GPT-3直接将参数规模提升了100余倍,对于模型扩展在当时给出了一个极限尝试,其雄心、魄力可见一斑。,GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑,它证明了将神经网络扩展到超大规模可以带来大幅的
模型性能提升,并且建立了以提示学习方法为基础技术路线的任务求解范式。 - 后续能力增强上,增加了代码训练数据和人类对齐,增强的模型被称为GPT-3.5
- 后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用
第五章节
首先介绍大语言模型的架构配置:

5.1 Transformer模型
Transformer是由多层的多头自注意力(Multi-headSelf-attention)模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比,大语言模型的特点是使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对于Transformer 本身的结构与配置改变并不大。
5.1.1 输入编码
首先将输入的词元序列转换成 嵌入编码 + 位置编码的形式(公式如下),再送入到后续的神经网路中进行训练。

通过这种建模方法的表示,Transformer 模型可以利用位置编码 𝒑𝑡 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定,因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息,然而它只能局限于建模训练样本中出现的位置,无法建模训练数据中未出现过的位置,因此极大地限制了它们处理长文本的能力。
5.1.2 多头注意力机制


5.1.3 归一化方法

第五章还有许多部分,没有完全理解…待更新。。。。。。
相关文章:
DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)
本次学习计划,参考赵鑫老师团队出版的大语言模型一书,链接如下: 书籍及参考资料链接 第一章节 从技术路径上来说,语言模型(LanguageModel, LM)是提升机器语言智能(Language Intelligence&…...
【设计模式】掌握建造者模式:如何优雅地解决复杂对象创建难题?
概述 将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 分离了部件的构造(由Builder来负责)和装配(由Director负责)。 从而可以构造出复杂的对象。这个模式适用于:某个对象的构建过程复杂的情况。 由于实现了构建和装配的解耦。…...
Nuxt.js 全栈开发指南:构建现代 Web 应用的终极解决方案
一、Nuxt.js 的核心价值与演进 1.1 现代 Web 开发的挑战与破局 根据 2023 年 Web Almanac 统计,全球 Top 1000 网站中有 68% 采用服务端渲染方案。Nuxt.js 作为 Vue 生态的 SSR 框架,完美解决了以下痛点: SEO 困境:传统 SPA 的…...
PPT内视频播放无法播放的原因及解决办法
PPT内视频无法播放,通常是视频编解码的问题。目前我遇到的常见的视频编码格式有H.264,H.265,VP9,AV1这4种。H.264编解码的视频,Windows原生系统可以直接播放,其他的视频编码格式需要安装对应的视频编解码插…...
关于ModbusTCP/RTU协议转Ethernet/IP(CIP)协议的方案
IGT-DSER智能网关模块支持西门子、倍福(BECKHOFF)、罗克韦尔AB,以及三菱、欧姆龙等各种品牌的PLC之间通讯,支持Ethernet/IP(CIP)、Profinet(S7),以及FINS、MC等工业自动化常用协议,同时也支持PLC与Modbus协议的工业机器人、智能仪…...
为什么要开源?
互联网各领域资料分享专区(不定期更新): Sheet 正文 开源(Open Source)是软件、硬件或知识产品将其源代码或设计公开,允许任何人自由使用、修改和分发的模式。开源的核心不仅是“免费”,更是一种协作和透明的理念。以下是开源的主要动因和优势: 一、技术驱动:提升质量…...
WPF在特定领域的应用:打造一款专业的图像编辑工具
WPF在特定领域的应用:打造一款专业的图像编辑工具 一、前言二、WPF 基础概念2.1 什么是 WPF2.2 WPF 的核心特性 三、图像编辑工具的需求分析3.1 基本功能3.2 高级功能 四、使用 WPF 实现图像编辑工具4.1 项目搭建4.2 图像加载与显示4.3 基本编辑操作4.4 图层管理4.5…...
从0开始的操作系统手搓教程43——实现一个简单的shell
目录 添加 read 系统调用,获取键盘输入 :sys_read putchar和clear 上班:实现一个简单的shell 测试上电 我们下面来实现一个简单的shell 添加 read 系统调用,获取键盘输入 :sys_read /* Read count bytes from the file pointed to by fi…...
Visual Studio Code(VS Code)支持的编程语言
JavaScript:VS Code 原生支持 JavaScript,提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查。 TypeScript:作为 JavaScript 的超集,TypeScript 在 VS Code 中也得到原生支持…...
探索AI对冲基金:开源自动化交易系统的革新之路
在量化交易领域,人工智能技术的应用正悄然改变传统对冲基金的运作模式。GitHub上的开源项目ai-hedge-fund为开发者和金融从业者提供了一个独特的实践平台。该项目通过多智能体系统架构,整合市场数据分析、量化策略生成、风险管理和投资组合优化等核心功能,实现了从数据采集到…...
C语言每日一练——day_3(快速上手C语言)
引言 针对初学者,每日练习几个题,快速上手C语言。第三天。(会连续更新) 采用在线OJ的形式 什么是在线OJ? 在线判题系统(英语:Online Judge,缩写OJ)是一种在编程竞赛中用…...
vue3中接收props的两种写法
在 Vue 3 中,接收 props 有两种主要的写法,分别是运行时声明和基于类型的声明。下面为你详细介绍这两种写法。 1. 运行时声明 运行时声明是 Vue 2 中就已经存在的方式,在 Vue 3 中依然可以使用。这种方式通过在组件中使用 defineProps 宏来…...
Django下防御Race Condition
目录 漏洞原因 环境搭建 复现 A.无锁无事务时的竞争攻击 B.无锁有事务时的竞争攻击 防御 A.悲观锁加事务防御 B.乐观锁加事务防御 总结 漏洞原因 Race Condition 发生在多个执行实体(如线程、进程)同时访问共享资源时,由于执行顺序…...
Vue 项目中,.env文件怎么用?
在 Vue 项目中,.env 文件用于存储环境变量,不同的环境(如开发环境、测试环境、生产环境)可以使用不同的 .env 文件来管理对应的配置信息。以下是关于 Vue 项目中 .env 文件的详细使用方法: 1. 项目创建 确保你已经使…...
LeetCode hot 100—爬楼梯
题目 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1. 1 阶 1 阶 2. 2 阶 示例…...
【js逆向】
地址:aHR0cHM6Ly93d3cud2VpYm90b3AuY24vMi4wLw f12进入 debugger,过debugger 查看预览数据 全局搜索 请求网址中的 api.weibotop.cn 在下方疑似找到了加密和解密的函数 断点调试 控制台输出 那个n就是 常见的 cryptoJs库 const cryptoJs require(cry…...
论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位(中国)
论文英文题目:A spatial interaction model of Qin-Han Dynasty organisation on the northern frontier and the location of the Zhidao highway (China) 发表于:journal of archaeological science,影响因子:3.030 论文主要是…...
DirectX12(D3D12)基础教程四 入门指南
本章主要讲了些D3D12概念和理论,对第一、二章相关概念的补充和纠正,要的理解D3D12概念和理论基础,结合代码加深理解。 命令队列和命令列表 为了实现渲染工作的重用和多线程缩放, 在 D3D12 中,做了三个重要方面不同于 …...
C语言:确定进制
题目: 6942对于十进制来说是错误的,但是对于13进制来说是正确的。即, 6(13) 9(13) 42(13), 而 42(13)4131213054(10)。 任务是写一段程序,读入三个整数p、q和 r,然后确定一个进制 B(2<B<40) 使得 p q r。 如果…...
如何在 Windows 10 启用卓越性能模式及不同电源计划对比
在使用 powercfg -duplicatescheme 命令启用 “卓越性能模式”(即 Ultimate Performance 模式)之前,有几个前提条件需要注意: 前提条件: 系统版本要求:卓越性能模式 仅在 Windows 10 专业版 或更高版本&a…...
eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)
说明: 想象一下,你正在用eNSP搭建一个虚拟的网络世界,里面有虚拟的路由器、交换机、电脑(PC)等等。这些设备都在你的电脑里面“运行”,它们之间可以互相通信,就像一个封闭的小王国。 但是&#…...
19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...
可靠性+灵活性:电力载波技术在楼宇自控中的核心价值
可靠性灵活性:电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中,电力载波技术(PLC)凭借其独特的优势,正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据,无需额外布…...
大数据零基础学习day1之环境准备和大数据初步理解
学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 (1)设置网关 打开VMware虚拟机,点击编辑…...
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
