LLM 学习(一 序言)
文章目录
- LLM 学习(一 序言)
- 知识点1:“Embedding” 在人工智能领域:
- 知识点2:Embedding 引入位置信息的原因
- 知识点3:在 Transformer 的 Decoder 翻译第 i 个单词时进行 Mask 第 i+1 个单词的操作
LLM 学习(一 序言)
1.序言
LLM学习 Transformer 结构大概,图片的视频链接




知识点补充:
知识点1:“Embedding” 在人工智能领域:
是一种 “向量化” 或 “向量表示” 的技术,核心是将各类数据映射为连续向量,以在向量空间中体现数据特征及相互关系。
- 机器学习:原理是把离散数据映射为连续向量,从而捕捉数据间潜在关系;通常使用神经网络中的 embedding 层,经训练得到数据的向量表示。该技术能提升模型性能,增强其泛化能力,还可降低计算成本。
- 自然语言处理(NLP):基于分布式假设,将文本转换为连续向量来捕捉语义信息。常采用词嵌入技术(如 word2vec)或复杂模型(如 Bidirectional Encoder Representations from Transformers,BERT,基于 Transformer 的双向编码器表示)学习文本表示,能够解决词汇鸿沟问题,为文本分类、情感分析、机器翻译等复杂 NLP 任务提供支持,助力文本语义理解。在该领域中,语义相近的单词在向量空间中的位置也相近。
- 图像领域:如 image embedding(图像嵌入),是将图像映射为向量,以便计算机更好地处理和理解图像信息,用于图像检索、分类等任务。
知识点2:Embedding 引入位置信息的原因
此外,在一些生成式 AI 工具(如 Stable Diffusion )的应用场景中,Embedding 可理解为提示词打包。通过引入特定的触发词,就能代表原本大量描述性提示词的含义,在文件体积小的情况下,引导生成符合预期的结果,还能用于生成特定动作、特征或画风 。
在 Transformer 等模型中,Embedding 需要引入位置信息主要有以下原因:
- 捕捉序列顺序:自然语言是一种具有顺序结构的信息,词语在句子中的位置不同,句子表达的含义也会不同,如 “我喜欢你” 和 “你喜欢我”。普通的词 Embedding 只是对词本身语义的表示,不包含位置信息 ,引入位置 Embedding 能让模型感知词语在序列中的位置,从而理解句子的正确语义和逻辑顺序。
- 解决模型局限性:Transformer 模型基于自注意力机制,这种机制本身在处理输入时平等对待每个位置的元素,没有内置的顺序信息。若不添加位置 Embedding,模型无法区分 “苹果被我吃了” 和 “我吃了苹果” 这样词相同但顺序不同的句子,位置 Embedding 能弥补这一缺陷,增强模型对序列结构的理解能力。
- 提升模型性能:对于机器翻译、文本生成等任务,准确把握序列顺序至关重要。位置 Embedding 帮助模型更好地学习长距离依赖关系和上下文信息,在处理长句子时,能让模型知道不同词语之间的相对位置,从而更准确地生成或理解文本,提升模型在各类自然语言处理任务中的表现。
知识点3:在 Transformer 的 Decoder 翻译第 i 个单词时进行 Mask 第 i+1 个单词的操作
- 符合翻译的自回归特性
Transformer 的 Decoder 部分是自回归模型,模拟人类翻译过程,即从左到右依次生成译文单词。在翻译第 i 个单词时,模型应该仅依据已经翻译出的 1 到 i-1 个单词以及 Encoder 传递过来的源语言编码信息进行预测,而不应该提前 “看到” 未来要生成的单词(第 i+1 个及之后的单词)。如果不进行 Mask 操作,模型就会利用到未来单词的信息,这与实际的翻译过程和自回归机制不符,也无法真实地学习到单词之间的依赖关系和正确的生成顺序。 - 防止模型信息泄露
在训练过程中,如果不将第 i+1 个及之后的单词 Mask 掉,模型在预测第 i 个单词时,会无意中获取到后续单词的信息,导致模型不是基于正确的上下文来学习和预测,从而产生信息泄露问题。通过 Mask 操作,能够强制模型只能利用当前已有的信息进行预测,让模型学习到如何根据已有的上文生成下一个合理的单词,提高模型对上下文信息的理解和利用能力,增强模型的泛化能力和鲁棒性,使其在实际翻译任务中表现得更好。
相关文章:
LLM 学习(一 序言)
文章目录 LLM 学习(一 序言)知识点1:“Embedding” 在人工智能领域:知识点2:Embedding 引入位置信息的原因知识点3:在 Transformer 的 Decoder 翻译第 i 个单词时进行 Mask 第 i1 个单词的操作 LLM 学习&am…...
STM32-HAL库初始化时钟
使能和失能外设GPIOA 时钟信号初始化函数 HAL_RCC_OscConfig函数: HAL_StatusTypeDef是该函数的返回值类型,最顶上的那句话只是这个函数的原型 HAL_RCC_ClockConfig函数: 因为FLASH实际上只能支持24MHz的时钟信号所以如果用高于24MHz的信号输入则要用到等…...
MySQL主从架构配合ShardingJdbc实现读写分离
文章目录 目录架构搭建读写分离pom.xmlfdy-live-user-provider 模块application.ymlfdy-db-sharding.yamlShardingJdbcDatasourceAutoInitConnectionConfig.java 目录 架构搭建 基于Docker去创建MySQL的主从架构 读写分离 pom.xml <dependency><groupId>mysql…...
批量将 Word 拆分成多个文件
当一个 Word 文档太大的时候,我们通常会将一个大的 Word 文档拆分成多个小的 Word 文档,在 Office 中拆分 Word 文档是比较麻烦的,我们需要将 Word 文档的页面复制到另外一个 Word 文档中去,然后删除原 Word 文档中的内容。当然也…...
【算法系列】桶排序算法介绍及实现
文章目录 桶排序算法介绍及实现桶排序的基本原理算法实现步骤Java代码实现性能优化结论 桶排序算法介绍及实现 桶排序的基本原理 桶排序(Bucket Sort)是一种基于分组的排序算法,其核心思想是将一组数据按某种 规则分配到多个桶中࿰…...
当AI开始“思考“:拆解大模型训练与推理的秘密(以DeepSeek为例)
如果你用过deepseek,可能体验过它在几秒内编故事、写代码的震撼。但你是否想过,这种"智能输出"背后存在两种完全不同的底层机制?就像人类需要先学习知识(训练)才能考试答题(推理)&…...
13.数据结构(软考)
13.数据结构(软考) 13.1:线性表 13.1.1 顺序表 顺序存储方式:数组的内存是连续分配的并且是静态分配的,即在使用数组之前需要分配固定大小的空间。 时间复杂度: 读:O(1) 查询:1,(n1)/2&#x…...
拉拉扯扯adfda
read -p "请输入一个成绩:" sorce if [ "$sorce" -ge 90 -a "$sorce" -le 100 ] thenecho A elif [ "$sorce" -ge 80 -a "$sorce" -lt 90 ] thenecho B elif [ "$sorce" -ge 70 -a "$sorce"…...
【计算机网络】TCP
1.基本概念及报文格式 基本概念: TCP的中文全称为传输控制协议(Transmission Control Protocol),是一种可靠的,面向连接的,基于字节流的传输层通信协议。 报文格式: 序号 :占32⽐…...
doris: PostgreSQL
Doris JDBC Catalog 支持通过标准 JDBC 接口连接 PostgreSQL 数据库。本文档介绍如何配置 PostgreSQL 数据库连接。 使用须知 要连接到 PostgreSQL 数据库,您需要 PostgreSQL 11.x 或更高版本 PostgreSQL 数据库的 JDBC 驱动程序,您可以从 Maven 仓…...
深度学习笔记——神经网络
本文为在拓尔思智能举办的训练营中学习内容的总结,部分内容摘自百度百科 个人在这里推荐一个好用的软件,Trae,主要是免费。 人工神经元是人工神经网络的基本单元。模拟生物神经元,人工神经元有1个或者多个输入(模拟多…...
django中路由配置规则的详细说明
在 Django 中,路由配置是将 URL 映射到视图函数或类视图的关键步骤,它决定了用户请求的 URL 会触发哪个视图进行处理。以下将详细介绍 Django 中路由配置的规则、高级使用方法以及多个应用配置的规则。 基本路由配置规则 1. 项目级路由配置 在 Django 项目中,根路由配置文…...
关于tomcat使用中浏览器打开index.jsp后中文显示不正常是乱码,但英文正常的问题
如果是jsp文件就在首行加 “<% page language"java" contentType"text/html; charsetUTF-8" pageEncoding"UTF-8" %>” 如果是html文件 在head标签加入: <meta charset"UTF-8"> 以jsp为例子,我们…...
pytest结合allure
Allure 一、文档二、指令三、装饰器3.1 allure.step装饰器3.2 allure.description装饰器3.3 allure.title装饰器3.4 allure.link、allure.issue 和 allure.testcase装饰器3.5 allure.epic、allure.feature 和 allure.story装饰器3.6 allure.severity装饰器 一、文档 allure文档…...
机器学习在地图制图学中的应用
原文链接:https://www.tandfonline.com/doi/full/10.1080/15230406.2023.2295948#abstract CSDN/2025/Machine learning in cartography.pdf at main keykeywu2048/CSDN GitHub 核心内容 本文是《制图学与地理信息科学》特刊的扩展评论,系统探讨了机…...
vue2升vue3,uniapp兼容鸿蒙app踩坑记录
前提:最近鸿蒙势头很好,公司的 uniapp vue2 项目,要兼容鸿蒙app。就开始了我的uniapp转鸿蒙踩坑之旅,请看下文(注意下文都是在uniapp开发基础上) 1. 首先鸿蒙开发只支持Vue3,不支持Vue2、不支持…...
Linux基础网络设置
文章目录 Linux基础网络设置介绍查看和配置网络接口查看活动网络接口信息临时修改网卡IP地址永久修改IP地址启用和关闭网卡 主机名设置查看和临时修改主机名永久修改主机名 路由表设置查看路由表信息 网络连接状态和接口统计信息查看网络连接状态 网络连通性测试测试网络连通性…...
DeepSeek × 豆包深度整合指南:工作流全解析
DeepSeek 豆包深度整合指南:工作流全解析 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc 文章目录 DeepSeek 豆包深度整合指南:工…...
海思Hi3516DV300交叉编译opencv
OpenCV是一个开源的跨平台计算机视觉库,支持C、Python等多种语言,适用于图像处理、目标检测、机器学习等任务。其核心由C编写,高效轻量,提供实时视觉处理功能,广泛应用于工业自动化、医疗影像等领域。 1 环境准备 1…...
【AI赋能】AI 工具生成视频教材:从创意到成品的全流程指南
AI 工具生成视频教材:从创意到成品的全流程指南 目标 通过本教材,您将学会如何利用 AI 工具(Grok、Sora、Speechify 和 CapCut)生成一个完整的视频,包括脚本生成、视频片段制作、字幕添加、音频生成以及最终剪辑合成…...
[FE] React 初窥门径(五):React 组件的加载过程(commit 阶段)
1. 回顾 前一篇文章我们看到,ReactDOM.render 总共包含这些步骤, 然后介绍了 performSyncWorkOnRoot 做的事情,它主要做了两件事, renderRootSync 可称之为 render 阶段:创建了一颗 Fiber Tree(包含 html …...
Linux(Centos 7.6)命令详解:vim
1.命令作用 vi/vim 是Linux 系统内置不可或缺的文本编辑命令,vim 是vi 的加强版本,兼容vi 的所有指令,不仅能编辑文本,而且还具有shell 程序编辑的功能,可以不同颜色的字体来辨别语法的正确性。 2.命令语法 usage: …...
Kubernetes Pod网络组件解析与选型指南
前言 在Kubernetes集群中,Pod网络插件是支撑容器间通信的核心基础设施。它决定了Pod如何跨节点互联、如何与外部服务交互,甚至如何实现网络安全策略。本文将从技术原理、主流方案对比到选型实践,全方位解析Pod网络组件的设计哲学与落地策略。…...
java环境部署
java环境部署 一、准备工作 jrejdkeclipse jdk下载:21和1.8-----官网:Oracle:Java 下载 |神谕 该处选择要依据自身的系统类型选择下载 idea的下载安装:IntelliJ IDEA | Other Versions 二、安装 三、环境配置 四、使用 五、i…...
100天精通Python(爬虫篇)——第115天:爬虫在线小工具_Curl转python爬虫代码工具(快速构建初始爬虫代码)
文章目录 一、curl是什么?二、爬虫在线小工具(牛逼puls)三、实战操作 一、curl是什么? 基本概念:curl 支持多种协议,如 HTTP、HTTPS、FTP、SFTP 等,可用于从服务器获取数据或向服务器发送数据&a…...
查看k8s集群的资源使用情况
查看Kubernetes(k8s)集群的资源使用情况有多种方法,以下是一些常见的方式: 使用kubectl命令行工具 查看节点资源使用情况 kubectl top nodes命令可以显示集群中各个节点的CPU和内存使用情况。例如: NAME …...
【渗透测试】基于时间的盲注(Time-Based Blind SQL Injection)
发生ERROR日志告警 查看系统日志如下: java.lang.IllegalArgumentException: Illegal character in query at index 203: https://api.weixin.qq.com/sns/jscode2session?access_token90_Vap5zo5UTJS4jbuvneMkyS1LHwHAgrofaX8bnIfW8EHXA71IRZwsqzJam9bo1m3zRcSrb…...
Electron应用中获取设备唯一ID和系统信息
让我创建一篇关于如何在Electron应用中获取设备唯一ID和系统信息,并在登录时使用这些信息的博客文章。我将确保步骤明确、条理清晰,适合初学者和有经验的开发者。 这篇博客应包含以下部分: 介绍 - 为什么需要获取设备信息前提条件和安装依赖…...
python-leetcode-解决智力问题
2140. 解决智力问题 - 力扣(LeetCode) 这道题是一个典型的 动态规划(Dynamic Programming, DP) 问题,可以使用 自底向上 的方式解决。 思路 定义状态: 设 dp[i] 表示从第 i 题开始,能获得的最高…...
SpireCV荣获Gitee 最有价值开源项目称号
什么是GVP? GVP全称Gitee Valuable Project,意思为Gitee最有价值开源项目。作为GVP称号的获得者,SpireCV在开源社区中展现出了卓越的实力和影响力,为开源软件的发展和推广做出了积极的贡献。 这一荣誉不仅充分肯定了过去阿木实验…...
