nlp第十节——LLM相关
一、模型蒸馏技术

本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用交叉熵求分布。
KL散度:

二、SFT(有监督微调)
给模型的输入通常是问答对的形式,答就是对模型输出的监督,所以是一个有监督模型。在预训练阶段通常是对无标注数据进行自监督训练,可以减少很多人工标注的成本。相比较自回归预测下一个字的模型,SFT的区别在于,输入是问答对的方式,且输入与输出间有sep分隔,输出结果仍然按照预测下一个字的概率分布的形式,但是我们需要的结果是从sep开始的,而且loss只从预测出的sep后的第一个字开始计算,直到预测到终止符结束(使用掩码注意力机制进行训练,这是它与预训练在训练方式上的差距)

三、LLM的一些模型结构变化
multi-head共享:

第一个就是我们常见的multi-head机制,然后演化成了第三种multi-query,这种机制在计算k,v的时候不用768×768的矩阵,而是768×64的矩阵,再把L×64的矩阵与多个queries矩阵相乘,再拼接在一起,这种方式的目的是减少参数,加速训练。最后演化成了现在常用的第二种grouped-query,这种机制在计算k,v的时候不用768×768的矩阵,而是768×256的矩阵,然后分成四块,再将queries分组,分别相乘。
attention结构:

左边是传统的transformer block,右边进行了一些改动,将self-attention和feedfarward层并行计算,而不是左边的串行计算。
归一化层位置的选择:

归一化的方式:

激活函数:

swish函数相当于sigmoid(x)×x,有门的机制,对x的内容进行有效提取。
RoPE:
由于transformer在进行运算时,基本上都是线性层,改变两个字的顺序只会改变矩阵中行的位置,没有明显的位置信息,所以提出了位置编码。同时为了能让预测序列比训练序列长的时候仍有好的表现,也就是有比较好的长度外推性,提出了相对位置编码(bert里的position embedding是绝对位置编码,限制了预测的输出的长度)
换一种思维,我们本质上是想保留语序信息,所以我们可以在attention机制的部分保留每个字两两之间的语序信息,也就是保留第m个字和第n个字(m-n)的信息。所以提出了RoPE。它是在q和k矩阵相乘之前分别作用在q,k矩阵上的。

MOE架构:

在过线性层时,设置多个线性层,在进入feedforward前先做一个分类任务,经过router选择,一部分选择过线性层A,一部分选择过线性层B,然后按概率加权求和。
四、LLAMA2结构

在每一个block里,用pre-LN的方式先进行RMSnorm,接着过attention的掩码注意力机制层,q,k首先分别进行相对位置编码(RoPE),然后再相乘归一化后与v相乘,接着过一层线性层,过一层残差链接来到前馈网络,首先依然是RMSnorm,接着过线性层和激活函数再过一层线性层和残差链接。
相关文章:
nlp第十节——LLM相关
一、模型蒸馏技术 本质上是从一个大模型蒸馏出小模型,从小模型训练出来的概率分布(如自回归模型预测下一个字的概率分布)分别与大模型预测的概率分布和ground label求loss。与大模型预测的概率分布用KL散度求loss,与ground label用…...
Flutter管理项目实战
目录: 1、项目的构建和介绍 1、项目的构建和介绍 登录官网下载flutter的zip压缩包,解压到某个文件夹下即可,里面自带sdk的文件,无需再下载;创建项目时选定flutter的sdk的路径即可创建项目完成。 后续待完善࿰…...
智能差旅管理新范式:MyAgent如何重塑企业差旅全流程自动化
在快节奏的商业环境中,企业差旅管理长期面临着流程碎片化、人工操作繁复、合规风险高等痛点。传统模式下,员工需要反复填写纸质表单、逐级跑动审批,财务部门则要耗费大量时间核对票据,这种低效流程每年造成企业平均约15%的差旅管理…...
PostgreSQL 生产环境升级指南:pg_upgrade 快速完成版本升级!
前言 PostgreSQL 的版本号由主要版本号和次要版本号组成。例如,在 10.1 中,10 是主要版本,1 是次要版本。关于更多版本的规划,请参考 PostgreSQL 版本路线图。 版本号规则: PostgreSQL 10 及以后:版本号…...
UniApp 中封装 HTTP 请求与 Token 管理(附Demo)
目录 1. 基本知识2. Demo3. 拓展 1. 基本知识 从实战代码中学习,上述实战代码来源:芋道源码/yudao-mall-uniapp 该代码中,通过自定义 request 函数对 HTTP 请求进行了统一管理,并且结合了 Token 认证机制 请求封装原理ÿ…...
@update 的常见用法 Vue.js
在 Vue.js 中,update 是一个事件监听器,通常用于监听自定义组件或某些 Vue 原生组件(如 <input> 或自定义组件)的更新事件。它并不是 Vue 的核心 API,而是一种约定俗成的命名方式,用于处理组件内部状…...
基于开源库编写MQTT通讯
目录 1. MQTT是什么?2. 开发交互UI3. 服务器核心代码4. 客户端核心代码5. 消息订阅与发布6. 通讯测试7. MQTT与PLC通讯最后. 核心总结 1. MQTT是什么? MQTT(Message Queuing Terlemetry Transport)消息队列遥测协议;是…...
基于springboot+vue美食与健康分享推广网站
目录 项目介绍 图片展示 运行环境 项目介绍 管理员: 个人中心:修改个人信息、修改密码 美食分类管理:增删改查美食分类 商品分类管理:增删改查商品分类 热门美事管理:增删改查热门美食、以及查看评论、预览视频 在线…...
React面试葵花宝典之二
36.Fiber的更新机制 React Fiber 更新机制详解 React Fiber 是 React 16 引入的核心架构重构,旨在解决可中断渲染和优先级调度问题,提升复杂应用的流畅性。其核心思想是将渲染过程拆分为可控制的工作单元,实现更细粒度的任务管理。以下是其…...
计算机毕业设计SpringBoot+Vue.js装饰工程管理系统(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
从波士顿动力到Figure AI:探寻人工智能驱动的机器人智能化
一、引言 1.1 研究背景与意义 在科技飞速发展的当下,机器人智能化已成为全球科技竞争的关键领域,深刻影响着人类社会的生产与生活方式。从工业制造到日常生活服务,从医疗保健到探索未知领域,机器人正逐步渗透进各个行业,展现出巨大的发展潜力与应用价值。其智能化水平的…...
华为 VRP 系统简介配置SSH,TELNET远程登录
华为 VRP 系统简介&配置TELNET远程登录 1.华为 VRP 系统概述 1.1 什么是 VRP VRP(Versatile Routing Platform 华为数通设备操作系统)是华为公司数据通信产品的通用操作系统平台,从低端到核心的全系列路由器、以太网交换机、业务网关等…...
Token相关设计
文章目录 1. 双Token 机制概述1.1 访问令牌(Access Token)1.2 刷新令牌(Refresh Token) 2. 双Token 认证流程3. Spring Boot 具体实现3.1 生成 Token(使用 JWT)3.2 解析 Token3.3 登录接口(返回…...
【计算机网络入门】初学计算机网络(九)
目录 1.令牌传递协议 2. 局域网&IEEE802 2.1 局域网基本概念和体系结构 3. 以太网&IEEE802.3 3.1 MAC层标准 3.1.1 以太网V2标准 编辑 3.2 单播广播 3.3 冲突域广播域 4. 虚拟局域网VLAN 1.令牌传递协议 先回顾一下令牌环网技术,多个主机形成…...
xss笔记与打靶(更新中)
这个文章好 https://blog.csdn.net/huangyongkang666/article/details/123624164?fromshareblogdetail&sharetypeblogdetail&sharerId123624164&sharereferPC&sharesource2401_88818565&sharefromfrom_link 什么是xss XSS(跨站脚本攻击&…...
Lumoz Chain正式上线:AI 时代的新算力破局者
新的叙事和技术突破永远是推动行业前行的核心动力。当下,AI Agent无疑是最炙手可热的赛道之一。 当加密世界将目光投向AI领域时,大多数项目仍停留在以AI为工具或应用场景的层面,试图通过集成AI模型或优化链上功能来吸引用户。然而࿰…...
sql调优:优化响应时间(优化sql) ; 优化吞吐量
Sql性能调优的目的 1.优化响应时间>>优化sql 经过调优后,执行查询、更新等操作的时候,数据库的反应速度更快,花费的时间更少。 2.优化吞吐量 即“并发”, 就是“同时处理请求”的能力。 优化sql 尽量将多条SQL语句压缩到一句>…...
Linux常见操作命令
Linux系统拥有丰富的命令行工具,通过这些命令可以高效地完成各种系统管理和日常操作任务。以下是一些常见的Linux操作命令: 文件和目录操作: - 创建目录:使用 mkdir 命令,例如 mkdir test 可以创建名为 test 的目录。如…...
2020最新Java面试题
2020最新Java面试题 序Java基础JVMRedis 序 研发了这么多年,每天都在搬砖,斗转星移,从一个被面试者,成为了一个面试者。总感觉自己在面试的时候提出的问题没有一个由浅入深的感觉,总是东一个问题,西一个…...
递归遍历目录 和 普通文件的复制 [Java EE]
递归遍历目录 首先 先列出当前目录所包含的内容 File[] files currentDir.listFiles();if (files null || files.length 0) {// 若是空目录或非法目录, 则直接返回return;} 然后 遍历列出的文件, 分情况两种讨论 for (File f: files) {// 加个日志, 方便查看程序执行情…...
批量设置 Word 样式,如字体信息、段落距离、行距、页边距等信息
在 Word 文档中,我们可以做各种样式的处理。比如设置 Word 文档的字体样式、设置 Word 文档的段落样式以及设置 Word 文档的页面样式。我们通常可以在 Office 中完成这些操作,相信绝大部分场景我们也是这样完成的。但是如果我们手上有 1000 个 Word 文档…...
搜索赋能:大型语言模型的知识增强与智能提升
引言 近年来,大型语言模型(LLM)取得了显著的进展,并在各个领域展现出强大的能力。然而,LLM也存在一些局限性,尤其是在知识库方面。由于训练数据的局限性,LLM无法获取最新的知识,也无…...
c++ 预处理器和iostream 文件
在C中,预处理器和<iostream>头文件各自扮演关键角色,二者协同工作以实现程序的输入输出功能。以下是它们的详细关系和作用: 1. 预处理器的作用 处理预处理指令:预处理器在编译前执行,处理所有以#开头的指令&…...
ViewPager2跟ViewPager的区别
1都是用来实现页面切换的,ViewPager2是ViewPager的增强版和升级版,ViewPager2是基于RecyclerView实现,可以支持横向和竖向页面切换,只需在布局文件添加一个android:orientation"vertical"即可,ViewPager只支…...
win本地vscode通过代理远程链接linux服务器
时间:2025.2.28 1. win本地下载nmap.exe nmap官网 https://nmap.org/或者 https://nmap.org/download#windows下载win版本并安装。 2. vscode插件Remote-SSH 插件下载Remote-SSH 3. 配置 按照图中顺序配置ssh 1.点击左侧工具栏的“小电视”图标 2.点击ssh的…...
C++(蓝桥杯常考点)
前言:这个是针对于蓝桥杯竞赛常考的C内容,容器这些等下棋期再讲 C 在DEVC中注释和取消注释的方法:ctrl/ ASCII值(常用的): A-Z:65-90 a-z:97-122 0-9:48-57 换行/n:10科学计数法:eg:…...
蓝桥杯2025模拟三(01字符串)
【问题描述】 如果一个字符串中只包含字符 0 和字符 1,则称为一个 01 串(包含全为 0 的串和全为 1 的串)。 请问有多少个长度为 24 的 01 串,满足任意 5 个连续的位置中不超过 3 个位置的值为 1 。 【答案提交】 这是一道结果填空…...
EVOAGENT: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms
题目 EVOAGENT:通过进化算法实现多智能体自动生成 论文地址:https://openreview.net/pdf?id05bBTmRj9s 项目地址:https://evo-agent.github.io/ 摘要 强大的大型语言模型(LLM)的出现激发了一种新的趋势,即构建基于LLM的自治代理来解决复杂的…...
Linux虚拟机网络配置-桥接网络配置
简介 本文档旨在指导用户如何在虚拟环境中配置Linux系统的桥接网络,以实现虚拟机与物理主机以及外部网络的直接通信。桥接网络允许虚拟机如同一台独立的物理机一样直接连接到物理网络,从而可以被分配一个独立的IP地址,并能够与网络中的其他设…...
使用Docker搭建Oracle Database 23ai Free并扩展MAX_STRING_SIZE的完整指南
使用Docker搭建Oracle Database 23ai Free并扩展MAX_STRING_SIZE的完整指南 前言环境准备目录创建启动Docker容器 数据库配置修改进入容器启动SQL*PlusPDB操作与字符串扩展设置配置验证 管理员用户创建注意事项总结 前言 本文将详细讲解在Docker环境中配置Oracle Database 23a…...
