[笔记.AI]大模型训练 与 向量值 的关系
(借助 DeepSeek-V3 辅助生成)
大模型在训练后是否会改变向量化的值,取决于模型的训练阶段和使用方式。以下是详细分析:
1. 预训练阶段:向量化值必然改变
-
动态调整过程:
在预训练阶段(如BERT、GPT的初始训练),模型的嵌入层(Embedding Layer)作为可训练参数,通过反向传播不断优化。每个词或子词的向量会根据上下文共现模式和任务目标(如掩码语言建模、自回归预测)动态调整。 -
示例:
-
词汇“苹果”在初始时可能随机分布,但经过训练后,其向量会靠近“水果”或“公司”(取决于上下文频率)。
-
语义关系(如“国王-男人+女人≈女王”)在此阶段被编码到向量空间中。
-
2. 预训练完成后:向量化值固定
-
冻结模型参数:
一旦预训练完成且模型参数被冻结(不再更新),向量化的值将保持不变。此时模型仅用于推理(如生成文本、特征提取)。 -
应用场景:
-
直接使用预训练模型提取文本向量(如BERT的CLS向量)。
-
在未微调的情况下处理下游任务,向量化值不变化。
-
3. 微调阶段:向量化值可能改变
-
微调策略决定是否更新:
在特定任务上微调时,通常有两种策略:-
全参数微调:解冻所有模型参数(包括嵌入层),向量化的值会随新任务的数据调整。
-
适用场景:数据量充足,需深度适配领域特性(如法律文本微调)。
-
影响:“合同”等专业术语的向量会更贴近领域语义。
-
-
部分参数微调:仅解冻部分层(如顶层Transformer块),保持嵌入层冻结。
-
适用场景:数据量少,防止过拟合。
-
影响:向量化值不变,模型依赖预训练语义。
-
-
-
轻量级微调技术:
-
Prompt Tuning:仅优化提示词(Prompt)的向量,不修改原始嵌入。
-
Adapter:在模型中插入小型可训练模块,保持原始参数(包括嵌入)固定。
-
LoRA:通过低秩矩阵调整注意力层,不改变嵌入层。
-
4. 不同模型架构的差异
-
BERT vs. GPT:
-
BERT:由于双向注意力机制,微调时嵌入层调整可能更显著(需适配全局上下文)。
-
GPT:单向自回归生成,嵌入层调整侧重于左向上下文适配。
-
-
静态嵌入 vs. 动态嵌入:
-
静态嵌入(如Word2Vec):训练完成后向量固定,无法随任务调整。
-
动态嵌入(如BERT、GPT):嵌入层可参与微调,向量值可变。
-
5. 为什么需要改变向量化值?
-
领域适配:
通用语料训练的向量可能无法准确表示专业术语(如医疗词汇“化疗”需更接近“癌症”而非日常语境)。 -
语义演化:
新词汇(如“元宇宙”)或词义变化(如“直播”从电视到互联网)需更新向量。 -
任务需求:
情感分析任务需强化情感极性(如“优秀”向量靠近“积极”方向)。
6. 实际应用中的权衡
| 场景 | 是否改变向量化值 | 优缺点 |
|---|---|---|
| 直接推理 | 否 | 保持预训练通用性,但无法适配领域或新任务。 |
| 全参数微调 | 是 | 最大化任务性能,但需大量数据且计算成本高。 |
| 轻量级微调 | 否 | 节省计算资源,适合小数据,但性能可能受限。 |
| 在线学习(持续训练) | 是 | 动态适应新数据(如新闻模型跟踪热点事件),但需谨慎管理灾难性遗忘。 |
总结
-
预训练阶段:向量化值必然改变,模型学习通用语义表示。
-
推理阶段(无微调):向量化值固定,直接应用预训练知识。
-
微调阶段:根据策略选择是否更新向量化值,全参数微调会改变,轻量级方法则保持固定。
-
核心权衡:领域适配需求 vs. 计算成本 & 过拟合风险。
相关文章:
[笔记.AI]大模型训练 与 向量值 的关系
(借助 DeepSeek-V3 辅助生成) 大模型在训练后是否会改变向量化的值,取决于模型的训练阶段和使用方式。以下是详细分析: 1. 预训练阶段:向量化值必然改变 动态调整过程: 在预训练阶段(如BERT、…...
LeetCode 解题思路 30(Hot 100)
解题思路: 递归参数: 生成括号的对数 n、结果集 result、当前路径 path、左括号数 open、右括号数 close。递归过程: 当当前路径 path 的长度等于 n * 2 时,说明已经生成有效括号,加入结果集。若左括号数小于 n&…...
Java EE(18)——网络原理——应用层HTTP协议
一.初识HTTP协议 HTTP(HyperText Transfer Protocol,超文本传输协议)是用于在客户端(如浏览器)和服务器之间传输超媒体文档(如HTML)的应用层协议。 HTTP协议发展至今发布了多个版本,其中1.0,1.…...
强大而易用的JSON在线处理工具
强大而易用的JSON在线处理工具:程序员的得力助手 在当今的软件开发世界中,JSON(JavaScript Object Notation)已经成为了数据交换的通用语言。无论是前端还是后端开发,我们都经常需要处理、验证和转换JSON数据。今天&a…...
Qt笔记----》不同环境程序打包
文章目录 概要1、windows环境下打包qt程序2、linux环境下打包qt程序2.1、程序目录2.2、创建一个空文件夹2.3、添加依赖脚本2.4、打包过程2.4.1、添加程序依赖库2.4.2、添加Qt相关依赖库 概要 qt不同运行环境下打包方式:windows/linux 1、windows环境下打包qt程序 …...
企业服务器备份软件,企业服务器备份的方法有哪些?
企业服务器备份需综合考虑数据量、业务连续性要求(RTO/RPO)、合规性及成本等因素。以下是分场景的工具和方法指南: 一、备份软件推荐 1. 80KM备份软件 80KM备份软件可以进行很复杂的备份方式,也可以内网对内网备份、还能内网的…...
Vue3 表单
Vue3 表单 随着前端技术的发展,Vue.js 作为一款流行的前端框架,不断更新迭代,以适应更高效、更便捷的开发需求。Vue3 作为 Vue.js 的第三个主要版本,引入了许多新特性和改进,其中包括对表单处理机制的优化。本文将深入探讨 Vue3 表单的使用方法、技巧以及注意事项。 1. …...
html5炫酷图片悬停效果实现详解
html5炫酷图片悬停效果实现详解 这里写目录标题 html5炫酷图片悬停效果实现详解项目介绍技术栈核心功能实现1. 页面布局2. 图片容器样式3. 炫酷悬停效果缩放效果倾斜效果模糊效果旋转效果 4. 悬停文字效果5. 性能优化6. 响应式设计 项目亮点总结 项目介绍 本文将详细介绍如何使…...
安徽京准:GPS北斗卫星校时服务器助力大数据云计算
安徽京准:GPS北斗卫星校时服务器助力大数据云计算 安徽京准:GPS北斗卫星校时服务器助力大数据云计算 GPS北斗卫星校时服务器在大数据与云计算系统中发挥着关键作用,其通过提供高精度、高可靠的时间同步服务,解决了分布式系统的核…...
【Linux】内核驱动学习笔记(二)
7、framebuffer驱动详解 7.1、什么是framebuffer (1)裸机中如何操作LCD (2)OS下操作LCD的难点 (3)framebuffer帧缓冲(简称fb)是linux内核中虚拟出的一个设备 (4)framebuffer向应用层提供一个统一标准接口的显示设备 (5)从驱动来看,fb是一个…...
机器学习的一百个概念(5)数据增强
前言 本文隶属于专栏《机器学习的一百个概念》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库 知识库广场搜索&…...
在MCU工程中优化CPU工作效率的几种方法
在嵌入式系统开发中,优化 CPU 工作效率对于提升系统性能、降低功耗、提高实时性至关重要。Keil 作为主流的嵌入式开发工具,提供了多种优化策略,包括 关键字使用、内存管理、字节对齐、算法优化 等。本文将从多个方面介绍如何在 Keil 工程中优…...
优化程序命名:提升专业感与用户体验
在软件开发的广阔天地中,程序命名这一环节常常被开发者们忽视。不少程序沿用着简单直白、缺乏雕琢的名字,如同素面朝天的璞玉,虽不影响其核心功能的发挥,但却在无形之中错失了许多提升用户印象与拓展应用场景的机会。今天…...
美团民宿 mtgsig 小程序 mtgsig1.2 分析
声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向分析 cp execjs.compile(open(民…...
短视频团队架构工作流程---2025.3.30 李劭卓
短视频团队架构&工作流程—2025.3.30 李劭卓 文章目录 短视频团队架构&工作流程---2025.3.30 李劭卓1 工作职责1.1 编剧:1.2 主编:1.3 总编:1.4 导演:1.5 摄影:1.6 演员:1.7 后期:1.8 美…...
es 集群存储字典 json字段----python实现
本人的意思是value为json格式数据,而不是简单的如下这种:这种我就没有必要写个博文,肯定是复杂的情况啊。 from elasticsearch import Elasticsearch import json# 创建Elasticsearch客户端 es = Elasticsearch([{host: localhost, port: 9200}])# 定义要存储的字典 my_dic…...
(done) MIT6.824 Lecture 02 - RPC and Threads
知乎专栏:https://zhuanlan.zhihu.com/p/641105196 原视频:https://www.bilibili.com/video/BV16f4y1z7kn?spm_id_from333.788.videopod.episodes&vd_source7a1a0bc74158c6993c7355c5490fc600&p2 看知乎专栏 一、Why we choose go?…...
软件工程面试题(二十四)
1、连接池的原理 j2ee 服务器启动时会建立一定数量的池连接,并一直维持不少于此数量的池连接。当客户端程序需要连接时,吃驱动程序会返回一个未使用的池连接并将其标记为忙。如果当前 没有空闲连接,池驱动就建立一定新的 连接 2、用javascript编写脚本小程序,实现点击全选…...
LayaAir3.3.0-beta.3重磅更新!Spine4.2、2D物理、UI系统、TileMap等全面升级!
正式版推出前,说明3.3的功能还没开发完。所以,又一大波更新来了~ 下面对重点更新进行说明。 Spine的重要更新 3.3.0-beta.3版本开始,新增了Spine 4.2 的运行时库,Spine动画上可以支持物理特性了。例如,下图右侧女孩在启…...
【AI学习】机器学习算法
1,线性回归模型(Linear Regression):预测连续数值 寻找自变量(解释变量)与因变量(被解释变量)之间的线性关联关系,通过构建线性方程来对数据进行拟合和预测。即两个变量之间是一次函…...
【渗透测试】Vulnhub靶机-FSoft Challenges VM: 1-详细通关教程
下载地址:https://www.vulnhub.com/entry/fsoft-challenges-vm-1,402/ 目录 前言 信息收集 目录扫描 wpscan扫描 修改密码 反弹shell 提权 思路总结 前言 开始前注意靶机简介,当第一次开机时会报apache错误,所以要等一分钟后重启才…...
【区块链+ 房产建筑】山东省建筑产业互联网平台 | FISCO BCOS 应用案例
山东省建筑产业互联网平台(山东省弘商易盟平台)是基于区块链技术构建的分布式产业互联网平台, 旨在把各企业内部的供应链协同管理系统(包括采购或者SRM 系统, 以及销售或CRM 系统)利用区块链技术链接起来&a…...
Node.js全局生效的中间件
目录 1. 目录结构 2. 代码实现 2.1 安装Express 2.2 app.js - 主文件 2.3 globalMiddleware.js - 全局中间件 3. 程序运行结果 4. 总结 在Node.js的Express框架中,全局生效的中间件是指应用程序启动后,对所有请求都有效的中间件。它通常用于日志记…...
国家天文台携手阿里云,发布国际首个太阳大模型“金乌”
2025年4月1日,中国科学院国家天文台与阿里云共同宣布推出全球首个太阳物理大模型“金乌”,在太阳活动预测领域实现颠覆性突破——其针对破坏性最强的M5级太阳耀斑预报准确率高达91%,远超传统数值模型,标志着人类对太阳的认知迈入“…...
数据结构(5)——栈
目录 前言 一、栈的概念及其结构 二、栈的实现 2.1说明 2.2动态栈结构体定义 2.3初始化 2.4销毁 2.5进(压)栈 2.6检验栈是否为空 2.7弹(出)栈 2.8栈的元素个数 2.9访问栈顶元素 三、运行 总结 前言 栈是一种常见的…...
Css径向渐变 - radial-gradient
由background-image: radial-gradient(at 75% 7%, blue 0px, transparent 50%);引出: 一、径向渐变是什么 径向渐变是颜色从一个中心点向外扩散的变化过程。 二、radial-gradient 函数是什么 1、使用语法: background-image: radial-gradient(shape si…...
理解激活函数,多个网络层之间如何连接
1. 激活函数如何在两个层之间作用 如果不在两个层之间添加激活函数,模型将无法学习非线性关系,表现出像线性模型一样的局限性。 LeakyReLU(0.2) 是一个激活函数,它的作用是对每一层的输出进行非线性转换。激活函数通常在神经网络中用于增加网…...
HTML5 Canvas绘画板项目实战:打造一个功能丰富的在线画板
HTML5 Canvas绘画板项目实战:打造一个功能丰富的在线画板 这里写目录标题 HTML5 Canvas绘画板项目实战:打造一个功能丰富的在线画板项目介绍技术栈核心功能实现1. 画板初始化与工具管理2. 多样化绘画工具3. 事件处理机制 技术要点分析1. Canvas上下文优化…...
2025亲测有用 yolov8 pt转onnx转ncnn 部署安卓
参考文章:pt转onnx转ncnn模型(yolov8部署安卓)_best.pt 转ncnn模型-CSDN博客 Yolov8-Ncnn模型部署Android,实现单一图片识别_yolov8转ncnn-CSDN博客 onnx转化为ncnn这条路径现在已经落后了,更多的是通过pnnx转化为nc…...
cursor的.cursorrules详解
文章目录 1. 文件位置与作用2. 基本语法规则3. 常用规则类型与示例3.1 忽略文件/目录3.2 限制代码生成范围3.3 自定义补全建议3.4 安全规则 4. 高级用法4.1 条件规则4.2 正则表达式匹配4.3 继承规则 5. 示例文件6. 注意事项 Cursor 是一款基于 AI 的智能代码编辑器,…...
