当前位置: 首页 > article >正文

大模型输入的“灵魂”步骤:Embedding如何让0、1、2变得有“意义”?

什么是大模型什么是token什么是词表到这里整个输入流程已经走到这一步了文本 → 按词表切分 → token → token ID比如一句话我 是 学生经过词表后可能变成我 → 0 是 → 1 学生 → 2但是问题来了模型看到的0、1、2真的能理解“我是学生”是什么意思吗答案是不能。因为这些数字只是编号不是含义。所以下一步就很关键把token ID变成向量。这一步就叫Embedding。编号不是语义先说一个很容易误解的点token ID只是编号不代表意思。比如猫 → 1024 狗 → 1025 汽车 → 1026这些编号只是为了方便查找。不能因为1024和1025很接近就说明猫和狗语义很接近。更不能因为1026离1024也很近就说汽车和猫也差不多。所以模型不能直接拿这些编号做理解。token ID更像是图书馆里书的编号。编号只是告诉你去哪里找这本书但编号本身不等于书的内容。Embedding是什么Embedding就是把token变成一串数字向量。比如猫 → [0.12, -0.35, 0.88, 0.41, ...] 狗 → [0.10, -0.32, 0.84, 0.39, ...] 汽车 → [-0.76, 0.21, -0.14, 0.93, ...]这些向量才是模型真正用来计算的东西。也就是说模型不是直接处理猫这个字也不是直接处理token ID 1024而是处理[0.12, -0.35, 0.88, 0.41, ...]这样一串数字。为什么要变成向量因为模型本质上是数学模型。它不能直接理解文字、基因、蛋白质、分子结构这些符号。它真正能处理的是数字矩阵向量加减乘除相似度计算所以Embedding做的事情就是把符号世界翻译成数学世界。可以这样理解文字/符号 → token → token ID → 向量这一步完成之后模型才能继续往下算。向量里到底装了什么很多人看到向量会觉得很抽象。比如[0.12, -0.35, 0.88, 0.41, ...]这串数字到底代表什么其实可以先不用把每一维都想得太具体。你只要先记住一个核心直觉相似的东西向量会更接近。比如在自然语言里猫和狗经常出现在相似语境中都可能和宠物、动物、吃饭、睡觉这些词有关所以经过训练后它们的向量往往会更接近。而猫和发动机出现的语境差别很大它们的向量距离通常会更远。可以把embedding想象成一张语义地图如果觉得向量空间太抽象可以先把它想象成一张地图。在这张地图上猫、狗、兔子可能在一个区域汽车、发动机、轮胎可能在另一个区域医生、医院、护士可能又在另一个区域也就是说每个token都被放到了一个位置上。位置相近说明它们在模型学到的世界里更相似。这就是为什么我们常说Embedding是一种表示。它不是简单地把词换成数字而是试图用数字位置表达它和其他词之间的关系。Embedding是谁规定的不是人工规定的。不是有人手动告诉模型猫和狗要近一点猫和汽车要远一点Embedding是模型在训练过程中自己学出来的。模型会在大量文本里不断观察哪些词经常一起出现哪些词出现在类似上下文哪些词可以完成类似句子哪些词之间存在稳定关系比如小猫在沙发上睡觉小狗在沙发上睡觉猫和狗经常出现在相似位置模型就会逐渐学到它们有某种相似性。这不是人直接教的而是模型从大量数据里统计出来的。不同领域的embedding其实逻辑一样Embedding不只用于自然语言。只要是符号化的数据都可以走这条路符号 → token → ID → embedding 向量自然语言词/字/子词 → 语义向量例如医生、护士、医院在语义空间里可能更接近。基因序列A / T / C / G 或 k-mer → 序列向量例如ATG可以作为一个token变成向量。模型学习的可能是序列片段和功能之间的关系。蛋白质序列氨基酸 → token → embedding比如A / R / N / D / ...这些氨基酸token的向量可能蕴含结构、功能、保守性等信息。分子SMILES对于分子来说SMILES也可以看成一种化学语言。比如CC(O)O可以被拆成C / C / ( / / O / ) / O或者更复杂的片段token。这些token再变成embedding 后模型就可以学习哪些结构片段相似哪些结构组合可能影响活性哪些分子更可能具有相似性质Embedding和词表是什么关系这两个概念很容易混。可以这样理解词表负责认识谁embedding负责怎么表示它比如词表里有ID 0 → 我 ID 1 → 是 ID 2 → 学生Embedding层会为每个ID准备一个向量ID 0 → [0.21, -0.13, 0.77, ...] ID 1 → [-0.08, 0.45, 0.19, ...] ID 2 → [0.66, -0.31, 0.52, ...]所以完整过程是文本 → token → token ID → 查表 → embedding向量这里的查表非常关键。Embedding层本质上也可以理解成一张大表每一行 一个token的向量模型拿到token ID后并不是直接把这个编号拿去计算而是先到embedding表中查表找到这个ID对应的向量表示。也就是说输入阶段是token ID → embedding向量。同理模型在预测输出时也不是直接吐出文字而是先计算出下一个位置最可能对应的token ID再通过词表把这个ID还原成具体的文字或符号。也就是说输出阶段是模型计算结果 → token ID → 文字输入时文字 → token → token ID → embedding 向量 → 模型计算 输出时模型计算 → 预测 token ID → 查词表 → 生成文字Embedding一开始就有意义吗不一定。很多模型刚开始训练时embedding可能是随机初始化的。也就是说一开始猫、狗、汽车它们的向量位置可能是乱的。随着训练进行模型不断调整这些向量。慢慢地经常相似使用的 token 会靠近差异很大的 token 会分开某些关系会在空间中形成稳定结构所以 embedding 不是固定死的而是训练出来的。为什么embedding很重要因为后面的Transformer、Attention、MLP处理的都不是原始文字而是embedding向量。如果embedding质量不好语义关系会混乱相似性判断会出错后面模型再复杂也很难补救可以打个比方**embedding是模型理解世界的坐标系。坐标系建得好后面的计算才有意义。**坐标系如果乱了模型就很难稳定工作。一个容易忽略的问题一个token的向量固定吗在最开始的 embedding 表里每个 token 确实有一个固定的初始向量。但进入Transformer之后情况就变了。同一个token在不同句子里最终表示可能不同。比如苹果 很 甜 苹果 公司 发布 新手机这里两个苹果一开始查到的embedding可能一样但经过上下文计算之后最终向量会不一样。这就是为什么大模型能根据上下文理解不同含义。所以可以这样说embedding是起点不是终点。初始embedding让token进入模型上下文计算让它变成更具体的含义。如果只记一句话Embedding就是把token从编号变成可计算的向量表示。它解决的是模型如何把符号变成数学对象。完整链条是文本 → 按词表切分 → token → token ID → embedding 向量 → 进入 Transformer 计算到了这里模型终于不再只是看到文字编号而是开始在一个向量空间里计算它们之间的关系。2026年AI行业最大的机会毫无疑问就在应用层字节跳动已有7个团队全速布局Agent大模型岗位暴增69%年薪破百万腾讯、京东、百度开放招聘技术岗80%与AI相关……如今超过60%的企业都在推进AI产品落地而真正能交付项目的大模型应用开发工程师****却极度稀缺落地AI应用绝对不是写几个prompt调几个API就能搞定的企业真正需要的是能搞定这三项核心能力的人✅RAG融入外部信息修正模型输出给模型装靠谱大脑✅Agent智能体让AI自主干活通过工具调用Tools环境交互多步推理完成复杂任务。比如做智能客服等等……✅微调针对特定任务优化让模型适配业务目前脉脉上有超过1000家企业发布大模型相关岗位人工智能岗平均月薪7.8w实习生日薪高达4000远超其他行业收入水平技术的稀缺性才是你「值钱」的关键具备AI能力的程序员比传统开发高出不止一截有的人早就转行AI方向拿到百万年薪AI浪潮正在重构程序员的核心竞争力现在入场仍是最佳时机我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】⭐️从大模型微调到AI Agent智能体搭建剖析AI技术的应用场景用实战经验落地AI技术。从GPT到最火的开源模型让你从容面对AI技术革新大模型微调掌握主流大模型如DeepSeek、Qwen等的微调技术针对特定场景优化模型性能。学习如何利用领域数据如制造、医药、金融等进行模型定制提升任务准确性和效率。RAG应用开发深入理解检索增强生成Retrieval-Augmented Generation, RAG技术构建高效的知识检索与生成系统。应用于垂类场景如法律文档分析、医疗诊断辅助、金融报告生成等实现精准信息提取与内容生成。AI Agent智能体搭建学习如何设计和开发AI Agent实现多任务协同、自主决策和复杂问题解决。构建垂类场景下的智能助手如制造业中的设备故障诊断Agent、金融领域的投资分析Agent等。如果你也有以下诉求快速链接产品/业务团队参与前沿项目构建技术壁垒从竞争者中脱颖而出避开35岁裁员危险期顺利拿下高薪岗迭代技术水平延长未来20年的新职业发展……那这节课你一定要来听因为留给普通程序员的时间真的不多了立即扫码即可免费预约「AI技术原理 实战应用 职业发展」「大模型应用开发实战公开课」还有靠谱的内推机会直聘权益完课后赠送大模型应用案例集、AI商业落地白皮书

相关文章:

大模型输入的“灵魂”步骤:Embedding如何让0、1、2变得有“意义”?

什么是大模型什么是token什么是词表 到这里,整个输入流程已经走到这一步了: 文本 → 按词表切分 → token → token ID比如一句话: 我 是 学生经过词表后,可能变成: 我 → 0 是 → 1 学生 → 2但是问题来了&#xff1a…...

从“看图识字“到“全能感知“!多模态大模型5年爆变史,Qwen系成“基础设施“!

多模态大模型历经5年范式跃迁,从ViT革新视觉AI,到CLIP架起图文桥梁,再到Qwen-VL等多模态理解,乃至GPT-4o与Qwen-Omni的全模态统一。Qwen系模型作为核心基础设施,推动技术从单模态处理走向多模态深度融合,未…...

从0到1掌握DeerFlow:字节跳动开源AI Agent框架,轻松构建企业级智能体平台!

Harness 平台实战: 用 DeerFlow 构建 一个企业自己的 Manus 平台( 企业长任务智能体平台) 一、DeerFlow 是什么?DeerFlow 这个热点项目,是 字节跳动开源的超级super Agent 框架,上线一个月就横扫 GitHub&a…...

基于 Simulink 的电机轴承故障特征提取与诊断实战教程

目录 🎯 一、 核心目标与理论基础 故障的物理本质 🛠️ 二、 详细建模步骤 第一步:搭建故障信号发生器(模拟真实场景) 第二步:信号预处理——共振解调技术 第三步:特征提取与降维 第四步:智能诊断分类器(Stateflow + SVM) 📊 四、 仿真结果分析指南 💡…...

PHP扩展被攻陷的5种隐秘路径:从CVE复现到零日防护的完整闭环

更多请点击: https://intelliparadigm.com 第一章:PHP扩展被攻陷的5种隐秘路径:从CVE复现到零日防护的完整闭环 PHP 扩展作为底层能力增强模块,常因内存管理疏漏、类型混淆或符号解析缺陷成为攻击者绕过 Web 层防护的“暗门”。以…...

车载以太网之要火系列 - 第34篇:郭大侠学UDS(14/19服务)- 疾病潜藏祸患多 杏林郎中手段多

写在开篇黄蓉最近迷上了22服务,天天拿它当读心术使——查VIN、查序列号、查软件版本。郭靖忍不住问:“蓉儿,你天天读这些,读出啥了?”“查岗呗。”黄蓉咬了一口糖葫芦,“看看你有没有偷偷改94 01。”“我哪…...

3步搞定CSDN博客下载:打造你的个人技术知识库

3步搞定CSDN博客下载:打造你的个人技术知识库 【免费下载链接】CSDNBlogDownloader 项目地址: https://gitcode.com/gh_mirrors/cs/CSDNBlogDownloader 你是否曾为CSDN上的优质技术文章担心过?担心作者删除、平台改版或网络故障导致这些宝贵的学…...

从MLCC内部结构到S参数:手把手教你用HFSS搭建一个靠谱的AC耦合电容仿真模型

从MLCC内部结构到S参数:手把手教你用HFSS搭建一个靠谱的AC耦合电容仿真模型 在56Gbps及以上速率的信号完整性设计中,AC耦合电容的仿真精度直接决定系统性能预测的可靠性。许多工程师发现,当使用HFSS默认的RLC边界条件模型时,仿真结…...

数电1 | 数制&逻辑关系&常用逻辑公式及定理

一、进制1.x进制,逢x进12.进制转换(看权重)①二-十$$\left ( 11001.011 \right )_{2}\left ( 25.375 \right )_{10}$$$$1 \times 2^{4} 1 \times 2^{3} 0 \times 2^{2} 1 \times 2^{1} 1 \times 2^{0} 0 \times 2^{-1} 1 \times 2^{-2}…...

Window使用CMakeLists编译Opencv

为了方便跨平台移植,在Window上写的代码可以无缝移植到Ubuntu上。 一、首先需要先安装VisualStudio,安装C环境,建议安装2019或者2022的版本,下载安装链接https://mp.weixin.qq.com/s/5TBz8bHEAY_pMlxKXcOQuA 二、安装Opencv&…...

VideoDownloadHelper终极指南:一键下载全网视频的免费神器

VideoDownloadHelper终极指南:一键下载全网视频的免费神器 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法下载在线视频…...

区块链是怎么实现的-通俗版,不讲难懂术语

分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击人工智能教程​​​​​https://www.captainai.net/troubleshooter 按底层实现逻辑,分 5 步讲完,你能彻底…...

终极指南:5分钟学会用Reset Windows Update Tool修复Windows更新问题

终极指南:5分钟学会用Reset Windows Update Tool修复Windows更新问题 【免费下载链接】Reset-Windows-Update-Tool Troubleshooting Tool with Windows Updates (Developed in Dev-C). 项目地址: https://gitcode.com/gh_mirrors/re/Reset-Windows-Update-Tool …...

避坑指南:解决ORB-SLAM2+octomap建图时点云倾斜和rviz警告问题

避坑指南:解决ORB-SLAM2octomap建图时点云倾斜和rviz警告问题 当你在Ubuntu 20.04环境下将ORB-SLAM2与octomap_server集成,试图生成八叉树地图时,可能会遇到两个典型问题:点云在rviz中显示倾斜,以及频繁出现的"oc…...

AI Agent完成率低至40%?老王揭秘10步规划,让你的Agent稳定率飙升至80%!

文章指出,AI Agent产品在内部演示和真实用户使用中的完成率差异巨大,主要问题在于多步骤复杂任务的规划不当。文章详细介绍了从需求解析、可行性判断、任务拆解到结果输出的11步规划流程,强调提前制定执行手册、状态追踪、结果验收和容错重规…...

豆包将推付费版:三档订阅价曝光,专注复杂任务与生产力场景

豆包付费版本服务计划曝光近日,豆包App Store页面出现付费版本服务声明。为更好服务专业用户,豆包将在免费版基础上,推出含更多增值服务的付费版本。页面还披露了三档订阅价格,标准版连续包月每月68元(连续包年688元&a…...

从LeetCode真题“反转链表”出发,彻底搞懂头插法的实战应用与边界情况

从LeetCode真题“反转链表”出发,彻底搞懂头插法的实战应用与边界情况 链表操作是算法面试中的高频考点,而反转链表(LeetCode 206)更是经典中的经典。很多人在第一次遇到这道题时,会被各种指针操作绕得晕头转向。今天我…...

什么是运维工程师

什么是运维工程师 一、什么是运维工程师? 在技术人员(写代码的)之间,一致对运维有一个开玩笑的认知:运维就是修电脑的、装网线的、背锅的岗位。 其实不然,运维是一个非常广泛的定义,在不同的公司…...

告别手动测试:深入解读Vector CANoe LIN一致性测试模块(ISO17987/J2602标准覆盖哪些内容?)

深度解析Vector CANoe LIN一致性测试模块:从标准到实践 在汽车电子系统开发中,LIN总线作为CAN总线的补充,广泛应用于车门模块、座椅控制、空调系统等对实时性要求不高的场景。随着汽车电子架构日益复杂,LIN网络节点数量不断增加&a…...

Cortex-M55 CTI架构与调试技术详解

1. Cortex-M55交叉触发接口(CTI)架构解析 交叉触发接口(Cross Trigger Interface)是Arm CoreSight调试架构中的关键组件,在Cortex-M55处理器中扮演着调试事件路由中心的角色。这个32位宽度的硬件模块通过标准APB总线与处理器内核连接,其核心功能是建立触…...

QuantVLA:无需训练的视觉-语言-动作模型量化技术

1. 项目背景与核心价值在人工智能领域,视觉-语言-动作多模态模型(VLA)正成为机器人控制、自动驾驶等场景的关键技术。这类模型通常需要处理高维视觉输入、自然语言指令和连续动作输出,导致参数量庞大、计算开销高昂。QuantVLA的创…...

Nemotron-Flash:低延迟LLM推理的混合架构设计

1. 项目背景与核心价值在自然语言处理领域,大型语言模型(LLM)虽然表现出色,但其高昂的计算成本和响应延迟始终是落地应用的瓶颈。Nemotron-Flash正是针对这一痛点提出的创新解决方案——通过混合架构设计,在保持模型性…...

Nemotron-Flash:低延迟LLM推理的混合小型语言模型架构

1. 项目背景与核心价值 在自然语言处理领域,大型语言模型(LLM)的推理延迟一直是制约实际应用的关键瓶颈。Nemotron-Flash项目的出现,正是为了解决这一行业痛点——如何在保持模型性能的前提下,显著降低推理延迟&#x…...

2025最权威的五大降AI率网站实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 为了让文本被识别成人工智能生成内容(AIGC)的可能性有所降低&#xf…...

AI编程助手技能库:用SKILL.md文件打造专属专家系统

1. 项目概述:一个为AI编程助手赋能的技能库如果你和我一样,每天都在和Cursor、Claude Code、GitHub Copilot这些AI编程助手打交道,那你肯定也经历过这样的时刻:你问了一个关于React组件设计的具体问题,得到的回答却是一…...

2025届学术党必备的降重复率网站推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 把AIGC率予以降低的关键所在是要去打破机器生成所具有的模式化特性,首先&#xf…...

基于MCP协议构建Reddit数据连接器:零配置集成AI工作流

1. 项目概述:一个让AI助手“逛”Reddit的MCP服务器如果你和我一样,日常工作中需要频繁地从Reddit上获取信息、寻找灵感,或者验证某个技术问题的社区讨论,那么你肯定体会过在浏览器、IDE和AI助手之间反复切换的割裂感。想象一下&am…...

别再折腾环境了!手把手教你用VS2019自带的Python环境(附pip安装避坑指南)

告别环境配置噩梦:VS2019内置Python开发全攻略 作为一名长期使用Visual Studio进行C或.NET开发的程序员,当你第一次尝试接触Python时,很可能会被各种环境配置问题搞得焦头烂额。不同Python版本之间的冲突、环境变量的配置、pip安装失败...这些…...

Java源码学习:深入 Java I/O核心机制:`ClassCache` 源码全景解析——2026 年内存敏感型元数据缓存的精妙设计与工程实践**

引言:为何 ClassCache 是 JDK 内部的“隐形守护者”? 在 2026 年这个由 云原生、Serverless 和 低延迟微服务 主导的时代,应用对 内存效率 的要求达到了前所未有的高度。尤其是在 Serverless 环境中,函数实例可能被频繁地创建和销…...

深度学习模型架构与优化实践指南

1. 深度学习模型架构基础解析 深度神经网络的结构设计直接影响模型的学习能力和泛化性能。当前主流架构可分为三大类:前馈网络(如MLP)、循环网络(如LSTM)和注意力网络(如Transformer)。以图像分…...