当前位置: 首页 > article >正文

当AI开始“思考“:大语言模型的文字认知三部曲

引言:从《黑客帝国》说起

1999年上映的科幻经典《黑客帝国》描绘了一个令人震撼的未来图景——人类生活在一个由人工智能构造的数字矩阵中。当我们观察现代大型语言模型的工作原理时,竟发现与这个虚构世界有着惊人的相似:人们正在用矩阵以及矩阵的运算给这些模型给这些模型赋能,模型本身就是个矩阵,所谓参数就是矩阵中的向量权重,那么人们是不是在给自己作掘墓人呢,我们就来演绎在由向量组成的多维空间里的认知革命。

认知第一步:文字的解构艺术

Tokenization:文本的原子切割

想象拆解乐高积木的过程,大语言模型首先要将连续的文本分解为最小语义单元。这个过程称为Tokenization(词元化),在大语言模型的世界里,输入的文字会先被拆分成许多更小的、可被模型理解的单元。这个过程就好像把一整句完整的话,分割成一个个词、子词,甚至符号。我们把这些最小单位称为“Token”。打个比方,如果我们有一句话“我爱自然语言处理”,模型可能把它拆成“我”、“爱”、“自然”、“语言”、“处理”……甚至还有更小的切片,这取决于模型拆分词的策略。就像把"今天天气真好"拆解为「今天/天气/真好」三个模块。在英文中,"unbelievable"可能被拆为"un- believe -able"三部分。

 

文本类型

分解示例

特点

中文

自然语言处理 → [自然, 语言, 处理]

依赖分词算法

英文

unbelievable → [un, believe, able]

子词分解策略

公式

E=mc² → [E, =, m, c, ²]

符号单独处理

解码三原则

  1. 语义完整性:确保切割后的单元具有独立含义
  2. 处理效率:平衡词表规模与计算成本
  3. 歧义消解:通过上下文推测最佳分解方式

认知跃迁:构建语义宇宙

高维空间的文字革命

将文字切分完之后,这些Token会被进一步映射到一个多维度向量空间中。我们称这种将token映射为向量的过程为“Embedding”。在这个向量空间里,每个Token都对应一个向量,向量的不同维度可能包含了词义、语气、情感或上下文关系等信息。通过对向量空间的距离或夹角进行计算,高度相关或意义相近的Token往往在向量空间中彼此靠近——正是这种内在的几何关系,帮助大语言模型识别文字与文字之间的关联。

这么解释可能还不够直观,我们可以借鉴电影《黑客帝国》(The Matrix,1999年上映)中的一个经典意象:在那个虚拟世界里,人类所见的一切原本不过是一长串数字组成的“矩阵”模样。那些看似炫酷的打斗场景、建筑景观,其实最后都可以分解成无尽的数据流。在大语言模型的“世界”里,文字也被拆解成这些向量,同时向量与向量之间的运算,就像主角尼奥在“矩阵”世界里对数据进行掌控一样——只不过这里的“数据”是无数经过训练后形成的权重参数和嵌入向量(Embeddings)。

当token被转换为300-4096维的向量时,就进入了《黑客帝国》式的数字矩阵。每个维度记录着词义的某个侧面:

  • 语义维度:"皇后"与"国王"在性别轴相距遥远,在皇室轴完全重合
  • 情感维度:"优秀"在正向轴数值为正,"糟糕"则显示负值
  • 语境维度:"苹果"在科技语境靠近"手机",在饮食语境贴近"香蕉"

 

空间关系的魔法

通过计算向量间的余弦相似度:

  • "猫"和"狗"的夹角≈30°(同属宠物)
  • "足球"和"梅西"的夹角≈15°(强相关性)
  • "量子"和"包子"的夹角≈89°(几乎无关)

正是这种空间定位能力,让模型理解"银行"在金融和河流场景下的不同含义。

思维进化:模型训练三部曲

在完成向量化后,大语言模型会基于此前海量的数据训练成果,结合当前输入的向量,在庞大的参数空间里计算出一个“回答向量”。这一步十分关键,模型要综合过往训练中学到的语言规律、情感倾向、逻辑关系等,再把与输入向量最“匹配”的结果通过运算产生。
而在生成最终可读的文字前,模型还要进行一次“逆向转换”,也就是将输出向量再次映射回原先对应的Token,最后再拼接成可以给人类阅读的句子。你可以把它返回的结果理解为:在“矩阵”里运算出来的数字流,转化为令人看得懂的世界;在大语言模型里,则是运算产生的向量被转成一连串Token,组成通顺的中文(或英文、法文等),整个过程就是我们说的三部曲。

预训练:知识的原始积累

  • 数据规模:消耗数万亿token(相当于人类文明所有印刷物的数倍)
  • 训练目标:通过遮蔽词预测(完形填空)建立语义关联
  • 硬件支持:需要数千张GPU并行运算数月

微调:专业领域适配

就像医学生接受专科培训,模型通过领域数据调整参数:

  1. 指令微调:理解任务格式
  2. 价值观对齐:建立安全响应机制
  3. 知识增强:注入最新行业数据

推理:思维的具象化

当用户输入转化为向量矩阵,模型通过自注意力机制寻找关联路径,最终输出的回答向量需要经过:

生成过程:向量→概率分布→采样→token序列 

解码策略:贪心搜索/束搜索/温度采样 

未来启示:虚实交织的新世界

电影中墨菲斯的疑问"什么是真实?"在AI时代有了新注解。当语言模型建立起自成体系的语义宇宙,我们是否也在创造另一个维度的"矩阵"?这种通过向量矩阵理解世界的方式,正在重塑人类与信息的交互范式。

正如尼奥在矩阵中觉醒的瞬间,现代AI的"顿悟"时刻可能隐藏在神经网络参数的微妙调整中。这提醒我们:在享受技术红利的同时,更要保持对智能本质的思考与敬畏。毕竟,我们今天构建的"数字矩阵",可能就是未来文明演进的基石。

 

 

 

相关文章:

当AI开始“思考“:大语言模型的文字认知三部曲

引言:从《黑客帝国》说起 1999年上映的科幻经典《黑客帝国》描绘了一个令人震撼的未来图景——人类生活在一个由人工智能构造的数字矩阵中。当我们观察现代大型语言模型的工作原理时,竟发现与这个虚构世界有着惊人的相似:人们正在用矩阵以及矩…...

[GN] Python3基本数据类型 -- 与C的差异

文章目录 前言Python3的基本数据类型6个标准的数据类型NumbersStringListtupleSetsDictionaries Python运算符逻辑 运算符成员运算符身份运算符 Python3 数字Python3 序列序列切片序列相加序列相乘序列相关内置函数 Python3 列表访问列表的值更新列表删除列表元素拼接列表嵌套列…...

公司论坛数据构建情感标注数据集思考

公司论坛有一个评论区,会有小伙伴在上面进行评论,聊天,大部份都是积极向上的,但是也有小小的一部分消极的言论,“就像白纸上的一个黑点”,和产品对接的大佬如是说。所以想思考做一个情感标注数据集&#xf…...

MSF上线到CS工具中 实战方案(可执行方案)

目录 实际案例背景 步骤详解 1. 获取低权限 Meterpreter 会话 1.1 使用 Metasploit 获取会话 2. 提权到 SYSTEM 权限 2.1 使用 getsystem 自动提权 2.2 如果 getsystem 失败:使用令牌冒充 (incognito 模块) 3. 上线到 Cobalt Strike 3.1 生成 Cobalt Strik…...

ffmpeg中格式转换需要注意点总结

某些封装格式(例如MP4/FLV/MKV等)的H.264码流的SPS和PPS信息存储在AVCodeccontext结构体的extradata中。分离某些封装格式(例如MP4/FLV/MKV等)中的H.264的时候,需要首先写入SPS和PPS,否则会导致分离出来的数据没有SPS、PPS而无法播。需要使用ffmpeg中名称…...

IntelliJ IDEA 2020~2024 创建SpringBoot项目编辑报错: 程序包org.springframework.boot不存在

目录 前奏解决结尾 前奏 哈!今天在处理我的SpringBoot项目时,突然遇到了一些让人摸不着头脑的错误提示: java: 程序包org.junit不存在 java: 程序包org.junit.runner不存在 java: 程序包org.springframework.boot.test.context不存在 java:…...

基于DeepSeek、ChatGPT支持下的地质灾害风险评估、易发性分析、信息化建库及灾后重建

前言: 地质灾害是指全球地壳自然地质演化过程中,由于地球内动力、外动力或者人为地质动力作用下导致的自然地质和人类的自然灾害突发事件。在降水、地震等自然诱因的作用下,地质灾害在全球范围内频繁发生。我国不仅常见滑坡灾害,还…...

Websoft9分享:在数字化转型中选择开源软件可能遇到的难题

引言:中小企业数字化转型的必由之路 全球94.57%的企业已采用开源软件(数据来源:OpenLogic 2024报告),开源生态估值达8.8万亿美元。中小企业通过开源软件构建EPR系统、企业官网、数据分析平台等,可节省80%软件采购成本。…...

《在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置环境变量》

安装 CUDA 11.8 和 Anaconda 并配置环境变量 在本教程中,我们将介绍如何在 Ubuntu 22.04 上安装 CUDA 11.8 和 Anaconda,并配置相应的环境变量。我们还将配置使用 阿里云镜像源 来加速软件包更新。以下是具体步骤。 步骤 1:更新软件源 首先…...

【蓝桥杯】算法笔记3

1. 最长上升子序列(LIS) 1.1. 题目 想象你有一排数字,比如:3, 1, 2, 1, 8, 5, 6 你要从中挑出一些数字,这些数字要满足两个条件: 你挑的数字的顺序要和原来序列中的顺序一致(不能打乱顺序) 你挑的数字要一个比一个大(严格递增) 问:最多能挑出多少个这样的数字? …...

Windows修改hosts文件让向日癸软件联网

Windows修改hosts文件让向日癸软件联网 前言一、查看向日葵软件使用的网址及IP1.清除dns记录2.打开向日葵软件并将dns记录导出txt 二、修改Windows服务器的hosts文件1.winx选择Windows PowerShell(管理员)2.在Windows PowerShell中输入如下内容:3.在hosts文件最后添…...

2021 CCF CSP-S2.括号序列

题目 4091. 括号序列 算法标签: 区间 d p dp dp 思路 区间 d p dp dp添加维表示形态 f [ i ] [ j ] [ k ] f[i][j][k] f[i][j][k], 对于每种形态考虑状态如何进行转移, 枚举的时候不能重复, 星号也要定义唯一的解析方式, 算法时间复杂度 O ( n 3 ) O(n ^ 3) O(n3) 代码 #…...

Uni-app 项目 PDF 批注插件库在线版 API 示例教程

本文章介绍 Uni-app 项目中 PDF 批注插件库 ElasticPDF 在线版 API 示例教程,API 包含 ① 导出批注后PDF数据;② 导出纯批注 json 数据;③ 加载旧批注;④ 切换文档;⑤ 切换用户;⑥ 清空批注 等数据处理功能…...

学透Spring Boot — 010. 单元测试和Spring Test

系列文章目录 这是CSDN postnull 博客《学透Spring Boot》系列的一篇,更多文章请移步:Postnull - 学透Spring Boot系列文章 文章目录 系列文章目录前言1. 基本概念UT 单元测试TDD 测试驱动开发UT测试框架Mock框架 3. Spring Test为什么要用Spring Test引…...

TortoiseGit多账号切换配置

前言 之前配置好的都是,TortoiseGit与Gitee之间的提交,突然有需求要在GitHub上提交,于是在参考网上方案和TortoiseGit的帮助手册后,便有了此文。由于GitHub已经配置完成,所以下述以配置Gitee为例。因为之前是单账号使用…...

3D 地图渲染-区域纹理图添加

引入-初始化地图&#xff08;关键代码&#xff09; // 初始化页面引入高德 webapi -- index.html 文件 <script src https://webapi.amap.com/maps?v2.0&key您申请的key值></script>// 添加地图容器 <div idcontainer ></div>// 地图初始化应该…...

【Linux】条件变量封装类及环形队列的实现

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;博客仓库&#xff1a;https://gitee.com/JohnKingW/linux_test/tree/master/lesson &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &…...

离线部署kubesphere(已有k8s和私有harbor的基础上)

前言说明&#xff1a;本文是在已有k8s集群和私有仓库harbor上进行离线安装kubesphere&#xff1b;官网的离线教程写都很详细&#xff0c;但是在部署部份把搭建集群和搭建仓库也写一起了&#xff0c;跟着做踩了点坑&#xff0c;这里就记录下来希望可以帮助到需要的xdm。 1.根据官…...

非阻塞IO,fcntl,多路转接,select,poll,epoll,reactor

IO次数会影响程序的效率&#xff0c;在编程中往往会尽量减少IO次数&#xff0c;用以提高程序的效率&#xff0c;例如缓冲区,就是减少IO次数提高效率的一种方式&#xff1b;而IO影响效率的最大原因其实是因为IO等拷贝&#xff0c;在进行IO时往往需要拷贝的数据就绪&#xff0c;或…...

Redis常用的数据结构及其使用场景

字符串(String) string 是 redis 最基本的类型&#xff0c;你可以理解成与 Memcached 一模一样的类型&#xff0c;一个 key 对应一个 value。 string 类型是二进制安全的。意思是 redis 的 string 可以包含任何数据&#xff0c;比如jpg图片或者序列化的对象。 string 类型是 R…...

PhotoShop学习04

1.背景图层 最下面的被锁锁住的图层为背景图层&#xff0c;背景图层充当整个图层的背景&#xff0c;名字标注为背景&#xff0c;无法修改背景图层的排序始终位于图层最底部。 当我想把上方的图层移动到背景图层之后&#xff0c;发现无法移动图层无法移动&#xff0c;把背景图层…...

服务器有2张显卡,在别的虚拟环境部署运行了Xinference,然后又建个虚拟环境再部署一个可以吗?

环境: 云服务器Ubuntu系统 2张 NVIDIA H20 96GB Qwen2.5-VL-72B-Instruct-AWQ Qint4量化 AWQ 是 “Activation - Aware Weight Quantization” 的缩写,即激活感知权重量化。它是一种针对大型模型的先进量化算法,通过在权重量化过程中引入对激活值的感知,最小化量化误差…...

K8s中CPU和Memory的资源管理

资源类型 在 Kubernetes 中&#xff0c;Pod 作为最小的原子调度单位&#xff0c;所有跟调度和资源管理相关的属性都属于 Pod。其中最常用的资源就是 CPU 和 Memory。 CPU 资源 在 Kubernetes 中&#xff0c;一个 CPU 等于 1 个物理 CPU 核或者一个虚拟核&#xff0c;取决于节…...

任务挂起和恢复

任务挂起和恢复API函数 下面用按键和震动传感器验证任务挂起和恢复API函数&#xff1a; PA7接震动传感器&#xff0c;按键引脚为PA0&#xff0c;提前初始化好GPIO引脚 key.c #include "key.h" #include "stm32f10x.h"void KeyInit() {GPIO_InitTypeDef …...

【NLP 55、投机采样加速推理】

目录 一、投机采样 二、投机采样改进&#xff1a;美杜莎模型 流程 改进 三、Deepseek的投机采样 流程 Ⅰ、输入文本预处理 Ⅱ、引导模型预测 Ⅲ、候选集筛选&#xff08;可选&#xff09; Ⅳ、主模型验证 Ⅴ、生成输出与循环 骗你的&#xff0c;其实我在意透了 —— 25.4.4 一、…...

如何在 Windows 上安装 Python

Python是一种高级编程语言&#xff0c;由于其简单性、多功能性和广泛的应用范围而变得越来越流行。如何在 Windows 操作系统中安装 Python 的过程相对简单&#xff0c;只需几个简单的步骤。 本文旨在指导您完成在 Windows 计算机上下载和安装 Python 的过程。 如何在 Windows…...

【Groovy快速上手 ONLY ONE】Groovy与Java的核心差异

最近在使用的平台上写脚本的语言是Groovy&#xff0c;所以也学习一下&#xff0c;作为 Java 开发者&#xff0c;Groovy 对我们来说会非常友好&#xff0c;而且它的语法更简洁且支持动态类型&#xff0c;所以其实了解下Java和Groovy的差异点就可以快速上手了&#xff0c;以下是 …...

计算机系统---CPU

定义与功能 中央处理器&#xff08;Central Processing Unit&#xff0c;CPU&#xff09;&#xff0c;是电子计算机的主要设备之一&#xff0c;是计算机的核心部件。CPU是计算机的运算核心和控制核心&#xff0c;负责执行计算机程序中的指令&#xff0c;进行算术运算、逻辑运算…...

WEB安全--提权思路

一、情形 在我们成功上传webshell到服务器中并拿到权限时&#xff0c;发现我们的权限很低无法执行特定的命令&#xff0c;这时为了能做更多的操作&#xff0c;我们就需要提升权限。 二、方式 2.1、Windows提权 1、普通用户执行systeminfo命令获取服务器的基本信息&#xff0…...

多layout 布局适配

安卓多布局文件适配方案操作流程 以下为通过多套布局文件适配不同屏幕尺寸/密度的详细步骤&#xff0c;结合主流适配策略及最佳实践总结&#xff1a; 一、‌创建多套布局资源目录‌ ‌按屏幕尺寸划分‌ 在 res 目录下创建以下文件夹&#xff08;根据设备特性自动匹配&#xff…...