AI大模型开发原理篇-3:词向量和词嵌入
简介
词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。在实际应用中,词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中的过程。这些向量可以捕捉词汇的语义信息。
词向量
词向量(Word Vector)是一种将词语表示为向量的方式,其核心思想是把词语映射到一个连续的向量空间中,每个词都对应空间中的一个点(向量),通过向量之间的运算(如距离计算、相似度计算等)来反映词语之间的语义关系。常见的方式包括:
- One-Hot编码(独热)
为词汇表中的每个词分配一个唯一的整数索引,然后将每个词表示为一个长度等于词汇表大小的向量,向量中只有对应索引位置的值为 1,其余位置为 0。例如,词汇表为 ["苹果", "香蕉", "橙子"],“苹果” 的独热编码向量为 [1, 0, 0]。这种表示方法简单直接,但存在维度高、无法表示词之间语义关系等缺点。 - 词袋模型(Bag-of-Words, BoW)
- TF-IDF
- 词嵌入(Word Embedding)
作用
- 语义表示:能够捕捉词语的语义信息,使得语义相近的词在向量空间中距离较近。例如,“苹果” 和 “香蕉” 在语义上都属于水果类别,它们的词向量在空间中会相对靠近。
- 作为模型输入:方便计算机对文本进行处理,可用于各种自然语言处理任务,如文本分类、情感分析、机器翻译等。
词嵌入(Word Embedding)
词嵌入是一种低维、密集的词向量表示方法,它能够捕捉单词之间的语义关系和上下文信息。词嵌入通常是从大规模文本语料库中通过机器学习训练得到的。这个术语通常用于描述将词映射到向量空间的过程或表示方法。它通常包括训练算法和生成的词向量空间。例如,我们可以说“我们使用Word2Vec算法来生成词嵌入”。
主要方法
-
Word2Vec(Google, 2013)
- CBOW(Continuous Bag of Words):根据上下文预测中心词。
- Skip-gram:根据中心词预测上下文词。
- 词向量能学习到“王子-男人+女人≈公主”这样的关系。
-
GloVe(Global Vectors for Word Representation)(Stanford, 2014)
- 结合全局统计信息,计算词的共现矩阵,然后通过矩阵分解得到词向量。
- 适用于捕捉更广泛的语义信息。
-
FastText(Facebook, 2016)
- 将单词拆分成多个子词(如"apple"→["ap", "pp", "pl", "le"])。
- 能够更好地处理未见过的新词(OOV, Out-of-Vocabulary)。
-
BERT(Google, 2018) 和 ELMo
- 采用深度神经网络(Transformer / LSTM),结合上下文语境生成动态词向量。
- BERT能捕捉单词在不同句子中的不同含义(例如“银行”在“去银行存钱”和“河岸边的风景”中的区别)。
词嵌入的应用
- 自然语言处理(NLP):机器翻译、情感分析、文本分类等。
- 搜索引擎:提升查询理解能力。
- 推荐系统:基于文本的个性化推荐(如新闻推荐)。
- 聊天机器人:让AI更好地理解用户输入。
Word2Vec:基于上下文学习单词的词向量模型
1、概念
Word2Vec 是一种基于神经网络的词向量训练方法,由 Google 在 2013年 提出,能够将单词映射到一个低维稠密向量(Dense Vector),并且可以捕捉单词之间的语义关系。
Word2Vec 训练出的词向量可以进行数学运算,例如:
“国王” - “男人” + “女人” ≈ “王后”
它比传统的 One-Hot 编码、TF-IDF 更紧凑,并且能学习到单词的语义信息。
2、原理
Word2Vec 基于分布式假设,即上下文相似的词,其语义也相似。它的核心思想是通过在大规模文本语料上进行训练,学习词语的上下文信息,从而将每个词语表示为一个固定长度的向量。在这个向量空间中,语义相近的词语对应的向量在空间上也比较接近。
Word2Vec通过训练一个神经网络模型来学习词嵌入,模型的任务就是基于给定的上下文词来预测目标词,或者基于目标词来预测上下文词。
训练模型
Word2Vec 主要有两种训练模型:连续词袋模型(CBOW)和跳字模型(Skip - Gram)。
- 连续词袋模型(CBOW)
- 原理:根据上下文词来预测目标词。例如,在句子 “The dog chased the cat” 中,如果上下文窗口大小设为 2,对于目标词 “chased”,上下文词就是 “The”、“dog”、“the”、“cat”。模型的任务就是根据这些上下文词预测出 “chased”。
- 结构:CBOW 模型包含输入层、隐藏层和输出层。输入层是上下文词的独热编码向量,隐藏层通常是线性变换,输出层是一个 softmax 函数,用于计算每个词作为目标词的概率。
- 跳字模型(Skip - Gram)
- 原理:与 CBOW 相反,它根据目标词来预测上下文词。同样以上述句子为例,以 “chased” 为目标词,模型要预测出它的上下文词 “The”、“dog”、“the”、“cat”。
- 结构:Skip - Gram 模型的结构与 CBOW 类似,但输入层是目标词的独热编码向量,输出层要预测多个上下文词的概率。
相关文章:
AI大模型开发原理篇-3:词向量和词嵌入
简介 词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。在实际应用中,词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中…...
三个不推荐使用的线程池
线程池的种类 其实看似这么多的线程池,都离不开ThreadPoolExecutor去创建,只不过他们是简化一些参数 newFixedThreadPool 里面全是核心线程 有资源耗尽的风险,任务队列最大长度为Integer.MAX_VALUE,可能会堆积大量的请求ÿ…...
星际战争模拟系统:新月的编程之道
星际战争模拟系统:新月的编程之道 作为一名在 25 世纪星际时代成长起来的科学家和军事战略家,我对编程和人工智能的热爱始于童年。我的父亲是一位著名的物理学家,母亲是一位杰出的生物工程师。在他们的影响下,我从小就对科学和技术…...
【CS61A 2024秋】Python入门课,全过程记录P4(Week7 Generators开始,更新于2025/1/29)
文章目录 关于基本介绍👋新的问题更好的解决方案Week7Mon Generators阅读材料Lab 05: Iterators, MutabilityQ1: WWPD: List-MutationQ2: Insert Items 关于 个人博客,里面偶尔更新,最近比较忙。发一些总结的帖子和思考。 江湖有缘相见&…...
Fort Firewall:全方位守护网络安全
Fort Firewall是一款专为 Windows 操作系统设计的开源防火墙工具,旨在为用户提供全面的网络安全保护。它基于 Windows 过滤平台(WFP),能够与系统无缝集成,确保高效的网络流量管理和安全防护。该软件支持实时监控网络流…...
【数据结构】_C语言实现不带头非循环单向链表
目录 1. 链表的概念及结构 2. 链表的分类 3. 单链表的实现 3.1 SList.h头文件 3.2 SList.c源文件 3.3 Test_SList.c测试文件 关于线性表,已介绍顺序表,详见下文: 【数据结构】_顺序表-CSDN博客 本文介绍链表; 基于顺序表…...
【Qt】06-对话框
对话框 前言一、模态和非模态对话框1.1 概念1.2 模态对话框1.2.1 代码QAction类 1.2.2 模态对话框运行分析 1.3 非模态对话框1.3.1 代码局部变量和成员变量setAttribute 类 1.3.2 现象解释 二、标准对话框2.1 提示对话框 QMessageBox2.1.1 现象及解释 2.2 问题对话框2.2.1 现象…...
特征缩放:数据归一化
First,新年到了!感谢CSDN一路相伴,成为技术交流的温馨港湾。值此蛇年新春,祝平台人气蒸蒸日上,活动精彩纷呈,助力更多开发者突破技术瓶颈,在新的一年创造无限可能,新年快乐ÿ…...
Kubernetes 环境中的自动化运维实战指南
Kubernetes 作为容器编排领域的领导者,已经成为云原生应用的核心基础设施。然而,随着集群规模的扩大和应用的复杂化,手动运维 Kubernetes 集群变得愈发困难。自动化运维成为提升效率、保障系统稳定性的关键。本文将详细介绍如何在 Kubernetes 环境中实施自动化运维,涵盖工具…...
深入探讨Web应用开发:从前端到后端的全栈实践
在数字化时代,Web应用已成为连接用户与服务的关键桥梁。无论是电商平台、社交媒体,还是企业内部管理系统,Web应用都扮演着不可或缺的角色。本文将深入探讨Web应用开发的全栈实践,从前端的用户体验设计到后端的数据处理与存储&…...
分享|通过Self-Instruct框架将语言模型与自生成指令对齐
结论 在大型 “指令调整” 语言模型依赖的人类编写指令数据存在数量、多样性和创造性局限, 从而阻碍模型通用性的背景下, Self - Instruct 框架, 通过 自动生成 并 筛选指令数据 微调预训练语言模型, 有效提升了其指令遵循能…...
扣子平台音频功能:让声音也能“智能”起来。扣子免费系列教程(14)
在数字化时代,音频内容的重要性不言而喻。无论是在线课程、有声读物,还是各种多媒体应用,音频都是传递信息、增强体验的关键元素。扣子平台的音频功能,为开发者和内容创作者提供了一个强大而灵活的工具,让音频的使用和…...
超分辨率体积重建实现术前前列腺MRI和大病理切片组织病理学图像的3D配准
摘要: 磁共振成像(MRI)在前列腺癌诊断和治疗中的应用正在迅速增加。然而,在MRI上识别癌症的存在和范围仍然具有挑战性,导致即使是专家放射科医生在检测结果上也存在高度变异性。提高MRI上的癌症检测能力对于减少这种变异性并最大化MRI的临床效用至关重要。迄今为止,这种改…...
C++并发编程指南03
文章目录 传递参数2.2.1 基本参数传递示例: 2.2.2 注意动态变量指针的传递错误示例:正确示例: 2.2.3 引用参数的传递错误示例:正确示例: 2.2.4 成员函数和对象指针的传递示例:带参数的成员函数示例…...
大数据Hadoop入门3
目录 第五部分(Apache Hive DML语句和函数使用) 1.课程内容大纲和学习目标 2.Hive SQL-DML-load加载数据操作 3.Hive SQL-DML-insert插入数据 4.Hive SQL-DML-select查询-语法书和环境准备 5.Hive SQL-DML-select查询-列表达式和distinct去重 6.Hi…...
Autosar-Os是怎么运行的?(多核系统运行)
写在前面: 入行一段时间了,基于个人理解整理一些东西,如有错误,欢迎各位大佬评论区指正!!! 目录 1.Autosar多核操作系统 1.1多核启动过程 1.2多核运行过程 1.2.1核间任务同步 1.2.2Counte…...
【硬件介绍】三极管工作原理(图文+典型电路设计)
什么是三极管? 三极管,全称为双极型晶体三极管,是一种广泛应用于电子电路中的半导体器件。它是由三个掺杂不同的半导体材料区域组成的,这三个区域分别是发射极(E)、基极(B)和集电极&…...
MATLAB基础应用精讲-【数模应用】DBSCAN算法(附MATLAB和python代码实现)
目录 前言 几个高频面试题目 DBSCAN和传统聚类算法对比 算法原理 发展历程 主要事件 发展分析 什么是DBSCAN DBSCAN算法的聚类过程 DBSCAN算法的样本点组成 几个相关的概念: 算法思想 DBSCAN算法优缺点和改进 2.1 DBSCAN算法优缺点 2.2 DBSCAN算法改进 算法流…...
STM32 PWM驱动舵机
接线图: 这里将信号线连接到了开发板的PA1上 代码配置: 这里的PWM配置与呼吸灯一样,呼吸灯连接的是PA0引脚,输出比较单元用的是OC1通道,这里只需改为OC2通道即可。 完整代码: #include "servo.h&quo…...
基于Go语言的三甲医院人机与智能体协同环境系统(上.文章部分)
一、引言 1.1 研究背景与意义 1.1.1 三甲医院对高效协同系统的需求 三甲医院作为医疗体系的核心力量,承担着疑难病症诊治、医学科研教学等重要任务,其业务具有高度的复杂性。在日常运营中,三甲医院涉及多个科室,每个科室又包含众多专业领域,各科室之间需要紧密协作,共…...
对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力
摘要 摘要是文章的精华,通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家,编写摘要需要言简意赅,直接概括论文的核心,为读者提供快速了解的窗口。 下面我们使用DeepSeek、ChatGPT…...
「Unity3D」在Unity中使用C#控制显示Android的状态栏
Unity打包的Android默认都是全屏,如果想要在真机上显示状态栏,就需要额外设置,有两种方式: 第一种,使用Android的Java代码去控制,然后以插件的方式放到Unity中,被C#调用。第二种,使…...
Lua 环境的安装
1.安装Lua运行环境 本人采用的是在windows系统中使用cmd指令方式进行安装,安装指令如下: winget install "lua for windows" 也曾使用可执行程序安装过,但由于电脑是加密电脑,最后都已失败告终。使用此方式安装可以安…...
Pyside的QWebEngineProfile类
QWebEngineProfile 是 PySide/Qt 中用于管理浏览器引擎(WebEngine)配置的类,属于 QtWebEngineCore 模块。它主要用于控制网页的全局行为,例如缓存、Cookie、持久化存储、用户代理(User-Agent)、代理设置等。…...
java爬虫工具Jsoup学习
目录 前言 一、基本使用 二、爬取豆瓣电影的案例 三、Jsoup能做什么? 四、Jsoup相关概念 五、Jsoup获取文档 六、定位选择元素 七、获取数据 八、具体案例 前言 JSoup是一个用于处理HTML的Java库,它提供了一个非常方便类似于使用DOM࿰…...
基于SpringBoot电脑组装系统平台系统功能实现六
一、前言介绍: 1.1 项目摘要 随着科技的进步,计算机硬件技术日新月异,包括处理器(CPU)、主板、内存、显卡等关键部件的性能不断提升,为电脑组装提供了更多的选择和可能性。不同的硬件组合可以构建出不同类…...
Java实战项目-基于 springboot 的校园选课小程序(附源码,部署,文档)
Java 基于 springboot 的校园选课小程序 博主介绍:✌程序员徐师兄、8年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战*✌ 🍅文末获取源码联系🍅 👇&…...
洛谷P3884 [JLOI2009] 二叉树问题(详解)c++
题目链接:P3884 [JLOI2009] 二叉树问题 - 洛谷 | 计算机科学教育新生态 1.题目解析 1:从8走向6的最短路径,向根节点就是向上走,从8到1会经过三条边,向叶节点就是向下走,从1走到6需要经过两条边,…...
SQL99之内连接查询
SQL99是SQL语言的一个标准,于1999年发布。内连接查询是SQL中非常常用的一种查询方式,用于根据指定的条件从两个或多个表中获取相关联的数据。下面将详细介绍SQL99中的内连接查询,并以通熟易懂的语言进行讲解,同时给出代码例子、注…...
Qt Ribbon使用实例
采用SARibbon创建简单的ribbon界面 实例代码如下所示: 1、头文件: #pragma once #include <SARibbonBar.h> #include "SARibbonMainWindow.h" class QTextEdit; class SAProjectDemo1 : public SARibbonMainWindow { Q_OBJECT pub…...
