当前位置: 首页 > news >正文

Glove-词向量

文章目录

  • 共现矩阵
  • 共线概率
  • 共线概率比
  • 词向量训练总结
  • 词向量存在的问题

上一篇文章词的向量化介绍了词的向量化,词向量的训练方式可以基于语言模型、基于窗口的CBOW和SKipGram的这几种方法。今天介绍的Glove也是一种训练词向量的一种方法,他是基于共现概率比的一种训练方式。

共现矩阵

首先共现二字很好理解,就是一起出现的意思。对一句话进行切分,可以分成 n n n个词,对于这 n n n个词,可以形成一个矩阵,矩阵里面的数字就代表着窗口内共同出现的次数,窗口可以选1,代表着两个词相邻出现的次数。窗口如果选2,就是相邻的3个词可以认为共同出现了。

例如语料:
今天 天气 不错
今天 天气 很 好
天气 很 好
天气 不错

可以形成以下共线矩阵

在这里插入图片描述

共线概率

j j j出现在词 i i i周围的概率,被称为词 i i i和词 j j j的共现概率 P ( X i j ∣ X j ) = X i j X j P(X_{ij}|X_j)=\frac{X_{ij}}{X_j} P(XijXj)=XjXij计算方式就是两个词共同出现的次数除于词 j j j的次数。

共线概率比

共现概率比就是两个共现概率的比值。
在这里插入图片描述
对于固体这个词,和冰出现的概率较大,而和蒸汽出现的概率较小,对于两者的比值就是就是一个较大的数字,而对于气体这个词是和冰的共线概率较小和蒸汽这个词的共线概率更大,他们的共线概率值就是一个较小的一个值。而对于中兴词,如水和流行两个词他们和冰与蒸汽的共线概率较为相近,共线概率比就为1。共线概率比就是能反应这样的意思,构建词向量对他们的共线概率比能接近上述的值。这种训练方式就被成为Glove的词向量训练方式。

问题转化:
给定三个词的词向量,Va, Vb, Vc三者的通过某个函数映射后,其比值应接近ABC的共现概率比
即目标为找到向量使得 f(Va, Vb, Vc) = P(A|B)/P(A|C),预测数值,属于回归问题, 损失函数使用均方差,f的设计论文中给出的是f(Va, Vb, Vc) = (Va - Vb )·Vc。

词向量训练总结

一、根据词与词之间关系的某种假设,制定训练目标。
二、设计模型,以词向量为输入。
三、随机初始化词向量,开始训练。
四、训练过程中词向量作为参数不断调整,获取一定的语义信息。
五、使用训练好的词向量做下游任务。

词向量存在的问题

  • 词向量是“静态”的。每个词使用固定向量,没有考虑前后文
  • 一词多义的情况。西瓜 - 苹果 - 华为,西瓜和苹果语义相近,苹果和华为语义相近,那么西瓜和华为是否语义接近呢?
  • 影响效果的因素非常多:维度选择、随机初始化、skip-gram/cbow/glove、分词质量、词频截断、未登录词、窗口大小、迭代轮数、停止条件、语料质量等
  • 没有好的直接评价指标。常需要用下游任务来评价

相关文章:

Glove-词向量

文章目录 共现矩阵共线概率共线概率比词向量训练总结词向量存在的问题 上一篇文章词的向量化介绍了词的向量化,词向量的训练方式可以基于语言模型、基于窗口的CBOW和SKipGram的这几种方法。今天介绍的Glove也是一种训练词向量的一种方法,他是基于共现概率…...

Plugin ‘mysql_native_password‘ is not loaded`

Plugin mysql_native_password is not loaded mysql_native_password介绍1. 使用默认的认证插件2. 修改 my.cnf 或 my.ini 配置文件3. 加载插件(如果确实没有加载)4. 重新安装或检查 MySQL 版本 遇到错误 ERROR 1524 (HY000): Plugin mysql_native_passw…...

Hive数据类型

原生数据类型 准备数据 查看表信息 加载数据 查看数据 复杂数据类型-数组 准备数据 查看数据 ​优化 复杂数据类型-map 准备数据 查看数据 复杂数据类型-默认分隔符 准备数据 查看数据 原生数据类型 准备数据 -- 1 建库 drop database if exists db_1 cascade;…...

OSI七层网络模型:构建网络通信的基石

在计算机网络领域,OSI(Open Systems Interconnection)七层模型是理解网络通信过程的关键框架。该模型将网络通信过程细分为七个层次,每一层都有其特定的功能和职责,共同协作完成数据从发送端到接收端的传输。接下来&am…...

MSYS2下载安装和使用

Minimalist GNU(POSIX)system on Windows,Windows下的GNU环境。 目录 1. 安装 2. pacman命令 3. 配置vim 4. 一些使用示例 4.1 编译代码 4.2 SSH登录远程服务器 1. 安装 官网下载:https://www.msys2.org/ 双击.exe文件&am…...

机器学习中的决策树算法——从理论到实践完整指南

决策树在机器学习中的应用与原理 1. 介绍1.1 定义和基本概念1.2 决策树在机器学习中的角色和重要性 2. 决策树的结构2.1 节点、分支、叶子节点的定义和功能2.1.1 节点2.1.2 分支2.1.3 叶子节点 2.2 树的深度和宽度的影响2.2.1 树的深度2.2.2 树的宽度 3. 决策树的构建方法3.1 基…...

FFplay介绍及命令使用指南

😎 作者介绍:欢迎来到我的主页👈,我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun(领取大厂面经等资料),欢迎加我的…...

php实现动态登录

简介: 效果:通过前端页面的注册,通过MD5将密码加密,发送到数据库,通过验证数据库的内容实现登录,以及各种保证安全的措施 实验环境:phphtmlcssmysql数据表,使用html css设计注册&a…...

Servlet2-HTTP协议、HttpServletRequest类、HttpServletResponse类

目录 HTTP协议 什么是HTTP协议 HTTP协议的特点 请求的HTTP协议格式 GET请求 POST请求 常用的请求头说明 哪些是GET请求,哪些是POST请求 响应的HTTP协议格式 常见的响应码说明 MIME类型说明 HttpServletRequest类 作用 常用方法 如何获取请求参数 po…...

探索数据的内在世界:sklearn中分层特征聚类标签的可视化技术

探索数据的内在世界:sklearn中分层特征聚类标签的可视化技术 在机器学习中,聚类是一种探索数据结构的强大工具。对于具有分层特征的数据,如文本、时间序列或分类标签,聚类结果的可视化可以提供深入的洞见。本文将详细介绍如何在s…...

airtest定位方法

airtest定位方法 最近遇到一个比较新颖的airtest方法,分享给大家。一键三连; airtest是一款用于自动化测试的Python库,被广泛应用于移动应用和游戏的测试中。在进行自动化测试时,定位元素是非常重要的一步,因为只有准…...

排列组合 n*(n-1)*(n-m+1)

n*(n-1)*(n-m1)/m! --# 组合 n*(n-1)*(n-m1)/m! local function get_combinations(n,m) c 1 c0 1 for i 1,m do c c*(n-i1) c c/i end return math.floor(c) end print(get_combinations(10,6)) 打印出来为:210...

Python面试整理-数据处理和分析

在Python中,数据处理和分析是一项非常重要的应用,得益于丰富的第三方库和工具,Python已经成为数据科学家和分析师的首选语言之一。以下是进行数据处理和分析时常用的工具和方法: 1. 数据处理 a. Pandas ● 功能: Pandas 提供了强大的 DataFrame 结构,使得数据操作和预处理…...

职业教育计算机网络综合实验实训室建设应用案例

近年来,职业教育在培养技能型人才方面发挥着越来越重要的作用。然而,传统的计算机网络技术教学模式往往重理论、轻实践,导致学生缺乏实际操作能力和职业竞争力。为了改变这一现状,唯众结合职业教育特点,提出了“教、学…...

【Docomo】5G

我们想向您介绍第五代移动通信系统“5G”。 5G 什么是5G?支持5G的技术什么是 5G SA(独立)?实现高速率、大容量的5G新频段Docomo的“瞬时5G”使用三个宽广的新频段 什么是5G? 5G(第五代移动通信系统&#x…...

Servlet详解(Servlet源码)

Servlet Servlet是运行在Web服务器或应用服务器上的小程序,它作为来自Web浏览器或其他HTTP客户端的请求和HTTP服务器上的数据库或应用程序之间的中间层。Servlet能够接收来自客户端的基于HTTP协议的请求,并且对请求进行响应。 Servlet是用来处理客户端请…...

仓颉--接收控制台输入

package projectNameimport std.console.*main() {Console.stdOut.write("请输入信息1:")var c Console.stdIn.readln() // 输入:你好,请问今天星期几?var r c.getOrThrow()Console.stdOut.writeln("输入的信息1…...

数据库设计效率提高的5大注意事项

数据库设计效率和质量的提高对项目影响深远,能够显著提升数据访问速度,确保数据一致性和完整性,减少应用开发和维护成本,同时提升系统稳定性和用户体验。如果数据库设计不佳会导致项目性能低下,数据访问缓慢&#xff0…...

C语言笔试题(一)

本专栏通过整理各专业方向的面试资料并咨询业界相关人士,整合不同方向的面试资料,希望能为您的面试道路点亮一盏灯! 1 简单题 C语言中的注释如何写? 答案: 单行注释使用//,多行注释使用/* ... */解析: 注释用于…...

轻松实现远程智能交互:OriginBot与钉钉和GPT4o的集成指南

说明 我之前实现了简单UI来跟OriginBot交互,可以参考这里:古月居 - ROS机器人知识分享社区 但是由于我不是专业的前端开发,写UI还是比较耗时的,所以最近想修改一下这部分。 还有一个原因是,自己开发前端&#xff0c…...

从‘能看’到‘好看’:用Seaborn调色板为你的热力图注入专业感

从‘能看’到‘好看’:用Seaborn调色板为你的热力图注入专业感 在数据驱动的决策时代,可视化不仅是展示数字的工具,更是讲述数据故事的视觉语言。当你的热力图从"能看"升级为"好看",数据洞察的传递效率可能提…...

STM32G474RB用CMSIS-DAP下载程序,遇到一堆content mismatch错误?别急着换芯片,先检查这个硬件细节

STM32G474RB用CMSIS-DAP下载程序遇到content mismatch?可能是多设备干扰惹的祸 当你在实验室同时调试多块STM32开发板时,是否遇到过这样的场景:昨天还能正常烧录的STM32G474RB板卡,今天突然开始报出一连串content mismatch错误&am…...

AI Scientist-v2最佳实践:提高研究成功率的10个技巧

AI Scientist-v2最佳实践:提高研究成功率的10个技巧 【免费下载链接】AI-Scientist-v2 The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search 项目地址: https://gitcode.com/GitHub_Trending/ai/AI-Scientist-v2 想…...

怎样快速去掉照片背景?2026年AI抠图工具实测对比与使用指南

还在为复杂的照片背景发愁?想要快速批量处理多张照片?本文将带你深入了解2026年最新的照片去背景方法,从零基础的在线工具到专业级别的桌面软件,再到智能AI抠图方案,帮你找到最适合自己的解决方案。快速去背景的核心方…...

揭秘开源项目的高效实现:QMC音频文件解密技术深度解析

揭秘开源项目的高效实现:QMC音频文件解密技术深度解析 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经遇到过从QQ音乐下载的音频文件无法在其他播放器…...

借助AI写教材,低查重实现,轻松打造符合需求的教材!

教材编写的挑战与AI工具解决方案 在教材编写的过程中,如何平衡原创性与合规性是一个重要的挑战。借鉴优秀教材的知识内容时,常常会担心重复率过高;而自己独立表述知识点,又得顾虑逻辑不严密、内容不准确等问题。引用他人研究成果…...

在自动化脚本中集成Taotoken实现稳定的大模型调用

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在自动化脚本中集成Taotoken实现稳定的大模型调用 将大模型能力嵌入自动化流程,例如数据清洗与摘要生成脚本&#xff0…...

Spring Cache + Redis 缓存套餐数据,我是这样在Spring Boot项目里省掉80%数据库查询的

Spring Cache Redis 实战:如何用缓存套餐数据减少80%数据库查询 在电商和外卖系统中,套餐数据往往是高频查询但低频变更的典型场景。想象一下,每当用户浏览餐厅页面时,系统都要反复查询数据库获取相同的套餐信息,这种…...

穆斯堡尔谱—固态研究中不可或缺的工具

...

Azure机器学习实战:汽车价格预测模型端到端部署

1. 项目概述:在 Azure 上构建一个真正能落地的汽车价格预测模型你有没有试过想买一辆二手车,却在几个平台之间反复比价、查配置、翻论坛,最后还是拿不准这台车到底值不值这个价?或者作为数据新人,手头有份汽车数据集&a…...