当前位置: 首页 > news >正文

NLP 之词的表示与语言模型

表示的基本原理:

机器无法理解文字,却能进行复杂的数学运算——神经网络只要够深、够复杂,就能拟合足够复杂的数学模式。把文字嵌入(embed)到一个向量空间中去。

词表示(Word Representation)分为4代

1.独热(One hot)编码

基本原理:

假设中文字典有n个词元,那么第i(i=1,2,3,...,n)个词元的编码为一个长度为n的向量,它的第i位为1,其他为0。独热编码实现了对文本的向量化嵌入。

问题:

第一,向量的维度太长了,文本的表示过于稀疏;

第二,词向量与词向量之间完全正交,不具有相关性。

2.词频-逆文档词频(Term Frequency-Inverse Term Frequency, TF-IDF)

根据Zipf's Law,在给定的自然语言语料库中,任何一个词的频率与它在频率表中的排名成反比。

3.语境无关(Context-free/Non-contextual)的词表示:Word2vec

它对每一个词生成一个相同的词表示,不考虑同一个词在不同语境下含义的差别。

连续词袋法:

用一个浅层神经网络,依次遮住句子中的每一个词,然后用它的上下文来预测它

跳元法:

我们用一个k元词组来预测它的上下文

自监督预训练:

通过“破坏”句子的一部分,让模型预测它,从而实现对词的更精确的表示.

4.语境相关(Context-dependent/Contextual)的词表示:BERT

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入:词嵌入、位置嵌入(词在句子中的位置)和句子嵌入,并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器(tokenizer),借鉴了自监督训练的思想,在两个任务上进行预训练:下句预测(Next Sentence Prediction)和掩码语言建模(Masked Language Modeling)。

下句预测是一个二分类任务:给定一个句子,判定另一个句子是否是它的下一句;

掩码语言建模任务随机掩盖其中15%的单词,并训练模型来预测被掩盖的单词,为了预测被掩盖的单词,模型从两个方向阅读该句并进行预测。

相关文章:

NLP 之词的表示与语言模型

表示的基本原理: 机器无法理解文字,却能进行复杂的数学运算——神经网络只要够深、够复杂,就能拟合足够复杂的数学模式。把文字嵌入(embed)到一个向量空间中去。 词表示(Word Representation)…...

每天一个数据分析题(四百七十一)- 假设检验

下列对假设检验的描述合理的是? A. 备择假设是研究者想收集证据予以支持的假设 B. 原假设是研究者想收集证据予以推翻的假设 C. 原假设是研究者想收集证据予以支持的假设 D. 备择假设是研究者想收集证据予以推翻的假设 数据分析认证考试介绍:点击进入 题目来…...

《系统架构设计师教程(第2版)》第13章-层次式架构设计理论与实践-04-数据访问层设计

文章目录 1. 五种数据访问模式1.1 在线访问1.2 DAO1.3 DTO1.4 离线数据模式1.5 对象/关系映射 (O/R Mapping) 2. 工厂方法模式在数据访问层应用3 ORM、Hibernate与CMP2.0设计思想3.1 ORM3.2 Hibernate1)概述2) Hibernate的架构(2023年的考题&…...

【视觉SLAM】 十四讲ch7习题

简介 本文主要内容是《视觉SLAM十四讲》(第二版)第7章的习题解答,并介绍了在解答习题中的一下思考和总结的经验。本文代码部分参考了:HW-of-SLAMBOOK2 1、除了本书介绍的ORB特征点,你还能找到哪些特征点?…...

K-近邻算法(二)

三、 kd 树 问题导⼊: 实现k 近邻算法时, 主要考虑的问题是如何对训练数据进⾏快速 k 近邻搜索。这在特征空间的维数⼤及训练数据容量⼤时尤其必要。 k 近邻法最简单的实现是线性扫描(穷举搜索),即要计算输⼊实例与…...

WPF学习(2)-UniformGrid控件(均分布局)+StackPanel控件(栈式布局)

UniformGrid控件(均分布局) UniformGrid和Grid有些相似,只不过UniformGrid的每个单元格面积都是相等的,不管是横向的单元格,或是纵向的单元格,它们会平分整个UniformGrid。 UniformGrid控件提供了3个属性…...

ANTSDR E310

ANTSDR E310是一款由微相科技有限公司(MicroPhase)推出的软件无线电(SDR)平台,专为现场部署设计。以下是对ANTSDR E310的详细介绍: 一、主要特点 独立运行的软件无线电:ANTSDR E310具备独立运…...

MySQL 5.7 DDL 与 GH-OST 对比分析

作者:来自 vivo 互联网存储研发团队- Xia Qianyong 本文首先介绍MySQL 5.7 DDL以及GH-OST的原理,然后从效率、空间占用、锁阻塞、binlog日志产生量、主备延时等方面,对比GH-OST和MySQL5.7 DDL的差异。 一、背景介绍 在 MySQL 数据库中&…...

【Python】爬取网易新闻今日热点列表数据并导出

1. 需求 从网易新闻的科技模块爬取今日热点的列表数据,其中包括标题、图片、标签、发表时间、路径、详细文本内容,最后导出这些列表数据到Excel中。 网易科技新闻网址:https://tech.163.com 2. 解决步骤 2.1 前期准备 爬虫脚本中需要引用…...

软件设计之HTML5

软件设计之HTML5 【狂神说Java】HTML5完整教学通俗易懂 学习内容: 软件开发技能点参照:软件开发,小白变大佬,这套学习路线让你少走弯路是认真的,欢迎讨论 软件开发技能点参照:Java学习完整路线&#xff…...

CnosDB 元数据集群 – 分布式时序数据库的大脑

CnosDB 是一个分布式时序数据库系统,其中元数据集群是核心组件之一,负责管理整个集群的元数据信息。 1. 概述 CnosDB 是一个分布式时序数据库系统,其中元数据集群是核心组件之一,负责管理整个集群的元数据信息。元数据包括数据库…...

白骑士的Matlab教学进阶篇 2.5 Simulink

Simulink是MATLAB的扩展工具,提供了一个图形化的建模和仿真环境。它广泛应用于系统设计、仿真、自动控制、信号处理等领域。本文将详细介绍Simulink的简介与基本使用、建立与仿真模型、控制系统设计与仿真、与MATLAB的集成。 Simulink简介与基本使用 什么是Simuli…...

linux安装anaconda

参考 如何在Linux服务器上安装Anaconda(超详细)_linux安装anconda-CSDN博客 官网 Index of / 安装网站 https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh wget https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Lin…...

python装饰器作用和使用场景

当谈到装饰器时,很多初学者很迷糊,有一个经典的例子可以帮助理解它们的作用。装饰器允许你在不修改函数代码的情况下,动态地改变函数的行为。 一、用法 假设我们有一个简单的函数,用来输出一条简单的问候语: 复制代码…...

Apache Tomcat 7下载、安装、环境变量配置 详细教程

Apache Tomcat 7下载、安装、环境变量配置 详细教程 Apache Tomcat 7下载Apache Tomcat 7 安装Apache Tomcat 7 环境变量配置启动 Apache Tomcat 7测试Tomcat7是否启动成功 Apache Tomcat 7下载 1、下载地址,找到Archives 链接: 官网下载地址 2、找到Tomcat 7&…...

SQL注入实例(sqli-labs/less-20)

0、初始页面 1、确定闭合字符 2、爆库名 3、爆表名 4、爆列名 5、查询最终目标...

Linux Shell面试题大全及参考答案(3万字长文)

目录 解释Shell脚本是什么以及它的主要用途 主要用途 Shell脚本中的注释如何编写? 如何在Shell脚本中定义和使用变量? Shell支持哪些数据类型? 什么是Shell的命令替换?请举例说明。 管道(pipe)和重定向(redirection)有什么区别? 如何在Shell脚本中使用条件语句…...

速盾:cdn优化静态资源加载速度机制

CDN(Content Delivery Network)是一种优化静态资源加载速度的机制。它通过在全球多个地点部署服务器,将静态资源缓存到离用户最近的服务器上,从而提高资源加载速度。 在传统的网络架构中,当用户访问一个网站时&#x…...

04.C++类和对象(中)

1.类的默认成员函数 默认成员函数就是用户没有显式实现,编译器会自动生成的成员函数称为默认成员函数。一个类,我们不写的情况下编译器会默认生成以下6个默认成员函数,需要注意的是这6个中最重要的是前4个,最后两个取地址重载不重…...

【代码随想录训练营第42期 Day23打卡 回溯Part2 - LeetCode 39. 组合总和 40.组合总和II 131.分割回文串

目录 一、做题心得 二、题目与题解 题目一:39. 组合总和 题目链接 题解:回溯 题目二:40.组合总和II 题目链接 题解:回溯 题目三:131.分割回文串 题目链接 题解:回溯 三、小结 一、做题心得 今天是代码随想录…...

黑客马拉松利器:OpenClaw+SecGPT-14B快速构建安全PoC

黑客马拉松利器:OpenClawSecGPT-14B快速构建安全PoC 1. 缘起:当安全专家遇上自动化助手 去年参加某次网络安全竞赛时,我遇到了一个典型痛点:在48小时的黑客马拉松中,团队需要快速验证多个漏洞猜想,但手动…...

自我即自感:一种极简存在论(四篇)

第一篇:自我即自感:一种极简存在论我们早已知道我们总是知道“我是我”。这不是谁告诉我们的,也不是推理出来的。从最原初的体验开始,我们就已经知道:正在感受的这个,就是我。这个“知道”不是反思。你不必…...

douyin-downloader:高效采集抖音内容的全流程解决方案

douyin-downloader:高效采集抖音内容的全流程解决方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…...

告别WebSecurityConfigurerAdapter:Spring Security 5.7+组件化配置实战指南

1. 从WebSecurityConfigurerAdapter到组件化配置的转变 如果你最近在升级Spring Boot应用,特别是从2.x版本迁移到3.x,肯定会遇到一个重大变化:Spring Security 5.7版本中,WebSecurityConfigurerAdapter这个老朋友已经被正式弃用了…...

从OpenAPI到完整应用:手把手教你用Spec Kit + Claude 3.5生成一个可运行的REST API服务

从OpenAPI到完整应用:手把手教你用Spec Kit Claude 3.5生成一个可运行的REST API服务 在当今快节奏的软件开发环境中,如何快速将API设计转化为可运行的完整服务,是每个开发者都面临的挑战。传统开发流程中,从OpenAPI规范到实际代…...

VSCode高效前端开发:Live Server插件与Chrome浏览器无缝联调指南

1. 为什么你需要Live Server插件 作为前端开发者,最烦人的事情莫过于每次修改代码后都要手动刷新浏览器。我刚开始写前端的时候,经常在HTML、CSS和JavaScript文件之间来回切换,每次保存后都要切到浏览器按F5,效率低得让人抓狂。直…...

手把手教你用Proteus给Arduino项目做“硬件体检”:以舵机控制为例

用Proteus为Arduino舵机项目做虚拟压力测试的5个实战技巧 当你花了两天时间焊接好电路板,满怀期待地给舵机通电时,突然闻到一股焦糊味——这种硬件翻车现场每个创客都经历过。仿真工具的价值就在于,它能让你在烧毁第一个元器件之前&#xff0…...

【超详细】步进电机选型避坑指南:这5个参数没搞懂,买回来就是废铁

文章目录一、保持转矩:最大误区是把它当成“工作力矩”1.1 保持转矩的物理含义:通电锁住时的最大力矩,不是转起来的力矩1.2 选型时保持转矩到底该怎么用:经验系数法1.3 实测对比:标称力矩相同的两台电机,实…...

SEO整站优化服务需要哪些专业技能_SEO整站优化服务如何提高网站的技术优化

SEO整站优化服务需要哪些专业技能_SEO整站优化服务如何提高网站的技术优化 在当今数字化时代,网站的成功与否在很大程度上取决于其在搜索引擎上的排名。SEO整站优化服务作为提高网站可见度和流量的关键手段,需要一系列专业技能的支持。本文将详细探讨SE…...

Linux基础之目录结构

初学Linux,首先需要弄清Linux 标准目录结构 / root — 启动Linux时使用的一些核心文件。如操作系统内核、引导程序Grub等。home — 存储普通用户的个人文件 ftp — 用户所有服务httpdsambauser1user2 bin — 系统启动时需要的执行文件(二进制&#xf…...