当前位置: 首页 > news >正文

自然语言处理(八):Lexical Semantics

目录

1. Sentiment Analysis

2. Lexical Database

2.1 What is Lexical Database

2.2 Definitions

2.3 Meaning Through Dictionary

2.4 WordNet

2.5 Synsets

2.6 Hypernymy Chain

3. Word Similarity

3.1 Word Similarity with Paths

3.2 超越路径长度

3.3 Abstract Nodes

3.4 Concept Probability Of A Node

3.5 Similarity with Information Content

4. Word Sense Disambiguation

4.1 Word Sense Disambiguation

4.2 Supervised WSD 有监督词义消歧

4.3 Unsupervised: Lesk 无监督:Lesk

4.4 Final Words


1. Sentiment Analysis

Bag of words, kNN classifier. Training data 词袋模型,kNN分类器。训练数据:

  • “This is a good movie.” → ☺
  • “This is a great movie.” → ☺
  • “This is a terrible film.” → ☹
  • “This is a wonderful film.” → ?

Two problems:

  • The model does not know that "movie" and "film' are synonyms. Since "film" appears only in negative examples the model learns that it is a negative word. 模型不知道“电影”和“影片”是同义词。因为“影片”只出现在负面例子中,所以模型认为它是一个负面词。
  • "wonderful" is not in the vocabulary (OOV ---- Out-Of-Vocabulary). “wonderful”不在词汇表里

Comparing words directly will not work. How to make sure we compare word meanings instead?

Solution: add this information explicitly through a lexical database. 通过 lexical database 显式添加此信息。

2. Lexical Database

2.1 What is Lexical Database

Their dictionary definition 

  • But dlictionary definitions are necessarily circular
  • Only useful if meaning is already understood

Their relationships with other words

  • Also circular, but better for text analysis

2.2 Definitions

A word sense describes one aspect of the meaning of a word 词义描述了一个词的意义的一个方面

If a word has multiple senses, it is polysemous 如果一个词有多个义项,它就是多义词

2.3 Meaning Through Dictionary

Gloss: textual definition of a sense, given by a dictionary

Bank

  • financial institution that accepts deposits and channels the money into lending activities
  • sloping land (especially the slope beside a body of water)

Another way to define meaning: by looking at how it relates to other words

Synonymy: near identical meaning

  • vomit vs. throw up
  • big vs. large

Antonymy: opposite meaning

  • long vs. short
  • big vs. little

Hypernymy: is-a relation

  • cat is an animal
  • mango is a fruit

Meronymy: part-whole relation

  • leg is part of a chair
  • wheel is part of a car

2.4 WordNet

  • A database of lexical relations 词汇关系数据库
  • English WordNet includes ~120,000 nouns, ~12,000 verbs, ~21,000 adjectives, ~4,000 adverbs 包括大约120,000个名词,12,000个动词,21,000个形容词,4,000个副词
  • On average: noun has 1.23 senses; verbs 2.16 平均名词有1.23个义项;动词有2.16个义项
  • WordNets available in most major languages
  • English version freely available (accessible via NLTK)

2.5 Synsets

Nodes of wordNet are not words or lemmas, but senses

There are represented by sets of synonyms, or synsets

Bass synsets:

 

Another synset:

2.6 Hypernymy Chain

3. Word Similarity

  • Synonymy: film vs. movie
  • What about show vs. film? opera vs. film?
  • Unlike synonymy (which is a binary relation), word similarity is a spectrum
  • We can use lexical database (e.g. WordNet) or thesaurus to estimate word similarity

3.1 Word Similarity with Paths

  • 利用WordNet,找到基于路径长度的相似度
  • 两个词汇间的相似度计算方法:
    • simpath(c1, c2) = 1 / pathlen(c1, c2)
    • wordsim(w1,w2) = max{c1∈senses(w1),c2∈senses(w2)} simpath(c1, c2)

  • simpath(nickel,coin) = 0.5
  • simpath(nickel,currency) = 0.25
  • simpath(nickel,money) = 0.17
  • simpath(nickel,Richter scale) = 0.13

3.2 超越路径长度

  • 问题:边缘在实际语义距离上的变化很大
    • 接近等级制度顶端的跳跃要大得多
  • 解决方案1:包含深度信息(Wu & Palmer)
    • 使用 path 查找最小公共子包(LCS)
    • Something 比较使用深度

simwup(c1, c2) = 2 × depth(LCS(c1, c2)) / (depth(c1) + depth(c2))

3.3 Abstract Nodes

  • But node depth is still poor semantic distance metric
    • simwup (nickel, money) = 0.44
    • simwup (nickel, Richter scale) = 0.22
  • Nodes high in the hierarchy is very abstract or general
  • How to better capture them?

3.4 Concept Probability Of A Node

Intuition :

Intuition: general node → high concept probability (e.g. object)

narrow node → low concept probability (e.g. vocalist)

Example

 

3.5 Similarity with Information Content

4. Word Sense Disambiguation

4.1 Word Sense Disambiguation

Task: selects the correct sense for words in a sentence 为句子中的词选择正确的词义

Baseline: Assume the most popular sense 假设最常见的词义

Good WSD potentially useful for many tasks 良好的词义消歧对许多任务可能有用

  • Knowing which sense of mouse is used in a sentence is important! 知道句子中mouse的哪个词义很重要!
  • Less popular nowadays; because sense information is implicitly captured by contextual representations (lecture 11) 如今不太受欢迎;因为词义信息被上下文表示隐含地捕获

4.2 Supervised WSD 有监督词义消歧

Apply standard machine classifiers 应用标准的机器分类器

Feature vectors typically words and syntax around target 特征向量通常是目标词周围的单词和语法

  • But context is ambiguous too! 但上下文也是模糊的!
  • How big should context window be? (in practice small) 上下文窗口应该有多大?(实际上较小)

Requires sense-tagged corpora 需要有词义标注的语料库

  • E.g. SENSEVAL, SEMCOR (available in NLTK) 例如 SENSEVAL,SEMCOR(可在NLTK中找到)
  •  Very time consuming to create! 创建非常耗时!

4.3 Unsupervised: Lesk 无监督:Lesk

Lesk:选择WordNet释义与上下文重叠最多的词义

4.4 Final Words

  • Creation of lexical database involves expert curation (linguists) 词汇数据库的创建涉及专家策展(语言学家)
  • Modern methods attempt to derive semantic information directly from corpora, without human intervention 现代方法试图直接从语料库中获取语义信息,无需人工干预
  • Distributional semantics 分布式语义

 

相关文章:

自然语言处理(八):Lexical Semantics

目录 1. Sentiment Analysis 2. Lexical Database 2.1 What is Lexical Database 2.2 Definitions 2.3 Meaning Through Dictionary 2.4 WordNet 2.5 Synsets 2.6 Hypernymy Chain 3. Word Similarity 3.1 Word Similarity with Paths 3.2 超越路径长度 3.3 Abstra…...

推荐一款 AI 脑图软件,助你神速提高知识体系搭建

觅得一款神器,接近我理想中,搭建知识体系的方法,先来看视频作为数据库开发或管理者,知识体系搭建尤为重要。来看看近些年缺乏足够数据库知识面造成的危害:a/ 数据安全风险:例如,2017年Equifax数…...

掌握这些“学习方法和工具”,让你事半功倍!

在中国这个高竞争的社会环境下,学习成为了每个人都需要掌握的技能。然而,学习并不仅仅是读书和听课,更是需要一系列高效的方法和习惯来提高效率。本文将介绍一些实用的学习经验和方法,以及推荐一些国内好的学习工具和平台&#xf…...

MyBatis 源码解析 面试题总结

MyBatis源码学习环境下载 文章目录1、工作原理1.1 初始化1.1.1 系统启动的时候,加载解析全局配置文件和相应的映射文件1.1.2 建造者模式帮助我们解决复杂对象的创建:1.2 处理SQL请求的流程1.2.1 通过sqlSession中提供的API方法来操作数据库1.2.2 获取接口…...

「业务架构」需求工程—需求规范(第3部分)

将用户和系统需求记录到文档中。需求规范它是将用户和系统需求写入文档的过程。需求应该是清晰的、容易理解的、完整的和一致的。在实践中,这是很难实现的,因为涉众以不同的方式解释需求,并且在需求中经常存在固有的冲突和不一致。正如我们之…...

chapter-1数据管理技术的发展

以下课程来源于MOOC学习—原课程请见:数据库原理与应用 数据管理技术的发展 发展三阶段 人工管理【1950前】 采用批处理;主要用于科学计算;外部设备只有磁带,卡片,纸带等 特点:1.数据面向应用2.数据不保…...

23.Spring练习(spring、springMVC)

目录 一、Spring练习环境搭建。 (1)设置服务器启动的展示页面。 (2)创建工程步骤。 (3)applicationContext.xml配置文件。 (4)spring-mvc.xml配置文件。 (5&#x…...

【数据库原理 • 七】数据库并发控制

前言 数据库技术是计算机科学技术中发展最快,应用最广的技术之一,它是专门研究如何科学的组织和存储数据,如何高效地获取和处理数据的技术。它已成为各行各业存储数据、管理信息、共享资源和决策支持的最先进,最常用的技术。 当前…...

内部人员或给企业造成毁灭性损失

全球每年有近百万企业因数据丢失而倒闭。而媒体几乎每个月都会报道数百起恶意和无意的内部威胁事件,导致的企业机构名誉损失、巨额赔款甚至于面临运营危机。 内部威胁主要有三个来源: 1、疏忽或无意的员工; 2、有意识或恶意的内部人员&…...

【技巧】Word“只读方式”的设置与取消

如果你担心在阅读Word文档的时候,不小心修改并保存了内容,那就给文档设置“只读方式”吧,这样就算不小心做了修改也不能随意保存。 Word文档的“只读方式”有两种模式,对此不清楚的小伙伴,来看看如何设置和取消吧。 模…...

【软考备战·希赛网每日一练】2023年4月12日

文章目录一、今日成绩二、错题总结第一题三、知识查缺题目及解析来源:2023年04月12日软件设计师每日一练 一、今日成绩 二、错题总结 第一题 解析: 依据题目画出PERT图如下: 关键路径长度(从起点到终点的路径中最长的一条&#x…...

算法记录 | Day28 回溯算法

93.复原IP地址 思路: 1.确定回溯函数参数:定义全局遍历存放res集合和单个path,还需要 s字符 startindex(int)为下一层for循环搜索的起始位置。 2.终止条件:当len(path)4且遍历到字符串最末尾&#xff…...

气象历史数据和空气质量历史数据资源汇总免费

气象数据和空气质量数据资源汇总 1.全球气象数据资源 WorldClim 网址:Global climate and weather data — WorldClim 1 documentation WorldClim是一个全球高分辨率气候数据分享平台。截止2021年03月,其包括以下数据: •Climate数据&am…...

【区块链】走进web3的世界-对于前端来说,web2与web3的区别

web3离不开几个概念,智能合约、区块链、前端交互 1、智能合约可以直接与区块链中的区块进行交互; 2、前端通过web3.js/ethers.js等npm库可以和智能合约进行交互; 说的直白点,web3与web2对于前端来说,只是对接的对象发生…...

深拷贝和浅拷贝

目录 一.Java的Cloneable和clone()方法 1.Object类中的clone() 2.实现Cloneable接口的类 3.通过clone()生成对象的特点 二.深拷贝和浅拷贝 1.浅拷贝 2.深拷贝 3.实现深拷贝的两种方法 1.一种是递归的进行拷贝 2.Json字符串的方式进行深拷贝 一.Java的Cloneable和clone…...

【回眸】ChatGPT Plus(GPT4体验卡)

前言 没忍住诱惑,开了个GPT4.0的会员,给大家表演一波 开通成功 开始问问题 写一个CNN疲劳驾驶监测代码,要求{使用Python语言,使用包,能成功运行,需要调用电脑摄像头,要求GUI界面有一些参数…...

走进小程序【七】微信小程序【常见问题总结】

文章目录🌟前言🌟小程序登录🌟unionid 和 openid🌟关键Api🌟登录流程设计🌟利用现有登录体系🌟利用OpenId 创建用户体系🌟利用 Unionid 创建用户体系🌟授权获取用户信息流…...

光电隔离转换器 直流信号放大器 导轨安装DIN11 IPO OC系列

概述: 导轨安装DIN11 IPO OC系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要直流信号隔离测控的行业。此系列产品内部采用了线性光电隔离技术相…...

语聊房app的开发以及运营思路

语聊房app是一种基于实时语音交流的社交应用,用户可以通过该应用结识新朋友、交流经验、分享兴趣爱好等,因此备受年轻用户的青睐。以下是语聊房app的开发以及运营思路: 一、开发思路 功能设计 语聊房app的核心功能是实时语音聊天&#xff0…...

目标检测基础之IOU计算

目标检测基础之IOU计算概念理解——什么是IOUdemo后记概念理解——什么是IOU IOU 交并比(Intersection over Union),从字面上很容易理解:计算交集在并集的比重。从网上截张图看看 IOUA∩BA∪BIOU \frac{A \cap B}{A \cup B} IO…...

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案&#xff1a; 语义化标签&#xff1a; <header>&#xff1a;页头<nav>&#xff1a;导航<main>&#xff1a;主要内容<article>&#x…...

云计算——弹性云计算器(ECS)

弹性云服务器&#xff1a;ECS 概述 云计算重构了ICT系统&#xff0c;云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台&#xff0c;包含如下主要概念。 ECS&#xff08;Elastic Cloud Server&#xff09;&#xff1a;即弹性云服务器&#xff0c;是云计算…...

简易版抽奖活动的设计技术方案

1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

练习(含atoi的模拟实现,自定义类型等练习)

一、结构体大小的计算及位段 &#xff08;结构体大小计算及位段 详解请看&#xff1a;自定义类型&#xff1a;结构体进阶-CSDN博客&#xff09; 1.在32位系统环境&#xff0c;编译选项为4字节对齐&#xff0c;那么sizeof(A)和sizeof(B)是多少&#xff1f; #pragma pack(4)st…...

从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)

设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile&#xff0c;新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

Spring Boot面试题精选汇总

&#x1f91f;致敬读者 &#x1f7e9;感谢阅读&#x1f7e6;笑口常开&#x1f7ea;生日快乐⬛早点睡觉 &#x1f4d8;博主相关 &#x1f7e7;博主信息&#x1f7e8;博客首页&#x1f7eb;专栏推荐&#x1f7e5;活动信息 文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现&#xff08;两者等价&#xff09;&#xff0c;用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例&#xff1a; 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

AI病理诊断七剑下天山,医疗未来触手可及

一、病理诊断困局&#xff1a;刀尖上的医学艺术 1.1 金标准背后的隐痛 病理诊断被誉为"诊断的诊断"&#xff0c;医生需通过显微镜观察组织切片&#xff0c;在细胞迷宫中捕捉癌变信号。某省病理质控报告显示&#xff0c;基层医院误诊率达12%-15%&#xff0c;专家会诊…...

短视频矩阵系统文案创作功能开发实践,定制化开发

在短视频行业迅猛发展的当下&#xff0c;企业和个人创作者为了扩大影响力、提升传播效果&#xff0c;纷纷采用短视频矩阵运营策略&#xff0c;同时管理多个平台、多个账号的内容发布。然而&#xff0c;频繁的文案创作需求让运营者疲于应对&#xff0c;如何高效产出高质量文案成…...