当前位置: 首页 > article >正文

词法分析和词性标注 自然语言处理

目录

一. 概述

1 不同语言的词法分析

2 英语的形态分析

英语单词的形态还原(和正常英语的词法变化一样)

1.有规律变化单词的形态还原

​编辑 2.动词、名词、形容词、副词不规则变化单词的形态还原

3.对于表示年代、时间、百分数、货币、序数词的数字形态还原 

4.合成词的形态还原 

形态分析的一般方法

3 汉语自动分词概要 

歧义切分字段处理

未登录词的识别

汉语自动分词的基本原则

汉语自动分词的辅助原则

4 分词与词性标注结果评价

5 汉语自动分词基本算法

​编辑 未登录词识别


一. 概述

是自然语言中能够独立运用的最小单位, 是自然语言处理的基本单位。自动词法分析就是利用计算机对自然语言的形态(morphology) 进行分析,判断词的结构和类别等。

词性或称词类(Part-of-Speech, POS)是词汇 最重要的特性,是连接词汇到句法的桥梁。

1 不同语言的词法分析

曲折语(如,英语、德语、俄语等):用词的形态变化表示语法关系,一个形态成分可以表示若干种不同的语法意义,词根和词干与语词的附加成分结合紧密。

这类词的形态变化多(如动词时态、名词单复数),重点是 单词识别(如缩写、连字符词)和 形态还原(如将 “worked” 还原为 “work”)。

  • 例如:“can’t” 要拆成 “can + not”,“studies” 还原为 “study”

分析语(孤立语)(如:汉语):没有形态变化,核心是 自动分词(把句子拆成词),但面临很多难题:

  • 分词规范模糊:比如 “花草” 是词,“担水” 是短语还是词?
  • 歧义问题
    • 交集型歧义:如 “研究生物” 可拆成 “研究 / 生物” 或 “研究生 / 物”。
    • 组合型歧义:如 “门把手” 可拆成 “门 / 把手” 或 “门把手”(整体为词)。
  • 未登录词:人名(如 “令计划”)、地名(如 “武夷山”)、新词(如 “微信”)难以识别。

黏着语(如:日语等):分词+形态还原。 (博主只会中英所以也不懂)

2 英语的形态分析

基本任务:单词识别和形态还原

英语单词的形态还原(和正常英语的词法变化一样)

1.有规律变化单词的形态还原

 2.动词、名词、形容词、副词不规则变化单词的形态还原

3.对于表示年代、时间、百分数、货币、序数词的数字形态还原 

4.合成词的形态还原 

形态分析的一般方法

3 汉语自动分词概要 

歧义切分字段处理

1.中国人为了实现自己的梦想 (交集型歧义)

中国/人为/ 了/ 实现/ 自己/ 的/ 梦想

中国人/ 为了/ 实现/ 自己/ 的/ 梦想

中/ 国人/ 为了/ 实现/ 自己/ 的/ 梦想

定义:链长 一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。

2、门把手弄坏了。(组合型歧义)

门/ 把/ 手/ 弄/ 坏/ 了/ 。

门/ 把手/ 弄/ 坏/ 了/ 。

例如,“将来”、“现在”、“才能”、“学生会”等,都是组合型歧义字段。

未登录词的识别

汉语自动分词的基本原则

1、语义上无法由组合成分直接相加而得到的字串应 该合并为一个分词单位。(合并原则)

例如:不管三七二十一(成语),或多或少(副词 片语),十三点(定量结构),六月(定名结构), 谈谈(重叠结构,表示尝试),辛辛苦苦(重叠结 构,加强程度),进出口(合并结构)

2、语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)

(1)字串的语法功能不符合组合规律,如:好吃, 好喝,好听,好看等

(2)字串的内部结构不符合语法规律,如:游水等

汉语自动分词的辅助原则

1. 有明显分隔符标记的应该切分之(切分原则)

分隔标记指标点符号或一个词。如:

上、下课→上/ 下课

洗了个澡→洗/ 了/ 个/ 澡

2. 附着性语(词)素和前后词合并为一个分词单位 (合并原则)

例如:“吝”是一个附着语素,“不吝”、“吝于”等合并成一个词;

3. 使用频率高或共现率高的字串尽量合并为一个分词 单位 (合并原则)

如:“进出”、“收放”(动词并列);“大笑”、 “改称”(动词偏正);“关门”、“洗衣”、 “卸货”(动宾结构);“春夏秋冬”、“轻重 缓急”、“男女”(并列结构);“象牙”(名 词 偏正);“暂不”、“毫不”、“不再”等。

4. 双音节加单音节的偏正式名词尽量合并为一个分词单位 (合并原则)

如:“线、权、车、点”等所构成的偏正式名词: “国际线、分数线、贫困线”、“领导权、发言权、 知情权”、“垃圾车、交通车、午餐车”、“立足 点、共同点、着眼点”等。

5. 双音节结构的偏正式动词应尽量合并为一个分词单位 (合并原则)

本原则只适合少数偏正式动词,如:“紧追其后”、 “组建完成”等,不适合动宾及主谓式复合动词。

6.内部结构复杂、合并起来过于冗长的词尽量切分 (切分原则)

4 分词与词性标注结果评价

正确率(Correct ratio/Precision, P ): 测试结果中 正确切分或标注的个数占系统所有输出结果的比例。假设系统输出N个,其中,正确的结果为n个,那么

5 汉语自动分词基本算法

有词典切分/ 无词典切分

基于规则的方法/ 基于统计的方法

1. 最大匹配法 (Maximum Matching, MM) -有词典切分,机械切分

简单说,就是把句子拆成字,用词典找能组成的词,然后选拆分后词数量最少的那种结果,就像拼拼图,找最简洁的拼法 。

 未登录词识别

 

  • 想判断 “某字符串是不是姓名”,就用 概率估值公式,把 “姓的常见度” 和 “名的字的常见度” 相乘,算个数值。
  • 想知道 “姓 + 名” 至少得有多 “常见” 才算合理姓名,就用 最小阈值公式,找名里最冷门的组合,再和姓的常见度相乘,得到一个 “底线数值”。
  • 实际应用里,比如电脑识别姓名时,会拿计算出的 P(Cname) 和 Tmin​(X) 比,超过阈值就认为是姓名,没超过就排除~

 

 如何确定地名?

相关文章:

词法分析和词性标注 自然语言处理

目录 一. 概述 1 不同语言的词法分析 2 英语的形态分析 英语单词的形态还原(和正常英语的词法变化一样) 1.有规律变化单词的形态还原 ​编辑 2.动词、名词、形容词、副词不规则变化单词的形态还原 3.对于表示年代&…...

QT聊天项目DAY14

1. 客户端登录 1.1 初始化玩家头像 将头像的大小固定在250 * 250 void InitHeadImage(); // 初始化头像/* 初始化头像 */ void LoginWidget::InitHeadImage() {// 加载头像QPixmap OriginalPixmap(":/Chat/Images/head_5.jpg");OriginalPixmap …...

架构设计技巧——架构设计模板

一份实用、高效、覆盖核心要素的架构设计模板是确保设计质量、促进团队沟通和指导实施的关键。以下是一个经过提炼的架构设计文档核心模板框架,结合了业界最佳实践,并强调灵活裁剪: 架构设计文档模板 (核心框架) 文档标识 项目/系统名称&a…...

交易系统开发:跨境资本的高速通道架构解密

连接纽约、香港与内陆的金融管道工程 总收益互换(TRS)在港美股投资中扮演着跨境资本流动的“隐形桥梁”。本文基于真实跨境券商系统开发实践,深入解析支持多市场、多币种、多通道的TRS平台架构设计与业务解决方案。 一、港美股TRS的核心价值&…...

【Ragflow】27.RagflowPlus(v0.4.1):小版本迭代,问题修复与功能优化

概述 RagflowPlus v0.4.0 在发布后,收到了积极的反馈,同时也包含一些问题。 本次进行一轮小版本更新,发布 v0.4.1 版本,对已知问题进行修复,并对部分功能进行进一步优化。 开源地址:https://github.com/…...

易语言是什么?易语言能做什么?

易语言(EPL)是什么?​​ ​​易语言​​(Easy Programming Language,简称EPL)是一款​​面向中文用户的编程语言​​,由中国人吴涛于2000年开发,专为降低编程门槛设计。其核心特点是…...

【Oracle】数据仓库

个人主页:Guiat 归属专栏:Oracle 文章目录 1. 数据仓库概述1.1 为什么需要数据仓库1.2 Oracle数据仓库架构1.3 Oracle数据仓库关键技术 2. 数据仓库建模2.1 维度建模基础2.2 星形模式设计2.3 雪花模式设计2.4 缓慢变化维度(SCD)处…...

基于开源AI大模型AI智能名片S2B2C商城小程序源码的中等平台型社交电商运营模式研究

摘要:本文聚焦中等平台型社交电商,探讨其与传统微商及大型社交电商平台的差异,尤其关注产品品类管理对代理运营的影响。通过引入开源AI大模型、AI智能名片与S2B2C商城小程序源码技术,构建智能化运营体系。研究结果表明&#xff0c…...

typeof运算符 +unll和undefined的区别

typeof运算符 JavaScript 有三种方法,可以确定一个值到底是什么类型。而我们 现在需要接触到的就是typeof 数值返回number 1 typeof 123 // "number" 字符串返回string 1 typeof 123 // "string" 布尔值返回boolean 1 typeof fal…...

Vite 双引擎架构 —— Esbuild 概念篇

Vite 底层采用 双引擎架构,核心构建引擎是 Esbuild 和 Rollup,二者在开发和生产环境中分工协作,共同实现高性能构建。不可否认,作为 Vite 的双引擎之一,Esbuild 在很多关键的构建阶段(如依赖预编译、TS 语法转译、代码…...

Life:Internship finding

1. 前言 fishwheel writes this Blog to 记录自分自身在研二下找实习的经历。When 写这篇 Blog 的时候我的最后一搏也挂掉了,只能启用保底方案了。When I 打开我的邮箱时,发现里面有 nearly 100 多封与之相关的邮件,顿时感到有些心凉&#x…...

阿里云Alibaba Cloud安装Docker与Docker compose【图文教程】

个人记录 进入控制台,找到定时与自动化任务 进入‘安装/卸载扩展程序’ 点击‘安装扩展程序’ 选择docker社区版,点击下一步与确定,等待一会 安装成功 查询版本 查询docker sudo docker version查询docker compose sudo docker compo…...

GitHub 趋势日报 (2025年06月07日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 603 netbird 459 dify 440 cognee 352 omni-tools 337 note-gen 239 ragbits 237 …...

Java编程之组合模式

引言 在软件开发的世界里,我们经常会遇到需要表示"部分-整体"层次结构的场景。比如文件系统中的文件和文件夹、图形界面中的各种组件、企业组织架构中的部门和员工等。这些场景都有一个共同的特点:我们需要以一种统一的方式来处理单个对象和由…...

Oracle 19c RAC集群ADG搭建

1、将主库的pfile和passwdfile发送到备库 #主库一节点操作 scp -P1234 /tmp/pfile2025.ora bak_ip:/home/oracle sco -P1234 /oracle/app/oracle/product/19.0.0/db/dbs/orapw$ORACLE_SID bak_ip:/oracle/app/oracle/product/19.0.0/db/dbs 2、备库修改参数文件成standby相关…...

ADB识别手机系统弹授权框-如何处理多重弹框叠加和重叠问题

ADB识别手机系统弹授权框-如何处理多重弹框叠加和重叠问题 --蓝牙电话SDK自动部署 上一篇:手机App-插入USB时自动授权点击确定按钮-使系统弹出框自动消失 下一篇:编写中。 一、前言 我们在上一篇《手机App-插入USB时自动授权点击确定按钮-使系统弹出框…...

Kaggle-Predicting Optimal Fertilizers-(多分类+xgboost+同一特征值多样性)

Predicting Optimal Fertilizers 题意: 给出土壤的特性,预测出3种最佳的肥料 数据处理: 1.有数字型和类别型,类别不能随意换成数字,独热编码。cat可以直接处理category类型。 2.构造一些相关土壤特性特征 3.由于la…...

uniapp+<script setup lang=“ts“>解决有数据与暂无数据切换显示,有数据加载时暂无数据闪现(先加载空数据)问题

声明showEmpty 为false&#xff0c;在接口返回处判断有数据时设置showEmpty 为false&#xff0c;接口返回数据为空则判断showEmpty 为true &#xff08;这样就解决有数据的时候会闪现暂无数据的问题啦&#xff09; <!--* Date: 2024-02-26 03:38:52* LastEditTime: 2025-06…...

详解鸿蒙Next仓颉开发语言中的动画

大家上午好&#xff0c;今天来聊一聊仓颉开发语言中的动画开发。 仓颉中的动画通常有两种方式&#xff0c;分别是属性动画和显示动画&#xff0c;我们今天以下面的加载动画为例&#xff0c;使用显示动画和属性动画分别实现一下&#xff0c;看看他们有什么区别。 显示动画 显示…...

Redis常见使用场景解析

1. 数据库缓存 Redis 作为典型的 Key-Value 型内存数据库,数据缓存是其最广为人知的应用场景。使用 Redis 缓存数据操作简便,通常将序列化后的对象以 string 类型存储。但在实际应用中,需注意以下关键要点: Key 设计:必须确保不同对象的 Key 具有唯一性,且尽量缩短长度,…...

C语言指针与数组sizeof运算深度解析:从笔试题到内存原理

前两天跟着数组指针的教程&#xff1a; // #self 视频里的笔试题 !!!vipint b12[3][4] {0};printf("%ld \n", sizeof(b12[0]));printf("%ld \n", sizeof(*b12));printf("%ld \n", sizeof(*(b12 1)));printf("%ld \n", sizeof(*(&am…...

起重机指挥人员在工作中需要注意哪些安全事项?

起重机指挥人员在作业中承担着协调设备运行、保障作业安全的关键职责&#xff0c;其安全操作直接关系到整个起重作业的安全性。以下从作业前、作业中、作业后的全流程&#xff0c;详细说明指挥人员需注意的安全事项&#xff1a; 一、作业前的安全准备 资质与状态检查&#xff…...

JVM内存区域与溢出异常详解

当然可以。以下是结合了程序计数器和Java内存区域以及内存溢出异常的详细解释&#xff1a; JVM内存区域与内存溢出异常 Java虚拟机&#xff08;JVM&#xff09;管理着不同类型的内存区域&#xff0c;每个区域都有其特定的功能和可能导致的内存溢出异常。 程序计数器&#xff…...

ES海量数据更新及导入导出备份

一、根据查询条件更新字段 from elasticsearch import Elasticsearch import redis import json# 替换下面的用户名、密码和Elasticsearch服务器地址 username elastic password password es_host https://127.0.0.2:30674# 使用Elasticsearch实例化时传递用户名和密码 es…...

Java线程池核心原理与最佳实践

Java 线程池详解 线程池是Java并发编程的核心组件&#xff0c;它能高效管理线程生命周期&#xff0c;避免频繁创建销毁线程的开销&#xff0c;提升系统性能和资源利用率。 一、线程池核心优势 降低资源消耗&#xff1a;复用已创建的线程&#xff0c;减少线程创建销毁开销提高…...

JAVA-springboot log日志

SpringBoot从入门到精通-第8章 日志的操作 一、Spring Boot默认的日志框架 SpringBoot支持很多种日志框架&#xff0c;通常情况下&#xff0c;这些日志框架都是由一个日志抽象层和一个日志实现层搭建而成的&#xff0c;日志抽象层是为记录日志提供的一套标准且规范的框架&…...

1.springmvc基础入门(一)

1.Spring MVC概念 Spring MVC 是 Spring Framework 提供的 Web 组件&#xff0c;全称是 Spring Web MVC&#xff0c;是⽬前主流的实现 MVC 设计模式的框架&#xff0c;提供前端路由映射、视图解析等功能。 Java Web 开发者必须要掌握的技术框架。 2.Spring MVC 功能 MVC&am…...

AI 时代下语音与视频伪造的网络安全危机

引言 在人工智能技术的推动下&#xff0c;语音合成、视频生成等技术取得了突破性进展&#xff0c;Deepfake、AI 语音克隆等工具让语音和视频伪造变得愈发简单且逼真。这些技术在娱乐、影视等领域带来便利的同时&#xff0c;也被不法分子利用&#xff0c;引发了一系列网络安全问…...

模块缝合-把A模块换成B模块(没写完)

把MLP Head替换为KAN 1.在model文件下新建一个python文件 2.把 模块文件里的整个KAN代码复制到新的python文件中 3.在开头导入 from model.KAN(新建文件名&#xff09; import KAN&#xff08;新建文件中的类名&#xff09; 4.sys.path.append(r"D: Icode(Kansformer"…...

从零开始学Flink:揭开实时计算的神秘面纱

一、为什么需要Flink&#xff1f; 当你在电商平台秒杀商品时&#xff0c;1毫秒的延迟可能导致交易失败&#xff1b;当自动驾驶汽车遇到障碍物时&#xff0c;10毫秒的计算延迟可能酿成事故。这些场景揭示了一个残酷事实&#xff1a;数据的价值随时间呈指数级衰减。 传统批处理…...