当前位置: 首页 > news >正文

自然语言处理--双向匹配算法

自然语言处理作业1--双向匹配算法

一、概述

双向匹配算法是一种用于自然语言处理的算法,用于确定两个文本之间的相似度或匹配程度。该算法通常使用在文本对齐、翻译、语义匹配等任务中。

在双向匹配算法中,首先将两个文本分别进行处理,然后分别从两个文本的角度进行匹配。这种双向匹配可以更全面地考虑两个文本之间的相似性,避免单向匹配算法可能出现的遗漏或错误匹配的情况。

双向匹配算法通常包括以下步骤:

  1. 分词处理:对两个文本分别进行分词处理,将文本分割成词语或短语的序列。
  2. 特征提取:从两个文本中提取特征,如词频、词性、语义信息等。
  3. 匹配计算:使用不同的匹配算法(如余弦相似度、编辑距离等)计算两个文本之间的相似度或匹配程度。
  4. 结果合并:将两个文本的匹配结果进行合并,得到最终的匹配结果。

双向匹配算法能够更准确地捕捉两个文本之间的相似性,提高了文本对齐、翻译、语义匹配等任务的准确性和效率。因此,在自然语言处理领域中得到了广泛的应用。

二、算法描述

正向最大匹配算法是一种中文分词算法,用于将连续的中文文本切分成词语。步骤如下:

  1. 从切分列表的第一个位置开始,取出长为最大词长MaxLen的词语作为子串。
  2. 判断子串是否在词库中存在,若存在则将该词作为分词结果,并将切分列表中对应的部分删除。
  3. 若子串在词库中不存在,则将子串的最后一个字符去掉,得到一个新的子串。
  4. 重复步骤2和步骤3,直到子串为空或切分列表为空。
  5. 返回分词结果。

反向最大算法也是一种中文分词算法,与正向最大匹配算法相反,从待分词文本的末尾开始逆向切分成词语。步骤如下:

  1. 从切分列表最后一个位置开始,取出长为最大词长MaxLen的词语作为子串。
  2. 判断子串是否在词库中存在,若存在则将该词作为分词结果,并将切分列表中对应的部分删除。
  3. 若子串在词库中不存在,则将子串的第一个字符去掉,得到一个新的子串。
  4. 重复步骤2和步骤3,直到子串为空或切分列表为空。
  5. 返回分词结果。

逆向最大匹配算法与正向最大匹配算法的区别在于匹配的方向,逆向最大匹配算法从后往前匹配词语,但原理和步骤与正向最大匹配算法相似。

三、详细描述

以“对外经济技术合作与交流不断扩大。”为例,详细描述算法如下:

正向最大匹配算法:

假设最大词长MaxLen为5

  1. 取子串 “对外经济技”,扫描词典,没有匹配,子串长度减1变为“对外经济”
  2. “对外经济”,扫描词典,没有匹配,子串长度减1变为“对外经”
  3. “对外经”,扫描词典,没有匹配,子串长度减1变为“对外”
  4. 对外”, 扫描词典,有匹配,输出“对外”,输入变为“经济技术合”
  5. “经济技术合”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  6. “经济技术合”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  7. “经济技”,扫描词典,没有匹配,子串长度减1变为“经济”
  8. 经济”,扫描词典,有匹配,输出“经济”,输入变为“技术合作与”
  9. “技术合作与”,扫描词典,没有匹配,子串长度减 1 变为“技术合作”
  10. “技术合作”,扫描词典,没有匹配,子串长度减 1 变为“技术合”
  11. “技术合”,扫描词典,没有匹配,子串长度减 1 变为“技术”
  12. 技术”,扫描词典,有匹配,输出“技术”,输入变为“合作与交流”
  13. “合作与交流”,扫描词典,没有匹配,子串长度减 1 变为“合作与交”
  14. “合作与交”,扫描词典,没有匹配,子串长度减 1 变为“合作与”
  15. “合作与”,扫描词典,没有匹配,子串长度减 1 变为“合作”
  16. 合作”,扫描词典,有匹配,输出“合作”,输入变为“与交流不断”
  17. “与交流不断”,扫描词典,没有匹配,子串长度减 1 变为“与交流不”
  18. “与交流不”,扫描词典,没有匹配,子串长度减 1 变为“与交流”
  19. “与交流”,扫描词典,没有匹配,子串长度减 1 变为“与交”
  20. “与交”,扫描词典,没有匹配,子串长度减 1 变为“与”
  21. 与”,扫描词典,有匹配,输出“与”,输入变为“交流不断扩”
  22. “交流不断扩”,扫描词典,没有匹配,子串长度减 1 变为“交流不断”
  23. “交流不断”,扫描词典,没有匹配,子串长度减 1 变为“交流不”
  24. “交流不”,扫描词典,没有匹配,子串长度减 1 变为“交流”
  25. 交流”,扫描词典,有匹配,输出“交流”,输入变为“不断扩大。”
  26. “不断扩大。”,扫描词典,没有匹配,子串长度减 1 变为“不断扩大”
  27. “不断扩大”,扫描词典,没有匹配,子串长度减 1 变为“不断扩”
  28. “不断扩”,扫描词典,没有匹配,子串长度减 1 变为“不断”
  29. 不断”,扫描词典,有匹配,输出“不断”,输入变为“扩大。”
  30. “扩大。”,扫描词典,没有匹配,子串长度减 1 变为“扩大”
  31. 扩大”,扫描词典,有匹配,输出“扩大”, 输入变为“。”
  32. 。”,扫描词典,有匹配,输入变为“”,扫描终止

正向最大匹配法最终的切分结果为:“对外/经济/技术/合作/与/交流/不断/扩大/。”


反向最大匹配算法:

假设最大词长MaxLen为5

  1. 取子串 “不断扩大。”,扫描词典,没有匹配,子串长度减1变为“不断扩大”
  2. “断扩大。”,扫描词典,没有匹配,子串长度减1变为“扩大。”
  3. “扩大。”,扫描词典,没有匹配,子串长度减1变为“大。”
  4. “大。”,扫描词典,没有匹配,子串长度减1变为“。”
  5. 。”,扫描词典,有匹配,输出“。”,输入变为“流不断扩大”
  6. “流不断扩大”,扫描词典,没有匹配,子串长度减1变为“不断扩大”
  7. “不断扩大”,扫描词典,没有匹配,子串长度减1变为“断扩大”
  8. “断扩大”,扫描词典,没有匹配,子串长度减1变为“扩大”
  9. 扩大”,扫描词典,有匹配,输出“扩大”,输入变为“与交流不断”
  10. “与交流不断”,扫描词典,没有匹配,子串长度减1变为“交流不断”
  11. “交流不断”,扫描词典,没有匹配,子串长度减1变为“流不断”
  12. “流不断”,扫描词典,没有匹配,子串长度减1变为“不断”
  13. 不断”,扫描词典,有匹配,输出“不断”,输入变为“合作与交流”
  14. “合作与交流”,扫描词典,没有匹配,子串长度减1变为“作与交流”
  15. “作与交流”,扫描词典,没有匹配,子串长度减1变为“与交流”
  16. “与交流”,扫描词典,没有匹配,子串长度减1变为“交流”
  17. 交流”,扫描词典,有匹配,输出“交流”,输入变为“技术合作与”
  18. “技术合作与”,扫描词典,没有匹配,子串长度减1变为“术合作与”
  19. “术合作与”,扫描词典,没有匹配,子串长度减1变为“合作与”
  20. “合作与”,扫描词典,没有匹配,子串长度减1变为“作与”
  21. “作与”,扫描词典,没有匹配,子串长度减1变为“与”
  22. 与”,扫描词典,有匹配,输出“与”,输入变为“济技术合作”
  23. “济技术合作”,扫描词典,没有匹配,子串长度减1变为“技术合作”
  24. “技术合作”,扫描词典,没有匹配,子串长度减1变为“术合作”
  25. “术合作”,扫描词典,没有匹配,子串长度减1变为“合作”
  26. 合作”,扫描词典,有匹配,输出“合作”,输入变为“外经济技术”
  27. “外经济技术”,扫描词典,没有匹配,子串长度减1变为“经济技术”
  28. “经济技术”,扫描词典,没有匹配,子串长度减1变为“济技术”
  29. “济技术”,扫描词典,没有匹配,子串长度减1变为“技术”
  30. 技术”,扫描词典,有匹配,输出“技术”,输入变为“对外经济”
  31. “对外经济”,扫描词典,没有匹配,子串长度减1变为“外经济”
  32. “外经济”,扫描词典,没有匹配,子串长度减1变为“经济”
  33. 经济”,扫描词典,有匹配,输出“经济”,输入变为“对外”
  34. 对外”,扫描词典,有匹配,输出“对外”,输入变为“”,扫描终止

反向最大匹配法最终的切分结果为:“对外/经济/技术/合作/与/交流/不断/扩大/。”

四、软件演示

相关文章:

自然语言处理--双向匹配算法

自然语言处理作业1--双向匹配算法 一、概述 双向匹配算法是一种用于自然语言处理的算法,用于确定两个文本之间的相似度或匹配程度。该算法通常使用在文本对齐、翻译、语义匹配等任务中。 在双向匹配算法中,首先将两个文本分别进行处理,然后…...

IDEA 2023.3.2 安装教程

1.下载2023.3.2版本IDEA 链接:https://pan.baidu.com/s/1RkXBLz6qxsd8VxXuvXCEMA?pwd5im6 提取码:5im6 2.安装 3.解压文件,进入,选择方式3 4.将下面文件夹复制到任意位置(不要有中文路径) 5.进入下面文…...

C语言常见面试题:什么是宏,宏的作用是什么?

宏在计算机科学中是一种批量处理程序命令,它是一种抽象的规则或模式,用于说明某一特定输入(通常是字符串)如何根据预定义的规则转换成对应的输出(通常也是字符串)。在编译时,预处理器会对宏进行…...

【0248】Background Writing实现机制分析

文章目录 1. 前言2. 有了checkpoint,为何还需要background writing?2.1 checkpoint和background writing有何差异? 如何协同工作?2.2 background writing如何工作? 职责是什么?1. 前言 本文是Background Writing进程理论篇,源码剖析实战篇会在后面给出。本文的主要内容…...

基于springboot+vue的教师工作量管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目背景…...

4-新建子模块(尝鲜)

新建子模块 Maven多模块下新建子模块流程案例。 1、新建业务模块目录&#xff0c;例如&#xff1a;ruoyi-test。 2、在ruoyi-test业务模块下新建pom.xml文件以及src\main\java&#xff0c;src\main\resources目录。 <?xml version"1.0" encoding"UTF-8&…...

反序列化字符串逃逸(上篇)

首先&#xff0c;必须先明白&#xff0c;这个点并不难&#xff0c;我给大家梳理一遍就会明白。 反序列化字符串逃逸就是序列化过程中逃逸出来字符&#xff0c;是不是很简单&#xff0c;哈哈哈&#xff01; 好了&#xff0c;不闹了&#xff0c;其实&#xff1a; 这里你们只要懂…...

[C++]使用yolov5的onnx模型结合onnxruntime和bytetrack实现目标追踪

【官方框架地址】 yolov5框架&#xff1a;https://github.com/ultralytics/yolov5 bytetrack框架&#xff1a;https://github.com/ifzhang/ByteTrack 【算法介绍】 Yolov5与ByTetrack&#xff1a;目标追踪的强大组合 Yolov5和ByTetrack是两种在目标追踪领域具有显著影响力…...

i2c接口验证

用i2cdetect命令。 1&#xff0c;检测有几组i2c总线在系统上 i2cdetect -l 2&#xff0c;查询i2c总线上挂接的设备及设备的地址 i2cdetect -y <number> i2cdetect -y 0命令用于扫描I2C总线/dev/i2c-0&#xff0c;并列出所有在该总线上存在的有效I2C设备地址。...

1、Pandas 数据结构:从 Series 到 DataFrame

目录 Series 创建 Series Series 索引和选择 DataFrame 创建 DataFrame DataFrame 索引和选择 DataFrame 操作和转换 数据结构转换 Series Series 是 Pandas 中的一维数组形式的数据结构&#xff0c;它可以包含任何数据类型&#xff08;整数、字符串、浮点数、Python对象…...

MySQL函数—字符串函数

MySQL函数—字符串函数 函数功能CONCAT(s1,s2,...sn)字符串拼接&#xff0c;将s1,s2,...sn拼接成一个字符串LOWER(str)将字符串全部转为小写UPPER(str)将字符串全部转为大写LPAD(str,n,pad)左填充&#xff0c;用字符串pad对str左边进行填充&#xff0c;达到n个字符串长度RPAD(s…...

PLC从HTTP服务端获取JSON文件,解析数据到寄存器

智能网关IGT-DSER集成了多种PLC协议&#xff0c;方便实现各种PLC与HTTP服务端之间通讯。通过网关的参数配置软件绑定JSON文件的字段与PLC寄存器地址&#xff0c;配置URL&#xff0c;即可采用POST命令&#xff0c;将JSON文件提交给HTTP的服务端&#xff1b; 服务端有返回的JSON&…...

LeetCode 46. 全排列

46. 全排列 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2&#xff1a; 输入&#…...

NVMe TCG安全数据存储简介

NVMe&#xff08;非易失性内存主机控制器接口规范&#xff09;与TCG&#xff08;可信计算组&#xff09;的集成主要体现在数据安全、固件验证和硬件信任根等方面&#xff0c;以确保存储设备的数据保护能力和安全性。 TCG Opal定义了一套针对自加密硬盘&#xff08;SED, Self-En…...

Linux命令-ab命令(Apache服务器的性能测试工具 )

Apache服务器的性能测试工具 ab命令 是一个测试你 Apache http 服务器的工具&#xff0c;你可以通过这个工具&#xff0c;指定一个单位时间内向 apache 发出的请求数量来看看你的 Apache 和机器配合的性能如何。 语法 []内容为ab命令后跟的语法&#xff0c;eg&#xff1a;ab …...

蓝桥杯java基础

数组的倒序与隔位输出 时间限制&#xff1a;1.000S 空间限制&#xff1a;128MB 题目描述 给定一个整数数组&#xff0c;编写一个程序实现以下功能&#xff1a; 1. 将输入的整数数组倒序输出&#xff0c;每个数之间用空格分隔。 2. 从正序数组中&#xff0c;每隔一个单位&a…...

Unity3d引擎中使用AIGC生成的360全景图(天空盒)

前言 在这里与Skybox AI一起&#xff0c;一键打造体验无限的360世界&#xff0c;这是这个AIGC一键生成全景图的网站欢迎语。 刚使用它是23年中旬&#xff0c;在没有空去给客户实地拍摄全景图时&#xff0c;可以快速用它生成一些相关的全景图&#xff0c;用作前期沟通的VR de…...

React Router v6 改变页面Title

先说正事再闲聊 1、在路由表加个title字段 2、在index包裹路由 3、在App设置title 闲聊&#xff1a; 看到小黄波浪线了没 就是说默认不支持title字段了 出来的提示&#xff0c; 所以我本来是像下面这样搞的&#xff0c;就是感觉有点难维护&#xff0c;就还是用上面的方法了 …...

postman测试导入文件

01 上传文件参数 1.选择请求方式 选择post请求方式&#xff0c;输入请求地址 2.填写Headers Key&#xff1a;Content-Type &#xff1b; Value&#xff1a;multipart/form-data 如下图 3.填写body 选择form-data&#xff0c;key选择file类型后value会出现按钮&#xff0…...

ZigBee学习(一)

文章目录 一、ZigBee介绍二、IEEE 802.15.42.1 物理层2.2 MAC层2.3 如何实现网络和设备寻址2.4 能量管理 三、ZigBee网络拓扑结构四、ZigBee配置参数 一、ZigBee介绍 ZigBee是一种基于IEEE 802.15.4标准的高级通信协议&#xff0c;它被设计用于低速率、低功耗和短距离无线通信&…...

不止VSIN!Cadence PSpice仿真库SOURCE.OLB里还有哪些宝藏信号源?实战对比与选型指南

不止VSIN&#xff01;Cadence PSpice仿真库SOURCE.OLB里还有哪些宝藏信号源&#xff1f;实战对比与选型指南 在电路仿真设计中&#xff0c;信号源的选择往往决定了仿真结果的准确性与实用性。许多工程师对PSpice中的VSIN元件较为熟悉&#xff0c;却忽略了SOURCE.OLB库中其他丰富…...

苹果砂不锈钢蜂窝板做出来真的和苹果店一样吗?来自广东优之彩!

当“苹果店质感”成为高级商业空间的隐形标尺&#xff0c;无数人追问&#xff1a;我们能用苹果砂不锈钢蜂窝板&#xff0c;复刻那种极致、均匀、充满科技感的哑光金属美学吗&#xff1f;答案是&#xff1a;可以。但前提是&#xff0c;你选择的不仅是材料&#xff0c;更是一套完…...

ncmdump终极NCM解密转换完全指南

ncmdump终极NCM解密转换完全指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾遇到过这样的困扰&#xff1f;从网易云音乐下载的歌曲只能在特定播放器中播放&#xff0c;想要在其他设备上欣赏却束手无策。这种被格式限制的…...

QMCDecode:轻松解锁QQ音乐加密音频的Mac专属神器

QMCDecode&#xff1a;轻松解锁QQ音乐加密音频的Mac专属神器 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac&#xff0c;qmc0,qmc3转mp3, mflac,mflac0等转flac)&#xff0c;仅支持macOS&#xff0c;可自动识别到QQ音乐下载目录&#xff0c;默认转换结…...

学Simulink——电池储能系统(BESS)双向DC-AC逆变器的恒压恒频(V/f)控制

目录 手把手教你学Simulink——电池储能系统(BESS)双向DC-AC逆变器的恒压恒频(V/f)控制 一、背景与挑战 1.1 什么是 V/f 控制?为什么 BESS 需要它? 1.2 核心痛点与设计目标 二、系统架构与核心控制推导 2.1 整体架构:电压源特性的“自主构建” 2.2 核心数学推导:…...

从数据驱动到物理约束:盘点神经网络求解偏微分方程的三大范式与核心进展

1. 神经网络求解偏微分方程的技术背景 偏微分方程&#xff08;PDE&#xff09;是描述自然界各种现象的核心数学工具&#xff0c;从流体力学中的纳维-斯托克斯方程到量子力学中的薛定谔方程&#xff0c;再到金融工程中的布莱克-斯科尔斯方程&#xff0c;PDE的身影无处不在。但传…...

5分钟打造专业级抽奖系统:Magpie-LuckyDraw全平台使用终极指南

5分钟打造专业级抽奖系统&#xff1a;Magpie-LuckyDraw全平台使用终极指南 【免费下载链接】Magpie-LuckyDraw &#x1f3c5;A fancy lucky-draw tool supporting multiple platforms&#x1f4bb;(Mac/Linux/Windows/Web/Docker) 项目地址: https://gitcode.com/gh_mirrors/…...

超越基础扫描:实战解析Tessent ATPG中的Clock PO与RAM Sequential Patterns如何提升故障覆盖率

超越基础扫描&#xff1a;实战解析Tessent ATPG中的Clock PO与RAM Sequential Patterns如何提升故障覆盖率 在数字电路测试领域&#xff0c;达到95%以上的故障覆盖率曾是许多DFT工程师的终极目标&#xff0c;直到他们遇到了时钟驱动输出和嵌入式RAM模块。这些特殊结构如同电路…...

TypeScript + Next.js + Tailwind CSS 现代Web开发最佳实践模板解析

1. 项目概述&#xff1a;一个现代Web开发的“瑞士军刀”如果你最近在考虑启动一个Next.js项目&#xff0c;并且希望它从一开始就具备现代化的技术栈、清晰的代码结构和高效的开发体验&#xff0c;那么你很可能已经听说过或者正在寻找一个合适的“启动器”。theodorusclarence/t…...

终极指南:如何使用AppleRa1n工具安全绕过iOS 15-16激活锁

终极指南&#xff1a;如何使用AppleRa1n工具安全绕过iOS 15-16激活锁 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n iOS激活锁绕过是许多iPhone用户在设备所有权验证遇到困难时的迫切需求。AppleRa1n…...