当前位置：首页 > news >正文

NLP 文本匹配任务核心梳理

news 2025/7/15 11:32:50

定义

本质上是做了意图的识别
判断两个内容的含义（包括相似、矛盾、支持度等）
侠义
- 给定一组文本，判断语义是否相似
- Yi 分值形式给出相似度
广义
- 给定一组文本，计算某种自定义的关联度
- Text Entailment
  判断文本是否能支持或反驳这个假设
- 主题判断

神经网络方法

表示型文本匹配
- 特点
  - 只需要对用户新输入的问题送入模型，运行一次
    实际查找中，对输入文本做一次向量化
  - 运行结果与知识库中的标准问向量分别计算 loss
  - 最后排序，找到最 match 的结果
  - 更适用智能问答
  - 用于需要分别看到两句话的场景
    计算两句话相似性
  - 类似于二分类任务
- 方式
  - 共享encoder 参数
    - 即孪生网络
    - encoder 层
      两句话分别输入encoder（LSTM、CNN+pool、bert）得到句向量
    - matching layer 层
      - 对两个句向量进行预期分值计算
        相同文本用相同参数，余弦值夹角为0，值为1，欧式距离为0
      - 可以完全没有可训练参数
        在评估阶段进行 cosine loss 或欧式距离等向量分值计算
  - triplet loss
    - 目标
      - 使具有相同标签的样本在 embedding 空间尽量接近
      - 使具有不同标签的样本在 embedding 空间尽量远离
    - 方式
      三元组<a, p, n>
      - a 原点
      - p 与a 同一类别的样本
      - n 与a 不同类别的样本
    - 在cv也用于人脸识别模型训练
交互型文本匹配
- 特点
  - 用户输入新问题，与知识库中的n 个标准问分别拼接送入模型，计算 n 次
    对比把握句子重点
  - 更适合问题与答案的匹配场景
    因为答案长度与问题长度差异，答案与问题是两个概念的东西，共用 encoder 参数就不合适，可能需要补太多 padding
  - 用于需要同时看到两句话的场景
    用于计算两句话相关性
- 方式
  - 每次计算需要两个输入
  - 将两个句子拼接成长文本
    在模型中判断两句话关联性，输出关联性得分

非神经网络算法

Jaccard 相似度
核心逻辑：文本中元素的交集/文本中元素的并集
word2vec
核心逻辑：从词向量相似度得到句子相似度，将文本中所有的词的词向量相加取平均
- 获取句子向量之间余弦值
- 两个句子的相似度，等同于两个向量的余弦距离
BM25算法
对 TF-IDF 的改进
编辑距离
动态规划算法

def edit_distance(s1, s2):m, n = len(s1), len(s2)dp = [[0] * (n + 1) for _ in range(m + 1)]for i in range(m + 1):dp[i][0] = ifor j in range(n + 1):dp[0][j] = jfor i in range(1, m + 1):for j in range(1, n + 1):if s1[i - 1] == s2[j - 1]:dp[i][j] = dp[i - 1][j - 1]else:dp[i][j] = min(dp[i - 1][j - 1], dp[i - 1][j], dp[i][j - 1]) + 1return dp[m][n]

优点
- 可解释性强
- 跨语种
- 不需要训练模型
缺点
- 字符之间没有语义相似度
- 受无关词、停用词影响大
- 受语义影响大
- 文本长度对速度影响很搭
由一个字符串转成量一个所需的最少编辑操作次数
核心是比较两个序列相似性

应用

应用方向
- 短文本 vs 短文本
  - 知识库问答
    - 不使用文本分类的原因
      - 拓展性不强
        新增问题时需要重新训模型
      - 相同问题的有效性
        会出现无法命中相同问题的情况
    - 可以使用GPT模型
      RAG 思路：检索增强
  - 聊天机器人
- 短文本 vs 长文本
  - 文章检索
  - 广告推荐
- 长文本 vs 长文本
  新闻、文章的关联推荐
实际应用
- 信息检索
  搜索引擎
- nlp 最成熟的落地任务：智能问答
  - 落地形式
    - 人机对话
    - 智能客服
    - 智能音箱
    - 聊天机器人
    - 车载导航
    - 手机助手
  - 基础资源
    - faq 库
      - 多个问答对组成的集合
        一个标准问对应一个标准审核好的标准答案
      - 运行逻辑
        用户提问
        提问内容预处理
        根据算法决定处理方式
        找到最相似的问题
        输出答案
      - 核心
        进行语义相似度计算
        即文本匹配
    - 书籍文档
    - 网页
    - 知识图谱
    - 表格
    - 特定领域知识
    - 人工规则
  - 答案产出方式
    - 检索式
    - 生成式
    - 检索+生成
  - 相关技术划分
    - 单轮问答
    - 多轮问答
    - 多语种问答
    - 事实性问答
    - 开方性问答
    - 多模态问答
      问题是文字答案是语音或视频
    - 选择性问答
    - 抽取式问答
    - 生成式问答
      …
落地应用
- 信息检索
- 知识库问答
  Faq 知识库

NLP 文本匹配任务核心梳理

定义本质上是做了意图的识别判断两个内容的含义（包括相似、矛盾、支持度等）侠义给定一组文本，判断语义是否相似Yi 分值形式给出相似度广义给定一组文本，计算某种自定义的关联度Text Entailment 判断文本是否能支持或反驳这个…...

编程日记 2024/9/22 17:15:04

FastAPI 的隐藏宝石：自动生成 TypeScript 客户端

在现代 Web 开发中，前后端分离已成为标准做法。这种架构允许前端和后端独立开发和扩展，但同时也带来了如何高效交互的问题。FastAPI，作为一个新兴的 Python Web 框架，提供了一个优雅的解决方案：自动生成客户端代码。本…...

编程日记 2024/9/22 17:14:03

了解云容器实例云容器实例（Cloud Container Instance）

1.什么是云容器实例？ 云容器实例（Cloud Container Instance， CCI）服务提供 Serverless Container（无服务器容器）引擎，让您无需创建和管理服务器集群即可直接运行容器。 Serverless是一种架构理念…...

编程日记 2024/9/22 17:12:01

OpenStack Yoga版安装笔记（十三）neutron安装

1、官方文档 OpenStack Installation Guidehttps://docs.openstack.org/install-guide/ 本次安装是在Ubuntu 22.04上进行，基本按照OpenStack Installation Guide顺序执行，主要内容包括： 环境安装 （已完成）OpenStack…...

编程日记 2024/9/22 17:11:00

[系列]参数估计与贝叶斯推断

系列点估计极大似然估计贝叶斯估计（统计学）——最小均方估计和最大后验概率估计贝叶斯估计（模式识别）线性最小均方估计最小二乘估计极大似然估计&贝叶斯估计极大似然估计&最大后验概率估计线性最小均方估计&最小二乘…...

编程日记 2024/9/22 17:08:57

【Pyside】pycharm2024配置conda虚拟环境

知识拓展 Pycharm 是一个由 JetBrains 开发的集成开发环境（IDE），它主要用于 Python 编程语言的开发。Pycharm 提供了代码编辑、调试、版本控制、测试等多种功能，以提高 Python 开发者的效率。 Pycharm 与 Python 的关系 Pycharm 是…...

编程日记 2024/9/22 17:07:56

【RabbitMQ 项目】服务端：数据管理模块之消息队列管理

文章目录一.编写思路二.代码实践一.编写思路定义消息队列名字是否持久化定义队列持久化类(持久化到 sqlite3) 构造函数(只能成功，不能失败) 如果数据库(文件)不存在则创建打开数据库打开 msg_queue_table 数据库表插入队列移除队列将数据库中的队列恢复到内存…...

编程日记 2024/9/22 17:03:51

SDKMAN!软件开发工具包管理器

认识一下SDKMAN!(The Software Development Kit Manager)是您在Unix系统上轻松管理多个软件开发工具包的可靠伴侣。想象一下，有不同版本的SDK，需要一种无感知的方式在它们之间切换。SDKMAN拥有易于使用的命令行界面（CLI）和API。其…...

编程日记 2024/9/22 17:02:50

《使用 LangChain 进行大模型应用开发》学习笔记（四）

前言本文是 Harrison Chase （LangChain 创建者）和吴恩达（Andrew Ng）的视频课程《LangChain for LLM Application Development》（使用 LangChain 进行大模型应用开发）的学习笔记。由于原课程为全英文视频课…...

编程日记 2024/9/22 17:01:50

gbase8s数据库常见的索引扫描方式

1 顺序扫描（Sequential scan）：数据库服务器按照物理顺序读取表中的所有记录。常发生在表上无索引或者数据量很少或者一些无法使用索引的sql语句中 2 索引扫描（Index scan）：数据库服务器读取索引页&#…...

编程日记 2024/9/22 17:00:49

边缘智能-大模型架构初探

R2Cloud接口机器人注册请求和应答注册是一个简单的 HTTP 接口，根据机器人/用户信息注册，创建一个新机器人。请求 URL URLhttp://ip/robot/regTypePOSTHTTP Version1.1Content-Typeapplication/json 请求参数 Param含义Rule是否必须缺省roboti…...

编程日记 2024/9/22 16:59:48

《python语言程序设计》2018版第8章18题几何circle2D类（上部）

一、利用第7章的内容来做前5个点第一章之1--从各种角度来测量第一章之2--各种结果第二章之1--建立了针对比对点在圆内的几段第二章之2--利用建立的对比代码，得出的第2点位置第一章之1–从各种角度来测量 class Circle2D:def __init__(self, x, y, radius):self._…...

编程日记 2024/9/22 16:58:47

nginx upstream转发连接错误情况研究

本次测试用到3台服务器： 192.168.10.115：转发服务器A 192.168.10.209：upstream下服务器1 192.168.10.210：upstream下服务器2 1台客户端：192.168.10.112 服务器A中nginx主要配置如下： log_format main…...

编程日记 2024/9/22 16:55:44

alias 后门从入门到应急响应

目录 1. alias 后门介绍 2. alias 后门注入方式 2.1 方式一(以函数的方式执行) 2.2 方式二(执行python脚本) 3.应急响应 3.1 查看所有连接 3.2 通过PID查看异常连接的进程，以及该进程正在执行的命令行命令 3.3 查看别名 3.4 其他情况 3.5 那么检查这些…...

编程日记 2024/9/22 16:54:43

【远程调用PythonAPI-flask】

文章目录前言一、Pycharm创建flask项目1.创建虚拟环境2.创建flask项目二、远程调用PythonAPI——SpringBoot项目集成1.修改PyCharm的host配置2.防火墙设置3.SpringBoot远程调用PythonAPI 前言解决Pycharm运行Flask指定ip、端口更改无效的问题首先先创建一个新的flask项目&…...

编程日记 2024/9/22 16:52:41

[今日Arxiv] 思维迭代：利用内心对话进行自主大型语言模型推理

思维迭代：利用内心对话进行自主大型语言模型推理 Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning URL：https://arxiv.org/abs/2409.12618 注：翻译可能存在误差，详细内容建议…...

编程日记 2024/9/22 16:49:39

glTF格式：WebGL应用的3D资产优化解决方案

摘要 glTF作为一种高效的3D资产格式，为WebGL、OpenGL ES和OpenGL运行时的应用提供了强有力的支持。它不仅简化了3D模型的传输与加载流程，还通过优化资产大小，使得打包、解包更加便捷。本文将深入探讨glTF格式的优势，并提供实用的代…...

编程日记 2024/9/22 16:48:37

Unity3D入门(一) : 第一个Unity3D项目，实现矩形自动旋转，并导出到Android运行

1. Unity3D介绍 Unity3D是虚拟现实行业中，使用率较高的一款软件。它有着强大的功能，是让玩家轻松创建三维视频游戏、建筑可视化、实时三维动画等互动内容的多平台、综合型虚拟现实开发工具。是一个全面整合的专业引擎。 2. Unity安装官网 : Unity…...

编程日记 2024/9/22 16:47:36

数据结构与算法——Java实现 8.习题——移除链表元素（值）

祝福你有前路坦途的好运，更祝愿你能保持内心光亮纵有风雨，依然选择勇敢前行 —— 24.9.22 203. 移除链表元素给你一个链表的头节点 head 和一个整数 val ，请你删除链表中所有满足 Node.val val 的节点，并返回新的头节点。示…...

编程日记 2024/9/22 16:46:35

如何理解MVCC

MVCC是什么？ MVCC，是MultiVersion Concurrency Control的缩写，翻译成中文就是多版本并发控制，多个事务同时访问同一数据时，调控每一个事务获取到数据的具体版本。和数据库锁一样，它也是一种并发控制的解决…...

编程日记 2024/9/22 16:45:34

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/7/6 21:38:30

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2025/6/17 5:29:50

云计算——弹性云计算器（ECS）

弹性云服务器：ECS 概述云计算重构了ICT系统，云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台，包含如下主要概念。 ECS（Elastic Cloud Server）：即弹性云服务器，是云计算…...

编程新知 2025/6/20 17:50:34

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件，常用于在两个集合之间进行数据转移，如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。核心特性与用法基本属性 v-model：绑定右侧列表的值&…...

编程新知 2025/7/9 22:46:31

1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template>  </template>…...

编程新知 2025/7/14 8:19:18

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日，国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。据「TMT星球」了解，“超级…...

编程新知 2025/7/13 11:50:34

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客设置模块都是做好的，比GNOME简单得多！ 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

编程新知 2025/7/14 14:10:10

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法（ISWC2024）

笔记整理：刘治强，浙江大学硕士生，研究方向为知识图谱表示学习，大语言模型论文链接：http://arxiv.org/abs/2407.16127 发表会议：ISWC 2024 1. 动机传统的知识图谱补全（KGC）模型通过…...

编程新知 2025/7/15 7:40:29

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/7/14 1:00:07

uniapp中使用aixos 报错

问题： 在uniapp中使用aixos，运行后报如下错误： AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

编程新知 2025/7/6 16:08:12

NLP 文本匹配任务核心梳理

定义

神经网络方法

非神经网络算法

应用

相关文章：

NLP 文本匹配任务核心梳理

FastAPI 的隐藏宝石：自动生成 TypeScript 客户端

了解云容器实例云容器实例（Cloud Container Instance）

OpenStack Yoga版安装笔记（十三）neutron安装

[系列]参数估计与贝叶斯推断

【Pyside】pycharm2024配置conda虚拟环境

【RabbitMQ 项目】服务端：数据管理模块之消息队列管理

SDKMAN!软件开发工具包管理器

《使用 LangChain 进行大模型应用开发》学习笔记（四）

gbase8s数据库常见的索引扫描方式

边缘智能-大模型架构初探

《python语言程序设计》2018版第8章18题几何circle2D类（上部）

nginx upstream转发连接错误情况研究

alias 后门从入门到应急响应

【远程调用PythonAPI-flask】

[今日Arxiv] 思维迭代：利用内心对话进行自主大型语言模型推理

glTF格式：WebGL应用的3D资产优化解决方案

Unity3D入门(一) : 第一个Unity3D项目，实现矩形自动旋转，并导出到Android运行

数据结构与算法——Java实现 8.习题——移除链表元素（值）

如何理解MVCC

OpenLayers 可视化之热力图

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

云计算——弹性云计算器（ECS）

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

2.Vue编写一个app

转转集团旗下首家二手多品类循环仓店“超级转转”开业

Cinnamon修改面板小工具图标

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法（ISWC2024）

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

uniapp中使用aixos 报错