当前位置: 首页 > news >正文

NLP:文本相似度计算

前面我们已经实现了把长段的句子,利用HanLP拆分成足够精炼的分词,后面我们要实现“联想”功能,我这里初步只能想到通过文本相似度计算来实现。下面介绍一下文本相似度计算

(当然HanLP也有文本相似度计算的方法,这里我应该上一节也说过,但是使用之后效果并不理想,因此,我们要换其他的方法)

这里我们采取的是text2vec,事实上网上通用的是word2vec,但是他要求自己训练模型,而且github上的流程我没看得懂,所以我就在github上找了别人现成的模型来使用

  • 下载
pip install torch # conda install pytorch
pip install -U text2vec

这里下载第二个的时候建议用上镜像,并且请在网络较好的地方下载

  • 测试
import syssys.path.append('..')
from text2vec import Similarity# Two lists of sentences
sentences1 = ['c++开发十年经验','善于沟通,领导他人','全栈开发','你好']sentences2 = ['擅长编程','体贴','web 开发','有领导能力']sim_model = Similarity()
for i in range(len(sentences1)):for j in range(len(sentences2)):score = sim_model.get_score(sentences1[i], sentences2[j])print("{} \t\t {} \t\t Score: {:.4f}".format(sentences1[i], sentences2[j], score))

放上运行结果

可以发现,联想的效果还是有的,至少在我当前的需求下,它是完全够用的。

  •  We couldn't connect to 'https://huggingface.co'

 这是一个很关键的报错,具体可以参考这位老哥的博客:解决办法

 (不过确实,因为围墙的存在,在一定程度上是阻碍了国内科研和学习的发展)

亲测可行的方法则是在代码前面补充上下面两行代码(即利用镜像)

import os
os.environ['HF_ENDPOINT']='https://hf-mirror.com'

之后如果有闲工夫的话,我还是想利用word2vec来训练一个自己的模型,毕竟数据摆在这里,不用而去调别人现成的模型,多少是不会满足特定场景的需求。

参考文献:

python实现文本相似度的计算

python利用word2vec计算文本相似度

 wiki. model下载

相关文章:

NLP:文本相似度计算

前面我们已经实现了把长段的句子,利用HanLP拆分成足够精炼的分词,后面我们要实现“联想”功能,我这里初步只能想到通过文本相似度计算来实现。下面介绍一下文本相似度计算 (当然HanLP也有文本相似度计算的方法,这里我…...

复合查询【MySQL】

文章目录 复合查询测试表 单表查询多表查询子查询单行子查询多行子查询IN 关键字ALL 关键字ANY 关键字 多列子查询 合并查询 复合查询 测试表 雇员信息表中包含三张表,分别是员工表(emp)、部门表(dept)和工资等级表&…...

【Pytorch】进阶学习:深入解析 sklearn.metrics 中的 classification_report 函数---分类性能评估的利器

【Pytorch】进阶学习:深入解析 sklearn.metrics 中的 classification_report 函数—分类性能评估的利器 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合…...

探索云原生数据库技术:构建高效可靠的云原生应用

数据库是应用开发中非常重要的组成部分,可以进行数据的存储和管理。随着企业业务向数字化、在线化和智能化的演进过程中,面对指数级递增的海量存储需求和挑战以及业务带来的更多的热点事件、突发流量的挑战,传统的数据库已经很难满足和响应快…...

Jmeter+Ant+Git/SVN+Jenkins实现持续集成接口测试,一文精通(一)

前言 Jmeter,Postman一些基本大家相比都懂。那么真实在项目中去使用,又是如何使用的呢?本文将一文详解jmeter接口测试 一、接口测试分类 二、目前接口架构设计 三、市面上的接口测试工具 四、Jmeter简介,安装,环境…...

CSAPP Malloc lab

CSAPP Malloc Lab 目标 实现一个简单的动态存储分配器。 评分标准 空间利用率应当减少internal 和 external fragmentation. memory utilization memory utilization payload / heap size fragmentation internal fragmentation external fragmentation throughput T 越接…...

(黑马出品_06)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

(黑马出品_06)SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术ES搜索和数据分析 今日目标1. 查询文档1.1.DSL查询分类1.2.全文检索查询1.2.1.使用场景1.2.2.基本语法1.2.3.示例 1.3.精准查询1.3.1.term查询1.3.2.ran…...

算法学习之动态规划DP——背包问题

一、01背包问题 (一)题目 有 N 件物品和一个容量是 V的背包。每件物品只能使用一次。 第i件物品的体积是 vi,价值是 wi。 求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大。 输出最大价值…...

LeetCode刷题日志-17.电话号码的字母组合

纯暴力解法&#xff0c;digits有多长&#xff0c;就循环多少次进行字母组合 class Solution {public List<String> letterCombinations(String digits) {List<String> reslut new ArrayList<>();if(digits.equals(""))return reslut;Map<Inte…...

选修-单片机作业第1/2次

第一次作业 第二次作业 1、51 系列单片机片内由哪几个部分组成&#xff1f;各个部件的最主要功能是什么&#xff1f; 51系列单片机的内部主要由以下几个部分组成&#xff0c;每个部件的主要功能如下&#xff1a; 1. **中央处理器&#xff08;CPU&#xff09;**&#xff1a;这是…...

微信小程序开发系列(十七)·事件传参·mark-自定义数据

目录 步骤一&#xff1a;按钮的创建 步骤二&#xff1a;按钮属性配置 步骤三&#xff1a;添加点击事件 步骤四&#xff1a;参数传递 步骤五&#xff1a;打印数据 步骤六&#xff1a;获取数据 步骤七&#xff1a;父进程验证 总结&#xff1a;data-*自定义数据和mark-自定…...

企业战略管理 找准定位 方向 使命 边界 要干什么事 要做多大的生意 资源配置投入

AI突破千行百业&#xff0c;也难打破护城河 作为每个企业或个人的立命生存之本&#xff0c;有的企业在某个领域长期努力筑起了高高的护城河。 战略是什么&#xff1f;用处&#xff0c;具体内容 企业战略是指企业为了实现长期目标&#xff0c;制定的总体规划和长远发展方向。…...

记录西门子:IO隔离SCL编程

在PLC变量中创建IO输入输出 在PLC类型中创建输入和输出&#xff0c;并将PLC变量的输入输出名称复制过来 创建一个FC块或者FB块 创建一个DB块 MAIN主程序中&#xff1a;...

微信小程序如何实现下拉刷新

1.首先在你需要实现下拉刷新页面的json文件中写入"enablePullDownRefresh": true。 2.在js文件的onPullDownRefresh() 事件中实现下拉刷新。 实现代码 onPullDownRefresh() {console.log(开始下拉刷新)wx.showNavigationBarLoading()//在标题栏中显示加载图标this.d…...

React-useEffect

1.概念 说明&#xff1a;用于在React组件中创建不是由事件引起而是由渲染本身引起的操作&#xff0c;比如发送 A列AX请求&#xff0c;更改DOM等。 2.案例 // useEffect用于组件不是由事件引起的而是由渲染本身引起的操作&#xff0c;如ajax,更改Dom等。 import { useEffect,…...

web蓝桥杯真题:展开你的扇子

代码&#xff1a; /*TODO&#xff1a;请补充 CSS 代码*/#box:hover #item7 {transform: rotate(10deg); } #box:hover #item6 {transform: rotate(-10deg); } #box:hover #item8 {transform: rotate(20deg); } #box:hover #item5 {transform: rotate(-20deg); } #box:hover #i…...

阿里P9大佬分享:如何让代码更加灵活

面试官: 你好&#xff0c;今天我们要讨论的是命令模式。首先&#xff0c;你能解释一下什么是命令模式吗&#xff1f; 求职者: 当然可以。命令模式是一种行为设计模式&#xff0c;它将一个请求封装成一个对象&#xff0c;从而让你使用不同的请求、队列或者日志请求来参数化其他…...

SpringBoot中加载配置文件的优先级

在Spring Boot中&#xff0c;加载配置文件的优先级按照以下顺序进行&#xff0c;后续的配置会覆盖之前的配置&#xff1a; 默认属性&#xff1a;这些属性在Spring Boot本身中定义&#xff0c;并且通常是不可变的。它们作为后备值。 应用程序属性&#xff1a;这些属性在应用程序…...

Mysql命令行客户端

命令行客户端 操作数据库操作数据表 操作数据库 mysql> create database mike charsetutf8; Query OK, 1 row affected (0.01 sec) mysql> show databases; -------------------- | Database | -------------------- | information_schema | | mike …...

开源的python 游戏开发库介绍

本文将为您详细讲解开源的 Python 游戏开发库&#xff0c;以及它们的特点、区别和应用场景。Python 社区提供了多种游戏开发库&#xff0c;这些库可以帮助您在 Python 应用程序中实现游戏逻辑、图形渲染、声音处理等功能。 1. Pygame 特点 - 基于 Python 的游戏开发库。…...

从半桥到全桥:无刷直流电机驱动电路的设计演进与选型指南

1. 无刷直流电机驱动电路的基础认知 第一次接触无刷直流电机驱动设计时&#xff0c;我被各种拓扑结构绕得头晕。直到亲手烧毁几个MOS管后&#xff0c;才真正理解半桥和全桥的本质区别。简单来说&#xff0c;驱动电路就像交通指挥系统&#xff0c;决定电流如何流经电机绕组。半桥…...

用 MurmurHash + Base62 生成短链接

短链接&#xff1f; 你有没有遇到过这种情况&#xff1f; 想在朋友圈分享一个链接&#xff0c;结果一粘贴——好家伙&#xff0c;一长串参数&#xff0c;占了半屏&#xff0c;还带一堆 ?utm_sourcexxx&refyyy…… 别人一看就烦&#xff0c;自己都懒得点。更别说在短信、海…...

SpringCloud微服务进阶-Nacos更加全能的注册中心劫

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能&#xff0c;现在被拆分成独立的插件。 每个插件都是一个独立的 Composer 包&#xff0c;包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

开源大模型部署指南:像素剧本圣殿镜像免配置快速上手(Dual-GPU优化)

开源大模型部署指南&#xff1a;像素剧本圣殿镜像免配置快速上手&#xff08;Dual-GPU优化&#xff09; 1. 项目概述 像素剧本圣殿&#xff08;Pixel Script Temple&#xff09;是一款基于Qwen2.5-14B-Instruct大模型深度微调的专业剧本创作工具。这款工具将强大的AI推理能力…...

AudioSeal保姆级教程:从ffmpeg预处理到CUDA加速检测完整步骤

AudioSeal保姆级教程&#xff1a;从ffmpeg预处理到CUDA加速检测完整步骤 1. 项目概述 AudioSeal是Meta公司开源的一款专业级音频水印系统&#xff0c;专门用于AI生成音频的检测和溯源。这个工具就像给音频文件装上了一个"数字身份证"&#xff0c;无论音频被如何编辑…...

5个核心功能解析:netDxf如何简化你的DXF文件处理工作流

5个核心功能解析&#xff1a;netDxf如何简化你的DXF文件处理工作流 【免费下载链接】netDxf .net dxf Reader-Writer 项目地址: https://gitcode.com/gh_mirrors/ne/netDxf 在CAD数据处理领域&#xff0c;DXF文件处理一直是开发者和工程师面临的技术挑战。AutoCAD的DXF格…...

Vue3后台管理系统开发革命:如何用vue-admin-box实现零门槛企业级应用

Vue3后台管理系统开发革命&#xff1a;如何用vue-admin-box实现零门槛企业级应用 【免费下载链接】vue-admin-box vue3,vite,element-plus中后台管理系统&#xff0c;集成四套基础模板&#xff0c;大量可利用组件&#xff0c;模板页面 项目地址: https://gitcode.com/gh_mirr…...

Windows系统字体自定义神器:No!! MeiryoUI 5分钟上手指南

Windows系统字体自定义神器&#xff1a;No!! MeiryoUI 5分钟上手指南 【免费下载链接】noMeiryoUI No!! MeiryoUI is Windows system font setting tool on Windows 8.1/10/11. 项目地址: https://gitcode.com/gh_mirrors/no/noMeiryoUI 还在为Windows 8.1/10/11单调的系…...

3分钟解锁网易云音乐NCM文件:ncmdumpGUI完整使用指南

3分钟解锁网易云音乐NCM文件&#xff1a;ncmdumpGUI完整使用指南 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换&#xff0c;Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 对于网易云音乐用户来说&#xff0c;NCM格式文…...

终极Garry‘s Mod工坊发布工具:gmpublisher完整使用指南与效能提升秘笈

终极Garrys Mod工坊发布工具&#xff1a;gmpublisher完整使用指南与效能提升秘笈 【免费下载链接】gmpublisher ⚙️ Workshop Publishing Utility for Garrys Mod, written in Rust & Svelte and powered by Tauri 项目地址: https://gitcode.com/gh_mirrors/gm/gmpubli…...