当前位置: 首页 > news >正文

自然语言处理实战项目2-文本关键词抽取和关键词分值评估

大家好,我是微学AI,今天给大家带来自然语言处理实战项目2-文本关键词抽取和关键词分值评估。关键词抽取是自然语言处理中的重要任务,也是基础任务。

一、关键词抽取传统方法

1.基于统计的方法:

基于统计的方法是通过对一组文本进行分析,计算出每个词在文本中出现的频率和权重,然后根据一定的算法计算词语的重要性,从而抽取出关键词。常用的算法有TF-IDF(词频-逆文档频率)算法等。TF-IDF算法是通过计算一个词在文本中的词频和出现文档的逆文档频率来计算一个词的重要性。出现文档的逆文档频率越低,则该词的权重越高,即该词在文本中越关键。

2.基于规则的方法:

基于规则的方法是根据一定的规范和语言学规则,对文本进行词性标注和语法分析,然后从中提取出关键词。通常情况下,利用句子的语法结构,如主语、谓语、定语、状语等,来判断一个词的重要性,并将其作为关键词。此外,还可以结合自定义规则、英文分词等方式进行关键词提取。

3.基于语义的方法:

通过利用自然语言处理和信息检索技术,对文本进行分析,了解文本所表达的含义,从而抽取出关键词。基于语义的方法能够更准确地挖掘文本中的重要信息和隐含含义。例如,可以使用词向量模型(如Word2Vec),通过计算文本中各个词之间的相似度来判断一个词的重要性,并将其作为关键词。还可以使用LDA等主题模型,将文本抽象成一些主题,从而提取关键词。

本项目将要采用KeyBERT模型来实现关键词的抽取。

二、KeyBERT模型介绍

KeyBERT是一个用于关键词抽取和关键短语生成的Python第三方库。它是基于BERT预训练模型和TextRank算法的混合方法,同时结合了分句、词性筛选、主题建模等技术,以提高关键词和短语生成的准确性和有意义性。

KeyBERT的主要特点:

(1)基于BERT:KeyBERT使用预训练的BERT模型来编码和理解文本,从而提高关键词和短语的质量和准确性。

(2)灵活性:KeyBERT支持不同的预训练BERT模型,用户可以根据需求自由选择所需的模型。

(3)多语言支持:KeyBERT支持多种语言的处理,包括英语、汉语、阿拉伯语等,方便用户进行跨语言的应用。

(4)高效性:KeyBERT基于BERT预训练模型,运算效率高,尤其在长文本上处理效率更高。

(5)易用性:KeyBERT使用简单,只需一行代码即可实现文本关键词提取和关键短语生成。

 三、KeyBERT模型的训练

KeyBERT是一个基于BERT模型进行关键词提取的工具,其训练步骤主要是:

1.预处理:对文本进行预处理,包括数据清洗、分词、停用词过滤、词干化等处理。

2.BERT编码:使用预训练的BERT模型对文本进行编码,得到文本的向量表示。

3.句向量构建:将文本中的多个句子的向量进行加权平均或使用类似Pooling的操作,得到文本的处理后的一个向量表示,这个向量称为句向量。

4.基于余弦相似度的关键词提取算法: KeyBERT通过计算文本embedding矩阵中每个句子embedding向量和整个文本embedding向量的相似度,给每个句子打上相应的权重,然后从每个句子中抽取得分最高的几个词作为关键词,计算方式就是用每个词的embedding向量和得分最高的K个句子embedding向量计算余弦相似度,然后加和作为关键词权重得分,最后按照得分排序输出结果。

5.超参数调整:使用验证集对模型进行超参数调整,如句子数量、关键词数量等。

6.模型评估:使用测试数据对模型进行评估,包括准确率、召回率、F1值、AUC等指标。

四、KeyBERT的应用

# coding=utf-8/gbk
from sklearn.feature_extraction.text import CountVectorizer
import jiebadef tokenize_zh(text):words = jieba.lcut(text)return words
vectorizer = CountVectorizer(tokenizer=tokenize_zh)from keybert import KeyBERTdoc = """AI生成视频是利用人工智能技术生成视频的过程,通常,这种技术基于图像识别、语音合成等算法,从各种不同来源的数据中获取信息,然后自动生成视频。 AI生成视频技术的优势是可以快速生成高质量视频,同时还可以自动完成各种冗长的编辑工作,提高工作效率。此外,还可以实现一些人类不可能完成的任务,例如在极端天气、危险环境下进行拍摄。
"""kw_model = KeyBERT()keywords = kw_model.extract_keywords(doc, vectorizer=vectorizer,top_n=6)
#print(keywords)keys = [x for x in keywords if len(x[0])>1]
print(keys)

运行结果:

[('完成', 0.5415), ('生成', 0.4935), ('人工智能', 0.4928), ('进行', 0.4882), ('合成', 0.3963), ('高质量', 0.3836)]

关键词抽取的可视化代码:

colorlist =['#7aebec','#e3e7d2','#ab9cfc','#bfe1d9','#c2e19d','#d423d2','#f423d2']
with open("keyword2.html", "w", encoding="utf8") as f:head = '''<div class="entities" style="line-height: 3.5; direction: ltr"> <h3>关键词抽取结果:</h3></div>'''f.write(head)mainhtml =''textlist = doc.split('\n')for tex in textlist:mainhtml= mainhtml+ '''<div class="entities" style="line-height: 2.5; direction: ltr">''' + tex + '''</div>'''for sch,color in zip(keylist,colorlist[0:len(keylist)]):mainhtml =mainhtml.replace(sch,'''<mark class="entity" style="background: '''+color+'''; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">'''+sch+'''<span style="font-size: 0.5em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">'''+'keyword'+'''</span></mark>''')f.write(mainhtml)keys =''for key in keylist:keys = keys+key+'; 'keyword_show = '''<div class="entities" style="line-height: 2.5; direction: ltr"><h4>''' + '关键词:'+keys + '''</h4></div>'''f.write(keyword_show)

最后会生成keyword2.html网页文件,我们打开网页文件就可以看到:

 我们可以清晰地看到关键词的位置,以及出现的频次。

相关文章:

自然语言处理实战项目2-文本关键词抽取和关键词分值评估

大家好&#xff0c;我是微学AI&#xff0c;今天给大家带来自然语言处理实战项目2-文本关键词抽取和关键词分值评估。关键词抽取是自然语言处理中的重要任务&#xff0c;也是基础任务。 一、关键词抽取传统方法 1.基于统计的方法&#xff1a; 基于统计的方法是通过对一组文本…...

软件测试面试,项目经验板块如何答?初中高级测试工程师都问什么?

目录&#xff1a;导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09;前言 项目经验相关的问题…...

软件测试之测试用例的设计

对于测试工作而言&#xff0c;最重要的无疑就是测试用例的设计。好的测试用例可以帮助测试人员更好更快地发现软件中的错误&#xff0c;对于提高产品质量意义重大。本文就是针对测试用例的设计方法。 文章目录测试用例的基本要素测试用例的设计设计测试用例的具体方法等价类划分…...

MySQL安装与配置(保姆级教程)

MySQL安装 我们进入Mysql的官网进行下载MySQL Community Edition(GPL),这里我们以8.0.32.0版本为例&#xff0c;点击下面进行下载&#xff1a; MySQL Community Edition(GPL) 此时我们选择下面一个32位(64位的系统也选他)&#xff0c;上面那个是在线安装等待时间比较长 当然我们…...

MATLAB算法实战应用案例精讲-【元启发式算法】随机蛙跳跃算法(SFLA)(附matlab代码实现)

目录 前言 知识储备 多目标优化问题 多目标元启发式优化方法 算法原理 数...

内网穿透:远程访问内网IP中的电脑

需求&#xff1a;家里电脑在路由器内网中&#xff0c;能连外网。想在外地时能ssh&#xff08;也即vscode&#xff09;访问家里的电脑。 家里电脑系统&#xff1a;win11&#xff08;Ubuntu流程也一模一样&#xff09; 具体流程 家里电脑下载【花生壳】内网穿透软件并登录&#…...

day4 selenium爬取数据总结

day4 selenium爬取数据 一、selenium基本操作 导入相关模块&#xff1a; from selenium.webdriver import Chrome(一)、创建浏览器对象 b Chrome()(二)、打开网页&#xff08;需要爬取哪个页面的数据就打开该页面对应的网页地址&#xff09; 案例&#xff1a;爬取豆瓣电影…...

信息收集之WAF绕过

信息收集之WAF绕过前言一、工具进行目录扫描1. 工具的下载2. 工具的使用二、Python代码进行目录扫描前言 对于web安全无WAF的信息收集&#xff0c;大家可以查看如下链接的文章&#xff1a; web安全之信息收集 对于有WAF信息收集&#xff0c;看如下所示&#xff1a;&#xff08;…...

从数据到智慧,TOOM舆情监测系统让你的决策更加精准!

当今社会信息化程度日益提高&#xff0c;网络平台已成为人们获取最新信息的主要途径&#xff0c;无论是个体还是组织、政府还是企业&#xff0c;都需要通过各种手段及时了解社会舆情&#xff0c;把握市场动态&#xff0c;调整经营策略。而舆情监测系统无疑是这些手段中最为有效…...

ChatGPT中文版网页插件-如何体验chatGPT

ChatGPT中文版网页插件 目前&#xff0c;OpenAI的ChatGPT并没有官方提供中文版的网页插件&#xff0c;但是&#xff0c;一些第三方网站和开发者已经开始提供一些针对中文的自然语言处理和对话机器人服务。以下是其中一些例子&#xff1a; 问答机器人&#xff1a; 像小蛮腰和小…...

Docker的网络模式

Docker常见的几种网络模式 docker network ls 查看使用了哪些网络 [rootcentos8-nat-168-182-152 ~]# docker network ls NETWORK ID NAME DRIVER SCOPE c0184302f6a8 bridge bridge local 420492e04276 host host local …...

基于vue3.2、three实现地图在地图加载

基于vue3.2、three实现地图在地图加载code效果预览地址code 在这里插入代码片 import { ref, onMounted } from "vue"import * as THREE from "three"; import Earth from "./textures/Earth.png" import EarthSpec from "./textures/Eart…...

【C++】---优先级队列 仿函数

文章目录优先级队列介绍优先级队列使用仿函数优先级队列模拟实现优先级队列介绍 优先队列是一种容器适配器 &#xff0c;它的底层实现是堆&#xff0c;虽然它的名字里面有队列&#xff0c;但它并没有队列先进先出的特性 优先级队列定义在头文件中&#xff0c;其模板参数有三个…...

图的遍历算法

图的遍历1.连通图的深度优先搜索1.1. 递归1.2.非递归2.连通图的广度优先遍历3. 非连通图的深度&#xff08;广度&#xff09;优先遍历1.连通图的深度优先搜索 算法思想&#xff1a;从图中某个顶点vi出发&#xff0c;访问此顶点&#xff0c;然后依次从v1的各个未被访问的邻接点…...

【蓝桥杯集训·每日一题】 AcWing 3996. 涂色

文章目录一、题目1、原题链接2、题目描述二、解题报告1、思路分析2、时间复杂度3、代码详解三、知识风暴区间DPUnique函数一、题目 1、原题链接 3996. 涂色 2、题目描述 有 n 个砖块排成一排&#xff0c;从左到右编号为 1∼n。 其中&#xff0c;第 i 个砖块的初始颜色为 ci。 …...

人工智能中的Web端编程

Java是当前的主流编程语言之一&#xff0c;常年稳居TIOBE编程语言排行榜前五。Java的使用领域非常广泛&#xff0c;包括了桌面端编程、Web端编程、移动端编程等几乎所有的编程领域。Java是Web端编程使用最广泛的编程语言之一。要学习Web端编程&#xff0c;需要了解Java语言的知…...

jsp+mysql+J2EE校园自行车租赁系统cdA1A2程序

本系统的具体功能有以下六项&#xff1a; 1、用户信息管理模块&#xff1a;用户需要注册成为本网站的用户&#xff0c;同时修改自己的用户资料&#xff0c;在必要时修改自己的登陆密码。 2、车辆查询模块:用户可以根据自己的要求&#xff0c;按照不同的查询方式来查询自己想要的…...

当营养遇上肠道菌群:探究其对儿童健康的影响

谷禾健康 越来越多的证据表明&#xff0c;肠道菌群定植紊乱和微生物多样性减少与全球非传染性疾病 (NCD) 的增加有关。影响儿童和青少年的非传染性疾病包括肥胖及其相关合并症、自身免疫性疾病、过敏性疾病和哮喘。饮食变化也与非传染性疾病的发病机制有关&#xff0c;并且由于…...

vue尚品汇商城项目-day01【4.完成非路由组件Header与Footer业务】

文章目录4.完成非路由组件Header与Footer业务4.1使用组件的步骤&#xff08;非路由组件&#xff09;本人其他相关文章链接4.完成非路由组件Header与Footer业务 在咱们项目开发中&#xff0c;不在以HTML CSS 为主&#xff0c;主要搞业务、逻辑 开发项目的流程&#xff1a; (1)…...

IDEA安装教程(图文详解,一步搞定)

文章目录第一步&#xff1a;官网下载IDEA第二步&#xff1a;卸载旧的IDEA&#xff08;没有则跳过&#xff09;第二步&#xff1a;安装IDEA第一步&#xff1a;官网下载IDEA 地址&#xff1a;https://www.jetbrains.com/idea/download/other.html 第二步&#xff1a;卸载旧的I…...

springboot+vue基于web的校园失物招领系统的设计系统

目录同行可拿货,招校园代理 ,本人源头供货商系统功能模块分析交互与流程设计技术实现要点项目技术支持源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作同行可拿货,招校园代理 ,本人源头供货商 系统功能模块分析 用户模块 注册与登录&…...

在 SAP 系统中,利润中心(Profit Center)和业务范围(Business Area)都是用于内部管理报告的组织单元,但它们在设计理念、功能和应用上存在显著区别。简单来说,利润中心是更现代

在 SAP 系统中&#xff0c;利润中心&#xff08;Profit Center&#xff09;和业务范围&#xff08;Business Area&#xff09;都是用于内部管理报告的组织单元&#xff0c;但它们在设计理念、功能和应用上存在显著区别。简单来说&#xff0c;利润中心是更现代、更灵活、功能更强…...

Win11系统升级后如何快速恢复MySQL数据库

1. Win11升级后MySQL恢复的常见场景 最近帮朋友处理了一个典型问题&#xff1a;他的Win11系统升级后&#xff0c;原本运行正常的MySQL服务突然无法启动&#xff0c;项目数据库全部"消失"。这种情况其实很常见——系统升级或重装时&#xff0c;注册表信息、环境变量和…...

3步解锁Windows运行安卓应用:APK-Installer轻量解决方案

3步解锁Windows运行安卓应用&#xff1a;APK-Installer轻量解决方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在数字化办公与娱乐融合的今天&#xff0c;安卓应用…...

基于Kubernetes Operator的MySQL InnoDB Cluster自动化部署实践

1. MySQL InnoDB Cluster与Kubernetes Operator基础 MySQL InnoDB Cluster是MySQL官方提供的高可用数据库解决方案&#xff0c;它基于MySQL Group Replication技术构建&#xff0c;能够实现多节点数据同步和自动故障转移。想象一下&#xff0c;这就像是一个由多个数据库实例组…...

Arduino_ConnectionHandler库:嵌入式网络连接状态管理与自适应重连

1. Arduino_ConnectionHandler 库深度解析&#xff1a;嵌入式网络连接管理的工程实践指南1.1 库定位与核心价值Arduino_ConnectionHandler是 Arduino 官方生态中面向物联网终端设备的网络连接抽象管理层&#xff0c;其设计目标并非替代底层通信协议栈&#xff08;如 WiFiClient…...

巧用Google Maps与ScreenToGif:零行程数据也能轻松生成动态路线图

1. 从零开始制作动态路线图的必备工具 最近有个朋友问我&#xff1a;"想给客户展示项目选址的交通路线&#xff0c;但实地考察还没开始&#xff0c;怎么做出专业的动态路线图&#xff1f;"这让我想起自己两年前第一次做商业提案时的窘境——当时为了展示物流配送路线…...

Umi-OCR:重新定义本地化文字识别的工作流范式

Umi-OCR&#xff1a;重新定义本地化文字识别的工作流范式 【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片&#xff0c;PDF文档识别&#xff0c;排除水印/页眉页脚&#xff0c;扫描/生成二维码。内置多国语言库。 …...

Qwen-Image-Edit-F2P开源可部署优势:模型权重完全本地化,无外部API依赖风险

Qwen-Image-Edit-F2P开源可部署优势&#xff1a;模型权重完全本地化&#xff0c;无外部API依赖风险 1. 开箱即用的AI图像编辑体验 想象一下&#xff0c;你只需要一台配备24GB显存的电脑&#xff0c;就能拥有一个专业的AI图像编辑工作室。Qwen-Image-Edit-F2P正是这样一个让人…...

XHS-Downloader:构建高效采集流程的无水印内容批量管理方案

XHS-Downloader&#xff1a;构建高效采集流程的无水印内容批量管理方案 【免费下载链接】XHS-Downloader 小红书&#xff08;XiaoHongShu、RedNote&#xff09;链接提取/作品采集工具&#xff1a;提取账号发布、收藏、点赞、专辑作品链接&#xff1b;提取搜索结果作品、用户链接…...