【自然语言处理】TextRank 算法提取关键词(Python实现)
文章目录
- 前言
- PageRank 实现
- TextRank 简单版源码实现
- jieba工具包实现TextRank
前言
TextRank 算法是一种基于图的排序算法,主要用于文本处理中的关键词提取和文本摘要。它基于图中节点之间的关系来评估节点的重要性,类似于 Google 的 PageRank 算法。TextRank 算法的关键思想是,一个词语在文本中的重要性可以通过与其他词语的关系来评估,而这些关系可以表示为图中的边。
图构建(Graph Construction): 将文本中的词语或短语表示为图的节点,词语之间的关系可以是共现关系、语义相似度等。通常,可以使用共现矩阵或者基于词向量的相似度来构建图。
边权重计算(Edge Weighting): 计算图中边的权重,反映节点之间的关系强度。例如,可以使用共现词频、词向量相似度等作为边的权重。
节点权重计算(Node Weighting): 利用图中节点之间的关系以及边的权重来计算节点的权重。通常采用迭代方法,类似于 PageRank 算法,根据节点之间的相互影响来计算节点的权重。
排名(Ranking): 根据节点的权重对节点进行排名,排名较高的节点被认为是重要的词语或短语。
TextRank 算法的节点得分更新公式:
PageRank 实现
初始化时,每个网页的重要性为 1。
我们可以用一个矩阵来表示图中 a、b、e、f 之间的入站和出站链接。
一行中的每个节点表示来自其他节点的入站链接。例如,对于 e 行,节点 a 和 b 具有指向节点 e 的出站链接。本演示文稿将简化更新权重的计算。
根据 1/|out(vi)|,从函数中,我们应该规范化每一列。
我们使用这个矩阵乘以所有节点的权重。这只是一次没有阻尼系数 d 的迭代。
我们可以使用 Python 进行多次迭代。
import numpy as np
g = [[0, 0, 0, 0],[0, 0, 0, 0],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)
0
[0.15 0.15 1.425 0.575]
1
[0.15 0.15 0.34125 0.21375]
2
[0.15 0.15 0.34125 0.21375]
3
[0.15 0.15 0.34125 0.21375]
4
[0.15 0.15 0.34125 0.21375]
5
[0.15 0.15 0.34125 0.21375]
6
[0.15 0.15 0.34125 0.21375]
7
[0.15 0.15 0.34125 0.21375]
8
[0.15 0.15 0.34125 0.21375]
9
[0.15 0.15 0.34125 0.21375]
10
[0.15 0.15 0.34125 0.21375]
所以 e 的权重(PageRank值)为 0.34125。
如果我们把有向边变成无向边,我们就可以相应地改变矩阵。
规范化。

我们应该相应地更改代码。
import numpy as np
g = [[0, 0, 0.5, 0],[0, 0, 0.5, 1],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)
0
[0.575 1.425 1.425 0.575]
1
[0.755625 1.244375 1.244375 0.755625]
2
[0.67885937 1.32114062 1.32114062 0.67885937]
3
[0.71148477 1.28851523 1.28851523 0.71148477]
4
[0.69761897 1.30238103 1.30238103 0.69761897]
5
[0.70351194 1.29648806 1.29648806 0.70351194]
6
[0.70100743 1.29899257 1.29899257 0.70100743]
7
[0.70207184 1.29792816 1.29792816 0.70207184]
8
[0.70161947 1.29838053 1.29838053 0.70161947]
9
[0.70181173 1.29818827 1.29818827 0.70181173]
所以 e 的权重(PageRank值)为 1.29818827。
TextRank 简单版源码实现
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武)
# @Date : 2025/2/06
#@email:1344732766@qq.comimport numpy as np
import jieba
import jieba.posseg as pseg #posseg是Python中的一个分词工具,它可以将文本切割成词语,并且为每个词语标注词性class TextRank(object):def __init__(self, sentence, window, alpha, iternum):self.sentence = sentence #文本self.window = window#窗口大小self.alpha = alpha#权重self.edge_dict = {} # 记录节点的边连接字典self.iternum = iternum # 迭代次数# 对句子进行分词def cutSentence(self):#jieba.load_userdict('user_dict.txt')#tag_filter = ['a', 'd', 'n', 'v'] #a形容词,d副词,n名称, v动词tag_filter = ['ns', 'n', 'vn', 'v']#地名、名词、动名词、动词seg_result = pseg.cut(self.sentence)self.word_list = [s.word for s in seg_result if s.flag in tag_filter and len(s.word)>1]#print(self.word_list)#['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]# 根据窗口,构建每个节点的相邻节点,返回边的集合def createNodes(self):tmp_list = []word_list_len = len(self.word_list)for index, word in enumerate(self.word_list):if word not in self.edge_dict.keys():tmp_list.append(word)#针对当前word取出左右边界词 word:{左边界词1,左边界词2...右边界词1,右边界词2}tmp_set = set()#当前word的left = index - self.window + 1 # 窗口左边界right = index + self.window # 窗口右边界if left < 0: left = 0if right >= word_list_len: right = word_list_lenfor i in range(left, right):#左闭右开if i == index:continuetmp_set.add(self.word_list[i])self.edge_dict[word] = tmp_set #{word:{左边界词1,左边界词2...右边界词1,右边界词2}}# 根据边的相连关系,构建矩阵def createMatrix(self):#self.word_list=['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]self.matrix = np.zeros([len(set(self.word_list)), len(set(self.word_list))])self.word_index = {} # 记录词的indexself.index_dict = {} # 记录节点index对应的词for i, v in enumerate(set(self.word_list)):self.word_index[v] = i#{词:索引}self.index_dict[i] = v #{索引:词}for key in self.edge_dict.keys():#edge_dict {word:{左边界词1,左边界词2...右边界词1,右边界词2}|for w in self.edge_dict[key]:self.matrix[self.word_index[key]][self.word_index[w]] = 1self.matrix[self.word_index[w]][self.word_index[key]] = 1# 归一化for j in range(self.matrix.shape[1]):#列sum = 0for i in range(self.matrix.shape[0]):#行sum += self.matrix[i][j]#一列的和for i in range(self.matrix.shape[0]):self.matrix[i][j] /= sum# 根据textrank公式计算权重def calPR(self):self.PR = np.ones([len(set(self.word_list)), 1])#每个词语重要性初始化为1for i in range(self.iternum):self.PR = (1 - self.alpha) + self.alpha * np.dot(self.matrix, self.PR)#重要性迭代更新# 输出词和相应的权重def printResult(self):word_pr = {}for i in range(len(self.PR)):#self.index_dict[i] 得到位置索引i对应的词word_pr[self.index_dict[i]] = self.PR[i][0] #{词:重要性}res = sorted(word_pr.items(), key=lambda x: x[1], reverse=True)[:5]#前5个单词print(res)if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'tr = TextRank(text, 3, 0.85, 600)tr.cutSentence()tr.createNodes()tr.createMatrix()tr.calPR()tr.printResult()
jieba工具包实现TextRank
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武)
# @Date : 2025/2/06
#@email:1344732766@qq.comimport jieba
import jieba.posseg as psg
from jieba import analysedef textrank_extract(text, pos=False, keyword_num=5):textrank = analyse.textrankkeywords = textrank(text, allowPOS=('ns', 'n', 'vn', 'v'),topK=keyword_num,withWeight=False,)# 输出抽取出的关键词for keyword in keywords:print(keyword + "/ ", end='')print()
if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'print('TextRank模型结果:')textrank_extract(text)

相关文章:
【自然语言处理】TextRank 算法提取关键词(Python实现)
文章目录 前言PageRank 实现TextRank 简单版源码实现jieba工具包实现TextRank 前言 TextRank 算法是一种基于图的排序算法,主要用于文本处理中的关键词提取和文本摘要。它基于图中节点之间的关系来评估节点的重要性,类似于 Google 的 PageRank 算法。Tex…...
Java-128陷阱、抽象类和接口的区别、为什么 hashCode()需要和equals()一起重写、封装继承多态
128陷阱 Integer a 100; Integer b 100; System.out.println(ab); //true Integer c 1000; Integer d 1000; System.out.println(cd);//false int e 1000; System.out.println(ce);//true 分析以上代码运行的结果 源码: Integer a128; 编译器执行的是&…...
使用 Python 编程语言来实现机器学习小项目教程案例
以下是一个简单的机器学习小项目教程案例,使用 Python 编程语言和 Scikit-learn 库来实现一个分类任务。我们将使用经典的鸢尾花(Iris)数据集来训练一个分类器,预测鸢尾花的种类。 项目目标 使用机器学习算法对鸢尾花数据集进行分类,预测鸢尾花的类别(Setosa、Versicolor…...
如何评价镜头的好坏?光学镜头的一种评价标准
1光学传递函数MTF MTF是什么? 光学传递函数(optical transfer function)是指以空间频率为变量,表征成像过程中调制度和横向相移的相对变化的函数。光学传递函数是光学系统对空间频谱的滤波变换。一个非相干照明的光学成像系统&a…...
openGauss 3.0 数据库在线实训课程1:学习数据库状态查看
openGauss数据库状态查看 前提 我正在参加21天养成好习惯| 第二届openGauss每日一练活动 课程详见:openGauss 3.0.0数据库在线实训课程 学习目标 学习从操作系统层面和使用openGauss工具查看数据库的状态、版本和数据文件目录。 课程作业 gs_ctl是openGauss提…...
Stable Diffusion的入门介绍和使用教程
Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、StabilityAI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型&#…...
docker安装es及分词器ik
系统是macos,docker是docker-desktop 拉取镜像 docker pull bitnami/elasticsearch 启动docker镜像 docker create -e "discovery.typesingle-node" \ --name elasticsearch1 -p 9200:9200 -p 9300:9300 \ bitnami/elasticsearch:8.17.1 测试是否好…...
记一次框架利用接管学工系统
视频教程在我主页简介或专栏里 链接:观看更多 Springboot actuator (1)某学院学工管理系统存在Springboot actuator未授权,泄露了很多接口地址,其他接口就不过多介绍了,这里具体讲述这次利用到的httptrace和jolokia两…...
低代码提升交付效率的公式计算
低(无)代码平台(后统称“低代码”)能够提升数字化应用建设、交付效率,已经成为IT从业人员的共识。目前,大部分CIO/CDO都能清晰定位和认知低代码的特点和作用。但仍然有人认为,使用了低代码工具软…...
深入解析:如何利用 Python 爬虫获取商品 SKU 详细信息
在电商领域,SKU(Stock Keeping Unit,库存单位)详细信息是电商运营的核心数据之一。它不仅包含了商品的规格、价格、库存等关键信息,还直接影响到库存管理、价格策略和市场分析等多个方面。本文将详细介绍如何利用 Pyth…...
java后端开发面试常问
面试常问问题 1 spring相关 (1)Transactional失效的场景 <1> Transactional注解默认只会回滚运行时异常(RuntimeException),如果方法中抛出了其他异常,则事务不会回滚(数据库数据仍然插…...
第六期:开放银行突围战 - API经济下的跨域经营合规框架
一、监管沙盒中的API兵法 1.1 开放银行接口的军备等级 人行《商业银行应用程序接口管理规范》(2025修订版): 安全分级: L1(查询类):日均调用量≤10万次 (如余额查询) L2(交易类):必须双因素认证 (如转账) L3(决策类):需人工智能审计跟踪 (如授信评估) 实战接口设计…...
全程Kali linux---CTFshow misc入门(25-37)
第二十五题: 提示:flag在图片下面。 直接检查CRC,检测到错误,就直接暴力破解。 暴力破解CRC的python代码。 import binascii import struct def brute_force_ihdr_crc(filename): # 读取文件二进制数据 with open(filen…...
Axure大屏可视化动态交互设计:解锁数据魅力,引领决策新风尚
可视化组件/模板预览:https://8dge09.axshare.com 一、大屏可视化技术概览 在数据驱动决策的时代,大屏可视化技术凭借直观、动态的展示方式,已成为众多行业提升管理效率和优化决策过程的关键工具。它能够将复杂的数据转化为易于理解的图形和…...
《AI “造脸术”:生成对抗网络打造超真实虚拟人脸》
在科技飞速发展的当下,人工智能的浪潮席卷而来,其中生成对抗网络(GANs)技术以其独特的魅力,成为了生成高度真实感虚拟人脸的强大引擎。无论是影视制作中虚拟角色的塑造,还是游戏领域中多样化角色形象的构建…...
常用工具类——Collections集合框架
常用工具类——Collections集合框架 Collections 是 JDK 提供的一个工具类,提供了一系列静态方法,分类来复习! 1.排序操作 reverse(List list) :反转顺序shuffle(List list) : 洗牌,将顺序打乱sort(List list) &…...
Verilog语言学习总结
Verilog语言学习! 目录 文章目录 前言 一、Verilog语言是什么? 1.1 Verilog简介 1.2 Verilog 和 C 的区别 1.3 Verilog 学习 二、Verilog基础知识 2.1 Verilog 的逻辑值 2.2 数字进制 2.3 Verilog标识符 2.4 Verilog 的数据类型 2.4.1 寄存器类型 2.4.2 …...
软件工程-数据流图DFD
数据流图(DFD)是一种图形化技术,它描绘信息流和数据从输入移动到输出的过程中经受的变换。 数据流图是系统逻辑功能和图形表示,即使不是专业的计算机人员也容易理解它,因此是分析员与用户之间极好的通信工具。 设计数…...
为什么需要同时重写equals方法和hashCode方法
在 Java 编程中,equals 和 hashCode 是两个非常重要的方法,它们用于确定对象的相等性和哈希值。这两个方法通常需要同时重写,否则会导致哈希表类(如 HashMap、HashSet)的行为异常。因此,理解这两个方法的工…...
c++11总结26——std::regex
std::regex 是 C11 引入的 正则表达式库,用于 字符串匹配、搜索和替换。 🔹 头文件:#include <regex> 🔹 命名空间:std 🔹 支持的匹配模式:ECMAScript(默认)、POS…...
Linux运维——查看命令帮助信息
查看命令帮助信息 一、查看 Linux 命令帮助信息的要点二、常见命令用法2.1、help2.2、whatis2.3、info2.4、which2.5、whereis2.6、man 一、查看 Linux 命令帮助信息的要点 查看 Shell 内部命令的帮助信息 - 使用 help查看命令的简要说明 - 使用 whatis查看命令的详细说明 - 使…...
应急场景中的数据融合与对齐
1. 概述 在应急管理中,快速、准确地掌握现场状况、实时监控灾情并进行决策至关重要。各类数据(如卫星影像、无人机图像、激光雷达点云、地理信息系统(GIS)数据、传感器数据、社交媒体信息、移动终端数据等)具有来源广泛、格式多样、时空特性不同等特点。如何将这些异构数…...
Java数据结构与算法之“树”
目录 一、什么是树 编辑 二、树的相关组成 1. 常用名词 2.需要了解的名词 三、树的分类 (一)初级树 1.普通树 2.二叉树 (二)中级树 1.哈夫曼树HuffmanTree 2.二叉搜索树BST 3.平衡二叉树AVL (三&#x…...
网络HTTP详细讲解
学习目标 什么是HTTPHTTP的请求和响应常见的HTTP状态码HTTP的安全性 什么是HTTP?HTTP的请求和响应,常见的HTTP状态码,HTTP的安全性 什么是HTTP HTTP(HyperText Transfer Protocol,超文本传输协议)是一种用…...
基于Python的智能物流路径优化算法研究与应用
基于Python的智能物流路径优化算法研究与应用 摘要 随着电商行业的迅猛发展,物流配送的效率和成本成为影响企业竞争力的关键因素。本论文聚焦于基于Python语言实现智能物流路径优化算法的研究。通过对经典路径优化算法如Dijkstra算法、A*算法等的深入分析ÿ…...
Origin2024 软件安装步骤与百度网盘
软件简介: Origin 2024是一款功能强大的科学绘图与数据分析软件,广泛应用于科研和工程领域,支持多种图形绘制、数据分析功能以及便捷的数据导入和管理。 网盘链接: https://pan.baidu.com/s/1MNQG2pD802LWxuIN40JfeA?pwdc85q 提取码:c85…...
【算法应用】Alpha进化算法求解二维栅格路径规划问题
目录 1.算法原理2.二维路径规划数学模型3.结果展示4.参考文献5.代码获取 1.算法原理 Alpha进化:一种具有进化路径自适应和矩阵生成的高效进化算法 2.二维路径规划数学模型 栅格法模型最早由 W.E. Howden 于 1968 年提出,障碍物的栅格用黑色表示&#…...
PyQt6/PySide6 的 QDialog 类
QDialog 是 PyQt6 或 PySide6 库中用于创建对话框的类。对话框是一种特殊的窗口,通常用于与用户进行短期交互,如输入信息、显示消息或选择选项等。QDialog 提供了丰富的功能和灵活性,使得开发者可以轻松地创建各种类型的对话框。下面我将详细…...
嵌入式八股文面试题(一)C语言部分
1. 变量/函数的声明和定义的区别? (1)变量 定义不仅告知编译器变量的类型和名字,还会分配内存空间。 int x 10; // 定义并初始化x int x; //同样是定义 声明只是告诉编译器变量的名字和类型,但并不为它分配内存空间…...
Redis企业开发实战(二)——点评项目之商户缓存查询
目录 一、缓存介绍 二、缓存更新策略 三、如何保证redis与数据库一致性 1.解决方案概述 2.双写策略 3.双删策略 3.1延迟双删的目的 4.数据重要程度划分 四、缓存穿透 (一)缓存穿透解决方案 (二)缓存穿透示意图 五、缓存雪崩 (一)缓存雪崩解决方案 (二)缓存雪崩…...
