当前位置：首页 > article >正文

【自然语言处理】TextRank 算法提取关键词（Python实现）

article 2026/5/3 21:58:28

文章目录

前言
PageRank 实现
TextRank 简单版源码实现
jieba工具包实现TextRank

前言

TextRank 算法是一种基于图的排序算法，主要用于文本处理中的关键词提取和文本摘要。它基于图中节点之间的关系来评估节点的重要性，类似于 Google 的 PageRank 算法。TextRank 算法的关键思想是，一个词语在文本中的重要性可以通过与其他词语的关系来评估，而这些关系可以表示为图中的边。
图构建（Graph Construction）：将文本中的词语或短语表示为图的节点，词语之间的关系可以是共现关系、语义相似度等。通常，可以使用共现矩阵或者基于词向量的相似度来构建图。
边权重计算（Edge Weighting）：计算图中边的权重，反映节点之间的关系强度。例如，可以使用共现词频、词向量相似度等作为边的权重。
节点权重计算（Node Weighting）：利用图中节点之间的关系以及边的权重来计算节点的权重。通常采用迭代方法，类似于 PageRank 算法，根据节点之间的相互影响来计算节点的权重。
排名（Ranking）：根据节点的权重对节点进行排名，排名较高的节点被认为是重要的词语或短语。
TextRank 算法的节点得分更新公式：

PageRank 实现

初始化时，每个网页的重要性为 1。

我们可以用一个矩阵来表示图中 a、b、e、f 之间的入站和出站链接。

一行中的每个节点表示来自其他节点的入站链接。例如，对于 e 行，节点 a 和 b 具有指向节点 e 的出站链接。本演示文稿将简化更新权重的计算。

根据 1/|out(v_i)|，从函数中，我们应该规范化每一列。

我们使用这个矩阵乘以所有节点的权重。这只是一次没有阻尼系数 d 的迭代。

我们可以使用 Python 进行多次迭代。

import numpy as np
g = [[0, 0, 0, 0],[0, 0, 0, 0],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)

0
[0.15 0.15 1.425 0.575]
1
[0.15 0.15 0.34125 0.21375]
2
[0.15 0.15 0.34125 0.21375]
3
[0.15 0.15 0.34125 0.21375]
4
[0.15 0.15 0.34125 0.21375]
5
[0.15 0.15 0.34125 0.21375]
6
[0.15 0.15 0.34125 0.21375]
7
[0.15 0.15 0.34125 0.21375]
8
[0.15 0.15 0.34125 0.21375]
9
[0.15 0.15 0.34125 0.21375]
10
[0.15 0.15 0.34125 0.21375]

所以 e 的权重（PageRank值）为 0.34125。

如果我们把有向边变成无向边，我们就可以相应地改变矩阵。

规范化。

我们应该相应地更改代码。

import numpy as np
g = [[0, 0, 0.5, 0],[0, 0, 0.5, 1],[1, 0.5, 0, 0],[0, 0.5, 0, 0]]g = np.array(g)
pr = np.array([1, 1, 1, 1]) # initialization for a, b, e, f is 1
d = 0.85for iter in range(10):pr = 0.15 + 0.85 * np.dot(g, pr)print(iter)print(pr)

0
[0.575 1.425 1.425 0.575]
1
[0.755625 1.244375 1.244375 0.755625]
2
[0.67885937 1.32114062 1.32114062 0.67885937]
3
[0.71148477 1.28851523 1.28851523 0.71148477]
4
[0.69761897 1.30238103 1.30238103 0.69761897]
5
[0.70351194 1.29648806 1.29648806 0.70351194]
6
[0.70100743 1.29899257 1.29899257 0.70100743]
7
[0.70207184 1.29792816 1.29792816 0.70207184]
8
[0.70161947 1.29838053 1.29838053 0.70161947]
9
[0.70181173 1.29818827 1.29818827 0.70181173]

所以 e 的权重（PageRank值）为 1.29818827。

TextRank 简单版源码实现

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武）
# @Date  : 2025/2/06
#@email:1344732766@qq.comimport numpy as np
import jieba
import jieba.posseg as pseg #posseg是Python中的一个分词工具，它可以将文本切割成词语，并且为每个词语标注词性class TextRank(object):def __init__(self, sentence, window, alpha, iternum):self.sentence = sentence #文本self.window = window#窗口大小self.alpha = alpha#权重self.edge_dict = {}  # 记录节点的边连接字典self.iternum = iternum  # 迭代次数# 对句子进行分词def cutSentence(self):#jieba.load_userdict('user_dict.txt')#tag_filter = ['a', 'd', 'n', 'v'] #a形容词，d副词，n名称， v动词tag_filter = ['ns', 'n', 'vn', 'v']#地名、名词、动名词、动词seg_result = pseg.cut(self.sentence)self.word_list = [s.word for s in seg_result if s.flag in tag_filter and len(s.word)>1]#print(self.word_list)#['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]# 根据窗口，构建每个节点的相邻节点,返回边的集合def createNodes(self):tmp_list = []word_list_len = len(self.word_list)for index, word in enumerate(self.word_list):if word not in self.edge_dict.keys():tmp_list.append(word)#针对当前word取出左右边界词  word:{左边界词1,左边界词2...右边界词1，右边界词2}tmp_set = set()#当前word的left = index - self.window + 1  # 窗口左边界right = index + self.window  # 窗口右边界if left < 0: left = 0if right >= word_list_len: right = word_list_lenfor i in range(left, right):#左闭右开if i == index:continuetmp_set.add(self.word_list[i])self.edge_dict[word] = tmp_set #{word:{左边界词1,左边界词2...右边界词1，右边界词2}}# 根据边的相连关系，构建矩阵def createMatrix(self):#self.word_list=['年度', '中国', '爱心', '城市', '公益活动', '新闻', '发布会'...]self.matrix = np.zeros([len(set(self.word_list)), len(set(self.word_list))])self.word_index = {}  # 记录词的indexself.index_dict = {}  # 记录节点index对应的词for i, v in enumerate(set(self.word_list)):self.word_index[v] = i#{词:索引}self.index_dict[i] = v #{索引：词}for key in self.edge_dict.keys():#edge_dict {word:{左边界词1,左边界词2...右边界词1，右边界词2}|for w in self.edge_dict[key]:self.matrix[self.word_index[key]][self.word_index[w]] = 1self.matrix[self.word_index[w]][self.word_index[key]] = 1# 归一化for j in range(self.matrix.shape[1]):#列sum = 0for i in range(self.matrix.shape[0]):#行sum += self.matrix[i][j]#一列的和for i in range(self.matrix.shape[0]):self.matrix[i][j] /= sum# 根据textrank公式计算权重def calPR(self):self.PR = np.ones([len(set(self.word_list)), 1])#每个词语重要性初始化为1for i in range(self.iternum):self.PR = (1 - self.alpha) + self.alpha * np.dot(self.matrix, self.PR)#重要性迭代更新# 输出词和相应的权重def printResult(self):word_pr = {}for i in range(len(self.PR)):#self.index_dict[i] 得到位置索引i对应的词word_pr[self.index_dict[i]] = self.PR[i][0] #{词：重要性}res = sorted(word_pr.items(), key=lambda x: x[1], reverse=True)[:5]#前5个单词print(res)if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'tr = TextRank(text, 3, 0.85, 600)tr.cutSentence()tr.createNodes()tr.createMatrix()tr.calPR()tr.printResult()

jieba工具包实现TextRank

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu(余登武）
# @Date  : 2025/2/06
#@email:1344732766@qq.comimport jieba
import jieba.posseg as psg
from jieba import analysedef textrank_extract(text, pos=False, keyword_num=5):textrank = analyse.textrankkeywords = textrank(text, allowPOS=('ns', 'n', 'vn', 'v'),topK=keyword_num,withWeight=False,)# 输出抽取出的关键词for keyword in keywords:print(keyword + "/ ", end='')print()
if __name__ == '__main__':text = '6月19日,《2012年度“中国爱心城市”公益活动新闻发布会》在京举行。' + \'中华社会救助基金会理事长许嘉璐到会讲话。基金会高级顾问朱发忠,全国老龄' + \'办副主任朱勇,民政部社会救助司助理巡视员周萍,中华社会救助基金会副理事长耿志远,' + \'重庆市民政局巡视员谭明政。晋江市人大常委会主任陈健倩,以及10余个省、市、自治区民政局' + \'领导及四十多家媒体参加了发布会。中华社会救助基金会秘书长时正新介绍本年度“中国爱心城' + \'市”公益活动将以“爱心城市宣传、孤老关爱救助项目及第二届中国爱心城市大会”为主要内容,重庆市' + \'、呼和浩特市、长沙市、太原市、蚌埠市、南昌市、汕头市、沧州市、晋江市及遵化市将会积极参加' + \'这一公益活动。中国雅虎副总编张银生和凤凰网城市频道总监赵耀分别以各自媒体优势介绍了活动' + \'的宣传方案。会上,中华社会救助基金会与“第二届中国爱心城市大会”承办方晋江市签约,许嘉璐理' + \'事长接受晋江市参与“百万孤老关爱行动”向国家重点扶贫地区捐赠的价值400万元的款物。晋江市人大' + \'常委会主任陈健倩介绍了大会的筹备情况。'print('TextRank模型结果：')textrank_extract(text)

在这里插入图片描述

【自然语言处理】TextRank 算法提取关键词（Python实现）

文章目录

前言

PageRank 实现

TextRank 简单版源码实现

jieba工具包实现TextRank

相关文章：

【自然语言处理】TextRank 算法提取关键词（Python实现）

Java-128陷阱、抽象类和接口的区别、为什么 hashCode()需要和equals()一起重写、封装继承多态

使用 Python 编程语言来实现机器学习小项目教程案例

如何评价镜头的好坏？光学镜头的一种评价标准

openGauss 3.0 数据库在线实训课程1：学习数据库状态查看

Stable Diffusion的入门介绍和使用教程

docker安装es及分词器ik

记一次框架利用接管学工系统

低代码提升交付效率的公式计算

深入解析：如何利用 Python 爬虫获取商品 SKU 详细信息

java后端开发面试常问

第六期：开放银行突围战 - API经济下的跨域经营合规框架

全程Kali linux---CTFshow misc入门（25-37）

Axure大屏可视化动态交互设计：解锁数据魅力，引领决策新风尚

《AI “造脸术”：生成对抗网络打造超真实虚拟人脸》

常用工具类——Collections集合框架

Verilog语言学习总结

软件工程-数据流图DFD

为什么需要同时重写equals方法和hashCode方法

c++11总结26——std::regex

Linux运维——查看命令帮助信息

应急场景中的数据融合与对齐

Java数据结构与算法之“树”

网络HTTP详细讲解

基于Python的智能物流路径优化算法研究与应用

Origin2024 软件安装步骤与百度网盘

【算法应用】Alpha进化算法求解二维栅格路径规划问题

PyQt6/PySide6 的 QDialog 类

嵌入式八股文面试题（一）C语言部分

Redis企业开发实战(二)——点评项目之商户缓存查询