当前位置: 首页 > news >正文

SpringBoot项目通过分词器生成词云

目录

  • 前言
  • 一、词云是什么?
  • 二、使用步骤
    • 1.引入依赖
    • 2.application.yml
    • 3.Controller
    • 4.分词工具类
    • 4.词云生成工具类、支持输出文件和字节流
  • 注意


前言

公司项目涉及到员工任务管理,需要从员工任务中获取任务信息生成个人词云图,可以把员工任务中较为高频的词语突出展示。


一、词云是什么?

词云就是对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层” 或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

在这里插入图片描述

二、使用步骤

1.引入依赖

<!--   IK分词器    -->
<dependency><groupId>cn.shenyanchao.ik-analyzer</groupId><artifactId>ik-analyzer</artifactId><version>9.0.0</version>
</dependency><!--    詞雲    -->
<dependency><groupId>com.kennycason</groupId><artifactId>kumo-core</artifactId><version>1.28</version>
</dependency><dependency><groupId>com.kennycason</groupId><artifactId>kumo-tokenizers</artifactId><version>1.28</version>
</dependency><!--    web    -->
<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId>
</dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional>
</dependency>

2.application.yml

server:port: 8088# 关闭日志输出 (可选)
logging:level:com.kennycason.kumo.WordCloud: OFF

3.Controller

import com.chendi.mydemo.utils.IkAnalyzerUtils;
import com.chendi.mydemo.utils.WorkCloudUtil;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;import java.util.ArrayList;
import java.util.List;
import java.util.Map;@RestController
public class TestController {@GetMapping("/")public void test() {List<String> list = new ArrayList<>();list.add("爱购物,爱手机,爱电脑,爱上网");list.add("爱学习,爱游戏,爱吃饭,爱睡觉");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("夏天的阳光明媚灿烂,\n" +"大自然万物生机盎然。\n" +"清晨的微风吹过花丛,\n" +"点缀着青草和蓝天。\n" +"\n" +"蝴蝶翩翩起舞在花间,\n" +"蜜蜂忙碌采集甘甜。\n" +"鸟儿欢快地歌唱着,\n" +"为夏日带来欢欣和欢愉。\n" +"\n" +"海浪轻拍沙滩起伏,\n" +"沙粒细腻温热宜走。\n" +"阳光透过水面璀璨,\n" +"让海洋如银河般流动。\n" +"\n" +"夏日的夜晚星空闪耀,\n" +"月亮洒下银色光晕。\n" +"夏虫的音符演奏着,\n" +"营造出夏夜的美妙。\n" +"\n" +"夏天啊,你是如此迷人,\n" +"给人们带来快乐和欢欣。\n" +"在你的怀抱里,我们尽情享受,\n" +"夏天,你是美丽的季节!");Map<String, Integer> wordMap = IkAnalyzerUtils.wordCloud(list, 0);WorkCloudUtil.generateWriteImage(wordMap);}}

4.分词工具类

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;import java.io.IOException;
import java.io.StringReader;
import java.util.*;/*** 解析工具类*/
public class IkAnalyzerUtils {/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static String wordCloudParsing(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);StringBuilder str = new StringBuilder();result.forEach((k, v) -> {String value = " " + k;str.append(value);});return str.toString().trim();}/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static List<Map<String,Object>> wordCloudList(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);List<Map<String,Object>> mapList = new LinkedList<>();result.forEach((k, v) -> {Map<String,Object> map = new HashMap<>(16);map.put("name",k);map.put("value",v);mapList.add(map);});Collections.reverse(mapList);return mapList;}/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static Map<String,Integer> wordCloud(List<String> list, Integer quantity) {StringReader reader = new StringReader(String.join(",", list));IKSegmenter ikSegmenter = new IKSegmenter(reader, true);Map<String, Integer> map = null;try {Lexeme lexeme;map = new HashMap<>(16);while ((lexeme = ikSegmenter.next()) != null) {String str = lexeme.getLexemeText();Integer num = map.get(str);if (num != null && num > 0) {map.put(str, num + 1);} else {map.put(str, 1);}}reader.close();} catch (IOException e) {e.printStackTrace();}Map<String, Integer> result = new LinkedHashMap<>();if (quantity != null && quantity > 0) {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).limit(quantity).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));} else {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));}return result;}
}

4.词云生成工具类、支持输出文件和字节流

import com.kennycason.kumo.CollisionMode;
import com.kennycason.kumo.WordCloud;
import com.kennycason.kumo.WordFrequency;
import com.kennycason.kumo.bg.CircleBackground;
import com.kennycason.kumo.font.KumoFont;
import com.kennycason.kumo.font.scale.SqrtFontScalar;
import com.kennycason.kumo.nlp.FrequencyAnalyzer;
import com.kennycason.kumo.nlp.tokenizers.ChineseWordTokenizer;
import com.kennycason.kumo.palette.ColorPalette;
import lombok.SneakyThrows;import java.awt.*;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;public class WorkCloudUtil {@SneakyThrowspublic static InputStream generateImageStream(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);//输出字节流ByteArrayOutputStream out =new ByteArrayOutputStream();wordCloud.writeToStreamAsPNG(out);return new ByteArrayInputStream(out.toByteArray());}@SneakyThrowspublic static void generateWriteImage(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);wordCloud.writeToFile("D:\\chendi\\cd.png");}public static WordCloud generateWordCloud(Map<String, Integer> wordMap){if (wordMap == null || wordMap.size() == 0) {return null;}final FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();frequencyAnalyzer.setWordFrequenciesToReturn(600);frequencyAnalyzer.setMinWordLength(2);frequencyAnalyzer.setWordTokenizer(new ChineseWordTokenizer());final List<WordFrequency> wordFrequencies = new ArrayList<>();for (Map.Entry<String, Integer> entry : wordMap.entrySet()) {wordFrequencies.add(new WordFrequency(entry.getKey(), entry.getValue()));}Font font = FontUtil.getFont("/static/fonts/QingNiaoHuaGuangJianMeiHei-2.ttf");//设置图片分辨率final Dimension dimension = new Dimension(400, 400);//此处的设置采用内置常量即可,生成词云对象final WordCloud wordCloud = new WordCloud(dimension, CollisionMode.PIXEL_PERFECT);//设置边界及字体wordCloud.setPadding(2);wordCloud.setBackgroundColor(Color.WHITE);//设置背景图层为圆形,设置圆形的大小wordCloud.setBackground(new CircleBackground(200));//设置词云显示的三种颜色,越靠前设置表示词频越高的词语的颜色wordCloud.setColorPalette(new ColorPalette(new Color(0x4055F1), new Color(0x408DF1), new Color(0x40AAF1), new Color(0x40C5F1), new Color(0x40D3F1), new Color(0xFFFFFF)));//设置字体的大小wordCloud.setFontScalar(new SqrtFontScalar(10, 40));wordCloud.setKumoFont(new KumoFont(font));wordCloud.build(wordFrequencies);//设置背景图片,如果想要固定的形状,就插入这个形状的图片//wordCloud.setBackground(new PixelBoundryBackground("E:\\星星/star.jpg"));return wordCloud;}}

注意

处理中文需要宿主机有中文字体包、如果宿主机不支持中文,请下载一个中文字体包

本文指定使用的就是QingNiaoHuaGuangJianMeiHei-2.ttf字体

百度一下、找不到私信我发你QingNiaoHuaGuangJianMeiHei-2.ttf字体包

相关文章:

SpringBoot项目通过分词器生成词云

目录 前言一、词云是什么&#xff1f;二、使用步骤1.引入依赖2.application.yml3.Controller4.分词工具类4.词云生成工具类、支持输出文件和字节流 注意 前言 公司项目涉及到员工任务管理&#xff0c;需要从员工任务中获取任务信息生成个人词云图&#xff0c;可以把员工任务中…...

Nacos 配置管理及相关使用

文章目录 Nacos 配置管理一、统一配置管理1、在Nacos 中添加配置文件2、从微服务拉取配置3、配置实现步骤&#xff08;1&#xff09;引入 nacos-config 依赖&#xff08;2&#xff09;添加 bootstrap.yml&#xff08;4&#xff09;在 nacos 中添加配置 二、配置热更新1、配置热…...

重发布与路由策略

华子目录 重发布重发布条件重发布配置规则重发布名词配置命令ospf往rip重发布&#xff08;重发布动态&#xff09;静态往rip重发布&#xff08;重发布静态&#xff09;直连往rip重发布&#xff08;重发布直连&#xff09;rip往ospf重发布&#xff08;重发布动态&#xff09;静态…...

57. 插入区间(C++题解)

57. 插入区间 插入区间 给你一个无重叠的 &#xff0c;按照区间起始端点排序的区间列表。 在列表中插入一个新的区间&#xff0c;你需要确保列表中的区间仍然有序且不重叠&#xff08;如果有必要的话&#xff0c;可以合并区间&#xff09;。 示例 1&#xff1a; 输入&#x…...

【数据结构Java版】 初识泛型和包装类

目录 1.包装类 1.1基本数据类型以及它们所对应的包装类 1.2装箱和拆箱 1.3自动装箱和自动拆箱 2.什么是泛型 3.引出泛型 4.泛型类的使用 4.1语法 4.2示例 4.3类型推导 5.泛型是如何编译的 5.1擦除机制 5.2正确的写法 6.泛型的上届 6.1语法 6.2示例 …...

Spring中如何解决循环依赖问题的三种方法

什么是循环依赖问题 在 Spring 中&#xff0c;循环依赖问题指的是两个或多个 bean 之间相互依赖形成的闭环。具体而言&#xff0c;当 bean A 依赖于 bean B&#xff0c;同时 bean B 也依赖于 bean A&#xff0c;就形成了循环依赖。 循环依赖问题在 Spring 容器中是一个非常常…...

【ArcGIS Pro二次开发】(65):进出平衡SHP转TXT、TXT转SHP

最近一个小伙伴提了这么一个需求&#xff0c;需要把TXT和SHP进行互转。 这种TXT文件其实遇到了好几个版本&#xff0c;都有一点小差异。之前已经做过一个TXT转SHP的工具&#xff0c;但好像不适用。于是针对这个版本&#xff0c;做了互转的2个工具。 【SHP转TXT】 一、要实现的…...

Shell开发实践:服务器的磁盘、CPU、内存的占用监控

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年6月CSDN上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师…...

超详细 async和await 项目实战运用(附加文字解答+源码)

文章目录 问题描述async什么是 asyncasync 的作用async 的应用场景async 优点 await什么是 awaitawait 的作用await 的应用场景await 的优点async和 await结合使用 结束语 大家好&#xff01;又到了愉快的周末假期&#xff0c;今天是2023年9月3日|农历七月十九&#xff0c;我最…...

Maven入门教程(三):Maven语法

视频教程&#xff1a;Maven保姆级教程 Maven入门教程(一)&#xff1a;安装Maven环境 Maven入门教程(二)&#xff1a;idea/Eclipse使用Maven Maven入门教程(三)&#xff1a;Maven语法 Maven入门教程(四)&#xff1a;Nexus私服 Maven入门教程(五)&#xff1a;自定义脚手架 6.Mav…...

C++技术点,故事解析

语言的魅力 从人类诞生开始 &#xff0c;南方古猿到现代人类经历了非常多变化&#xff1b; 南方古猿到能人 有什么变化&#xff1f; 能人会使用工具&#xff0c;由于会使用工具 就可以获得肉类食物&#xff0c;当然只能吃一些动物腐肉 直到进化成直立人的晚期&#xff0c;在东…...

数据结构(Java实现)-字符串常量池与通配符

字符串常量池 在Java程序中&#xff0c;类似于&#xff1a;1&#xff0c; 2&#xff0c; 3&#xff0c;3.14&#xff0c;“hello”等字面类型的常量经常频繁使用&#xff0c;为了使程序的运行速度更快、更节省内存&#xff0c;Java为8种基本数据类型和String类都提供了常量池。…...

python强化学习--gym安装与使用

最近开始学习强化学习&#xff0c;第一步肯定是要学会安装和使用pym&#xff0c;原本以为很简单&#xff0c;事实上确实很简单&#xff0c;但是遇到一个小问题&#xff0c;就是安装gym之后&#xff0c;在应用的过程中&#xff0c;游戏界面没有显示出来&#xff0c;了解后才知道…...

105. 从前序与中序遍历序列构造二叉树

给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&#xff0c; inorder 是同一棵树的中序遍历&#xff0c;请构造二叉树并返回其根节点。 思路&#xff1a;题目给出了先序遍历和中序遍历的结果&#xff0c;因为先序遍历遵循根–>左–>…...

(第六天)初识Spring框架-SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录

SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录&#xff08;第六天&#xff09;初识Spring框架 ​ 昨天我们已经把Mybatis框架的基本知识全部学完&#xff0c;内容有Mybatis是一个半自动化的持久层ORM框架&#xff0c;深入学习编写动态SQL&a…...

如何使用『Nginx』配置后端『HTTPS』协议访问

前言 本篇博客主要讲解如何使用 Nginx 部署后端应用接口 SSL 证书&#xff0c;从而实现 HTTPS 协议访问接口&#xff08;本文使用公网 IP 部署&#xff0c;读者可以自行替换为域名&#xff09; 申请证书 须知 请在您的云服务平台申请 SSL 证书&#xff0c;一般来说证书期限…...

Git仓库简介

1、工作区、暂存区、仓库 工作区&#xff1a;电脑里能看到的目录。 暂存区&#xff1a;工作区有一个隐藏目录.git&#xff0c;是Git的版本库&#xff0c;Git的版本库里存了很多东西&#xff0c;其中最重要的就是称为stage&#xff08;或者叫index&#xff09;的暂存区&#xf…...

TensorRTC++ | INT8量化

Int8量化步骤 // 这是基本需要的组件 auto builder = make_nvshared(nvinfer1::createInferBuilder(logger)); auto config = make_nvshared(builder->createBuilderConfig())...

VS + qt环境使用QCustomPlot等三方库如何配置

文章目录 前言VS环境下引入第三方类库QCustomPlot方法一&#xff1a;解决办法&#xff1a; C中.dll与.lib文件的生成与使用1. 两种库&#xff1a;2.两种文件的区别 前言 Qt提供了显式和隐式导入第三方库方法&#xff0c;本文只介绍显示导入方法。 一般的第三方提供的库文件包…...

OS 段页结合的实际内存管理

虚拟内存承接段和页&#xff0c;从用户角度&#xff0c;虚拟内存提供段&#xff0c;从硬件角度&#xff0c;虚拟内存把段打散映射到页 先基于段的翻译&#xff0c;再基于页的翻译 p是pcb跟着进程换&#xff0c;64M一个段&#xff0c;set base就是建段表 因为每个进程虚拟地址…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

业务系统对接大模型的基础方案:架构设计与关键步骤

业务系统对接大模型&#xff1a;架构设计与关键步骤 在当今数字化转型的浪潮中&#xff0c;大语言模型&#xff08;LLM&#xff09;已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中&#xff0c;不仅可以优化用户体验&#xff0c;还能为业务决策提供…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

Xshell远程连接Kali(默认 | 私钥)Note版

前言:xshell远程连接&#xff0c;私钥连接和常规默认连接 任务一 开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务 任务二 修改配置文件 vi /etc/ssh/ssh_config //第一…...

黑马Mybatis

Mybatis 表现层&#xff1a;页面展示 业务层&#xff1a;逻辑处理 持久层&#xff1a;持久数据化保存 在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

React19源码系列之 事件插件系统

事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

spring:实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例&#xff0c;也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下&#xff1a; 定义实例工厂类&#xff08;Java代码&#xff09;&#xff0c;定义实例工厂&#xff08;xml&#xff09;&#xff0c;定义调用实例工厂&#xff…...

【2025年】解决Burpsuite抓不到https包的问题

环境&#xff1a;windows11 burpsuite:2025.5 在抓取https网站时&#xff0c;burpsuite抓取不到https数据包&#xff0c;只显示&#xff1a; 解决该问题只需如下三个步骤&#xff1a; 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

ETLCloud可能遇到的问题有哪些?常见坑位解析

数据集成平台ETLCloud&#xff0c;主要用于支持数据的抽取&#xff08;Extract&#xff09;、转换&#xff08;Transform&#xff09;和加载&#xff08;Load&#xff09;过程。提供了一个简洁直观的界面&#xff0c;以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...