SpringBoot项目通过分词器生成词云
目录
- 前言
- 一、词云是什么?
- 二、使用步骤
- 1.引入依赖
- 2.application.yml
- 3.Controller
- 4.分词工具类
- 4.词云生成工具类、支持输出文件和字节流
- 注意
前言
公司项目涉及到员工任务管理,需要从员工任务中获取任务信息生成个人词云图,可以把员工任务中较为高频的词语突出展示。
一、词云是什么?
词云就是对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层” 或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

二、使用步骤
1.引入依赖
<!-- IK分词器 -->
<dependency><groupId>cn.shenyanchao.ik-analyzer</groupId><artifactId>ik-analyzer</artifactId><version>9.0.0</version>
</dependency><!-- 詞雲 -->
<dependency><groupId>com.kennycason</groupId><artifactId>kumo-core</artifactId><version>1.28</version>
</dependency><dependency><groupId>com.kennycason</groupId><artifactId>kumo-tokenizers</artifactId><version>1.28</version>
</dependency><!-- web -->
<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId>
</dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional>
</dependency>
2.application.yml
server:port: 8088# 关闭日志输出 (可选)
logging:level:com.kennycason.kumo.WordCloud: OFF
3.Controller
import com.chendi.mydemo.utils.IkAnalyzerUtils;
import com.chendi.mydemo.utils.WorkCloudUtil;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;import java.util.ArrayList;
import java.util.List;
import java.util.Map;@RestController
public class TestController {@GetMapping("/")public void test() {List<String> list = new ArrayList<>();list.add("爱购物,爱手机,爱电脑,爱上网");list.add("爱学习,爱游戏,爱吃饭,爱睡觉");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("夏天的阳光明媚灿烂,\n" +"大自然万物生机盎然。\n" +"清晨的微风吹过花丛,\n" +"点缀着青草和蓝天。\n" +"\n" +"蝴蝶翩翩起舞在花间,\n" +"蜜蜂忙碌采集甘甜。\n" +"鸟儿欢快地歌唱着,\n" +"为夏日带来欢欣和欢愉。\n" +"\n" +"海浪轻拍沙滩起伏,\n" +"沙粒细腻温热宜走。\n" +"阳光透过水面璀璨,\n" +"让海洋如银河般流动。\n" +"\n" +"夏日的夜晚星空闪耀,\n" +"月亮洒下银色光晕。\n" +"夏虫的音符演奏着,\n" +"营造出夏夜的美妙。\n" +"\n" +"夏天啊,你是如此迷人,\n" +"给人们带来快乐和欢欣。\n" +"在你的怀抱里,我们尽情享受,\n" +"夏天,你是美丽的季节!");Map<String, Integer> wordMap = IkAnalyzerUtils.wordCloud(list, 0);WorkCloudUtil.generateWriteImage(wordMap);}}
4.分词工具类
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;import java.io.IOException;
import java.io.StringReader;
import java.util.*;/*** 解析工具类*/
public class IkAnalyzerUtils {/*** 拆分词云** @param list 需要拆分的词云集合* @param quantity 结果集取的数量*/public static String wordCloudParsing(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);StringBuilder str = new StringBuilder();result.forEach((k, v) -> {String value = " " + k;str.append(value);});return str.toString().trim();}/*** 拆分词云** @param list 需要拆分的词云集合* @param quantity 结果集取的数量*/public static List<Map<String,Object>> wordCloudList(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);List<Map<String,Object>> mapList = new LinkedList<>();result.forEach((k, v) -> {Map<String,Object> map = new HashMap<>(16);map.put("name",k);map.put("value",v);mapList.add(map);});Collections.reverse(mapList);return mapList;}/*** 拆分词云** @param list 需要拆分的词云集合* @param quantity 结果集取的数量*/public static Map<String,Integer> wordCloud(List<String> list, Integer quantity) {StringReader reader = new StringReader(String.join(",", list));IKSegmenter ikSegmenter = new IKSegmenter(reader, true);Map<String, Integer> map = null;try {Lexeme lexeme;map = new HashMap<>(16);while ((lexeme = ikSegmenter.next()) != null) {String str = lexeme.getLexemeText();Integer num = map.get(str);if (num != null && num > 0) {map.put(str, num + 1);} else {map.put(str, 1);}}reader.close();} catch (IOException e) {e.printStackTrace();}Map<String, Integer> result = new LinkedHashMap<>();if (quantity != null && quantity > 0) {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).limit(quantity).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));} else {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));}return result;}
}
4.词云生成工具类、支持输出文件和字节流
import com.kennycason.kumo.CollisionMode;
import com.kennycason.kumo.WordCloud;
import com.kennycason.kumo.WordFrequency;
import com.kennycason.kumo.bg.CircleBackground;
import com.kennycason.kumo.font.KumoFont;
import com.kennycason.kumo.font.scale.SqrtFontScalar;
import com.kennycason.kumo.nlp.FrequencyAnalyzer;
import com.kennycason.kumo.nlp.tokenizers.ChineseWordTokenizer;
import com.kennycason.kumo.palette.ColorPalette;
import lombok.SneakyThrows;import java.awt.*;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;public class WorkCloudUtil {@SneakyThrowspublic static InputStream generateImageStream(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);//输出字节流ByteArrayOutputStream out =new ByteArrayOutputStream();wordCloud.writeToStreamAsPNG(out);return new ByteArrayInputStream(out.toByteArray());}@SneakyThrowspublic static void generateWriteImage(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);wordCloud.writeToFile("D:\\chendi\\cd.png");}public static WordCloud generateWordCloud(Map<String, Integer> wordMap){if (wordMap == null || wordMap.size() == 0) {return null;}final FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();frequencyAnalyzer.setWordFrequenciesToReturn(600);frequencyAnalyzer.setMinWordLength(2);frequencyAnalyzer.setWordTokenizer(new ChineseWordTokenizer());final List<WordFrequency> wordFrequencies = new ArrayList<>();for (Map.Entry<String, Integer> entry : wordMap.entrySet()) {wordFrequencies.add(new WordFrequency(entry.getKey(), entry.getValue()));}Font font = FontUtil.getFont("/static/fonts/QingNiaoHuaGuangJianMeiHei-2.ttf");//设置图片分辨率final Dimension dimension = new Dimension(400, 400);//此处的设置采用内置常量即可,生成词云对象final WordCloud wordCloud = new WordCloud(dimension, CollisionMode.PIXEL_PERFECT);//设置边界及字体wordCloud.setPadding(2);wordCloud.setBackgroundColor(Color.WHITE);//设置背景图层为圆形,设置圆形的大小wordCloud.setBackground(new CircleBackground(200));//设置词云显示的三种颜色,越靠前设置表示词频越高的词语的颜色wordCloud.setColorPalette(new ColorPalette(new Color(0x4055F1), new Color(0x408DF1), new Color(0x40AAF1), new Color(0x40C5F1), new Color(0x40D3F1), new Color(0xFFFFFF)));//设置字体的大小wordCloud.setFontScalar(new SqrtFontScalar(10, 40));wordCloud.setKumoFont(new KumoFont(font));wordCloud.build(wordFrequencies);//设置背景图片,如果想要固定的形状,就插入这个形状的图片//wordCloud.setBackground(new PixelBoundryBackground("E:\\星星/star.jpg"));return wordCloud;}}
注意
处理中文需要宿主机有中文字体包、如果宿主机不支持中文,请下载一个中文字体包
本文指定使用的就是QingNiaoHuaGuangJianMeiHei-2.ttf字体
百度一下、找不到私信我发你QingNiaoHuaGuangJianMeiHei-2.ttf字体包
相关文章:
SpringBoot项目通过分词器生成词云
目录 前言一、词云是什么?二、使用步骤1.引入依赖2.application.yml3.Controller4.分词工具类4.词云生成工具类、支持输出文件和字节流 注意 前言 公司项目涉及到员工任务管理,需要从员工任务中获取任务信息生成个人词云图,可以把员工任务中…...
Nacos 配置管理及相关使用
文章目录 Nacos 配置管理一、统一配置管理1、在Nacos 中添加配置文件2、从微服务拉取配置3、配置实现步骤(1)引入 nacos-config 依赖(2)添加 bootstrap.yml(4)在 nacos 中添加配置 二、配置热更新1、配置热…...
重发布与路由策略
华子目录 重发布重发布条件重发布配置规则重发布名词配置命令ospf往rip重发布(重发布动态)静态往rip重发布(重发布静态)直连往rip重发布(重发布直连)rip往ospf重发布(重发布动态)静态…...
57. 插入区间(C++题解)
57. 插入区间 插入区间 给你一个无重叠的 ,按照区间起始端点排序的区间列表。 在列表中插入一个新的区间,你需要确保列表中的区间仍然有序且不重叠(如果有必要的话,可以合并区间)。 示例 1: 输入&#x…...
【数据结构Java版】 初识泛型和包装类
目录 1.包装类 1.1基本数据类型以及它们所对应的包装类 1.2装箱和拆箱 1.3自动装箱和自动拆箱 2.什么是泛型 3.引出泛型 4.泛型类的使用 4.1语法 4.2示例 4.3类型推导 5.泛型是如何编译的 5.1擦除机制 5.2正确的写法 6.泛型的上届 6.1语法 6.2示例 …...
Spring中如何解决循环依赖问题的三种方法
什么是循环依赖问题 在 Spring 中,循环依赖问题指的是两个或多个 bean 之间相互依赖形成的闭环。具体而言,当 bean A 依赖于 bean B,同时 bean B 也依赖于 bean A,就形成了循环依赖。 循环依赖问题在 Spring 容器中是一个非常常…...
【ArcGIS Pro二次开发】(65):进出平衡SHP转TXT、TXT转SHP
最近一个小伙伴提了这么一个需求,需要把TXT和SHP进行互转。 这种TXT文件其实遇到了好几个版本,都有一点小差异。之前已经做过一个TXT转SHP的工具,但好像不适用。于是针对这个版本,做了互转的2个工具。 【SHP转TXT】 一、要实现的…...
Shell开发实践:服务器的磁盘、CPU、内存的占用监控
🏆作者简介,黑夜开发者,CSDN领军人物,全栈领域优质创作者✌,CSDN博客专家,阿里云社区专家博主,2023年6月CSDN上海赛道top4。 🏆数年电商行业从业经验,历任核心研发工程师…...
超详细 async和await 项目实战运用(附加文字解答+源码)
文章目录 问题描述async什么是 asyncasync 的作用async 的应用场景async 优点 await什么是 awaitawait 的作用await 的应用场景await 的优点async和 await结合使用 结束语 大家好!又到了愉快的周末假期,今天是2023年9月3日|农历七月十九,我最…...
Maven入门教程(三):Maven语法
视频教程:Maven保姆级教程 Maven入门教程(一):安装Maven环境 Maven入门教程(二):idea/Eclipse使用Maven Maven入门教程(三):Maven语法 Maven入门教程(四):Nexus私服 Maven入门教程(五):自定义脚手架 6.Mav…...
C++技术点,故事解析
语言的魅力 从人类诞生开始 ,南方古猿到现代人类经历了非常多变化; 南方古猿到能人 有什么变化? 能人会使用工具,由于会使用工具 就可以获得肉类食物,当然只能吃一些动物腐肉 直到进化成直立人的晚期,在东…...
数据结构(Java实现)-字符串常量池与通配符
字符串常量池 在Java程序中,类似于:1, 2, 3,3.14,“hello”等字面类型的常量经常频繁使用,为了使程序的运行速度更快、更节省内存,Java为8种基本数据类型和String类都提供了常量池。…...
python强化学习--gym安装与使用
最近开始学习强化学习,第一步肯定是要学会安装和使用pym,原本以为很简单,事实上确实很简单,但是遇到一个小问题,就是安装gym之后,在应用的过程中,游戏界面没有显示出来,了解后才知道…...
105. 从前序与中序遍历序列构造二叉树
给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的中序遍历,请构造二叉树并返回其根节点。 思路:题目给出了先序遍历和中序遍历的结果,因为先序遍历遵循根–>左–>…...
(第六天)初识Spring框架-SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录
SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录(第六天)初识Spring框架 昨天我们已经把Mybatis框架的基本知识全部学完,内容有Mybatis是一个半自动化的持久层ORM框架,深入学习编写动态SQL&a…...
如何使用『Nginx』配置后端『HTTPS』协议访问
前言 本篇博客主要讲解如何使用 Nginx 部署后端应用接口 SSL 证书,从而实现 HTTPS 协议访问接口(本文使用公网 IP 部署,读者可以自行替换为域名) 申请证书 须知 请在您的云服务平台申请 SSL 证书,一般来说证书期限…...
Git仓库简介
1、工作区、暂存区、仓库 工作区:电脑里能看到的目录。 暂存区:工作区有一个隐藏目录.git,是Git的版本库,Git的版本库里存了很多东西,其中最重要的就是称为stage(或者叫index)的暂存区…...
TensorRTC++ | INT8量化
Int8量化步骤 // 这是基本需要的组件 auto builder = make_nvshared(nvinfer1::createInferBuilder(logger)); auto config = make_nvshared(builder->createBuilderConfig())...
VS + qt环境使用QCustomPlot等三方库如何配置
文章目录 前言VS环境下引入第三方类库QCustomPlot方法一:解决办法: C中.dll与.lib文件的生成与使用1. 两种库:2.两种文件的区别 前言 Qt提供了显式和隐式导入第三方库方法,本文只介绍显示导入方法。 一般的第三方提供的库文件包…...
OS 段页结合的实际内存管理
虚拟内存承接段和页,从用户角度,虚拟内存提供段,从硬件角度,虚拟内存把段打散映射到页 先基于段的翻译,再基于页的翻译 p是pcb跟着进程换,64M一个段,set base就是建段表 因为每个进程虚拟地址…...
超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
Spark 之 入门讲解详细版(1)
1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处&…...
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
Cesium1.95中高性能加载1500个点
一、基本方式: 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...
【git】把本地更改提交远程新分支feature_g
创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...
自然语言处理——Transformer
自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...
Map相关知识
数据结构 二叉树 二叉树,顾名思义,每个节点最多有两个“叉”,也就是两个子节点,分别是左子 节点和右子节点。不过,二叉树并不要求每个节点都有两个子节点,有的节点只 有左子节点,有的节点只有…...
听写流程自动化实践,轻量级教育辅助
随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...
ubuntu22.04有线网络无法连接,图标也没了
今天突然无法有线网络无法连接任何设备,并且图标都没了 错误案例 往上一顿搜索,试了很多博客都不行,比如 Ubuntu22.04右上角网络图标消失 最后解决的办法 下载网卡驱动,重新安装 操作步骤 查看自己网卡的型号 lspci | gre…...
