当前位置: 首页 > news >正文

SpringBoot项目通过分词器生成词云

目录

  • 前言
  • 一、词云是什么?
  • 二、使用步骤
    • 1.引入依赖
    • 2.application.yml
    • 3.Controller
    • 4.分词工具类
    • 4.词云生成工具类、支持输出文件和字节流
  • 注意


前言

公司项目涉及到员工任务管理,需要从员工任务中获取任务信息生成个人词云图,可以把员工任务中较为高频的词语突出展示。


一、词云是什么?

词云就是对文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层” 或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

在这里插入图片描述

二、使用步骤

1.引入依赖

<!--   IK分词器    -->
<dependency><groupId>cn.shenyanchao.ik-analyzer</groupId><artifactId>ik-analyzer</artifactId><version>9.0.0</version>
</dependency><!--    詞雲    -->
<dependency><groupId>com.kennycason</groupId><artifactId>kumo-core</artifactId><version>1.28</version>
</dependency><dependency><groupId>com.kennycason</groupId><artifactId>kumo-tokenizers</artifactId><version>1.28</version>
</dependency><!--    web    -->
<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId>
</dependency><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional>
</dependency>

2.application.yml

server:port: 8088# 关闭日志输出 (可选)
logging:level:com.kennycason.kumo.WordCloud: OFF

3.Controller

import com.chendi.mydemo.utils.IkAnalyzerUtils;
import com.chendi.mydemo.utils.WorkCloudUtil;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RestController;import java.util.ArrayList;
import java.util.List;
import java.util.Map;@RestController
public class TestController {@GetMapping("/")public void test() {List<String> list = new ArrayList<>();list.add("爱购物,爱手机,爱电脑,爱上网");list.add("爱学习,爱游戏,爱吃饭,爱睡觉");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("爱上班,爱下班,爱加班,爱翘班");list.add("夏天的阳光明媚灿烂,\n" +"大自然万物生机盎然。\n" +"清晨的微风吹过花丛,\n" +"点缀着青草和蓝天。\n" +"\n" +"蝴蝶翩翩起舞在花间,\n" +"蜜蜂忙碌采集甘甜。\n" +"鸟儿欢快地歌唱着,\n" +"为夏日带来欢欣和欢愉。\n" +"\n" +"海浪轻拍沙滩起伏,\n" +"沙粒细腻温热宜走。\n" +"阳光透过水面璀璨,\n" +"让海洋如银河般流动。\n" +"\n" +"夏日的夜晚星空闪耀,\n" +"月亮洒下银色光晕。\n" +"夏虫的音符演奏着,\n" +"营造出夏夜的美妙。\n" +"\n" +"夏天啊,你是如此迷人,\n" +"给人们带来快乐和欢欣。\n" +"在你的怀抱里,我们尽情享受,\n" +"夏天,你是美丽的季节!");Map<String, Integer> wordMap = IkAnalyzerUtils.wordCloud(list, 0);WorkCloudUtil.generateWriteImage(wordMap);}}

4.分词工具类

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;import java.io.IOException;
import java.io.StringReader;
import java.util.*;/*** 解析工具类*/
public class IkAnalyzerUtils {/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static String wordCloudParsing(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);StringBuilder str = new StringBuilder();result.forEach((k, v) -> {String value = " " + k;str.append(value);});return str.toString().trim();}/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static List<Map<String,Object>> wordCloudList(List<String> list, Integer quantity) {Map<String,Integer> result = wordCloud(list,quantity);List<Map<String,Object>> mapList = new LinkedList<>();result.forEach((k, v) -> {Map<String,Object> map = new HashMap<>(16);map.put("name",k);map.put("value",v);mapList.add(map);});Collections.reverse(mapList);return mapList;}/*** 拆分词云** @param list     需要拆分的词云集合* @param quantity 结果集取的数量*/public static Map<String,Integer> wordCloud(List<String> list, Integer quantity) {StringReader reader = new StringReader(String.join(",", list));IKSegmenter ikSegmenter = new IKSegmenter(reader, true);Map<String, Integer> map = null;try {Lexeme lexeme;map = new HashMap<>(16);while ((lexeme = ikSegmenter.next()) != null) {String str = lexeme.getLexemeText();Integer num = map.get(str);if (num != null && num > 0) {map.put(str, num + 1);} else {map.put(str, 1);}}reader.close();} catch (IOException e) {e.printStackTrace();}Map<String, Integer> result = new LinkedHashMap<>();if (quantity != null && quantity > 0) {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).limit(quantity).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));} else {map.entrySet().stream().sorted(Map.Entry.comparingByValue()).forEachOrdered(item -> result.put(item.getKey(), item.getValue()));}return result;}
}

4.词云生成工具类、支持输出文件和字节流

import com.kennycason.kumo.CollisionMode;
import com.kennycason.kumo.WordCloud;
import com.kennycason.kumo.WordFrequency;
import com.kennycason.kumo.bg.CircleBackground;
import com.kennycason.kumo.font.KumoFont;
import com.kennycason.kumo.font.scale.SqrtFontScalar;
import com.kennycason.kumo.nlp.FrequencyAnalyzer;
import com.kennycason.kumo.nlp.tokenizers.ChineseWordTokenizer;
import com.kennycason.kumo.palette.ColorPalette;
import lombok.SneakyThrows;import java.awt.*;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;public class WorkCloudUtil {@SneakyThrowspublic static InputStream generateImageStream(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);//输出字节流ByteArrayOutputStream out =new ByteArrayOutputStream();wordCloud.writeToStreamAsPNG(out);return new ByteArrayInputStream(out.toByteArray());}@SneakyThrowspublic static void generateWriteImage(Map<String, Integer> wordMap) {WordCloud wordCloud = generateWordCloud(wordMap);wordCloud.writeToFile("D:\\chendi\\cd.png");}public static WordCloud generateWordCloud(Map<String, Integer> wordMap){if (wordMap == null || wordMap.size() == 0) {return null;}final FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();frequencyAnalyzer.setWordFrequenciesToReturn(600);frequencyAnalyzer.setMinWordLength(2);frequencyAnalyzer.setWordTokenizer(new ChineseWordTokenizer());final List<WordFrequency> wordFrequencies = new ArrayList<>();for (Map.Entry<String, Integer> entry : wordMap.entrySet()) {wordFrequencies.add(new WordFrequency(entry.getKey(), entry.getValue()));}Font font = FontUtil.getFont("/static/fonts/QingNiaoHuaGuangJianMeiHei-2.ttf");//设置图片分辨率final Dimension dimension = new Dimension(400, 400);//此处的设置采用内置常量即可,生成词云对象final WordCloud wordCloud = new WordCloud(dimension, CollisionMode.PIXEL_PERFECT);//设置边界及字体wordCloud.setPadding(2);wordCloud.setBackgroundColor(Color.WHITE);//设置背景图层为圆形,设置圆形的大小wordCloud.setBackground(new CircleBackground(200));//设置词云显示的三种颜色,越靠前设置表示词频越高的词语的颜色wordCloud.setColorPalette(new ColorPalette(new Color(0x4055F1), new Color(0x408DF1), new Color(0x40AAF1), new Color(0x40C5F1), new Color(0x40D3F1), new Color(0xFFFFFF)));//设置字体的大小wordCloud.setFontScalar(new SqrtFontScalar(10, 40));wordCloud.setKumoFont(new KumoFont(font));wordCloud.build(wordFrequencies);//设置背景图片,如果想要固定的形状,就插入这个形状的图片//wordCloud.setBackground(new PixelBoundryBackground("E:\\星星/star.jpg"));return wordCloud;}}

注意

处理中文需要宿主机有中文字体包、如果宿主机不支持中文,请下载一个中文字体包

本文指定使用的就是QingNiaoHuaGuangJianMeiHei-2.ttf字体

百度一下、找不到私信我发你QingNiaoHuaGuangJianMeiHei-2.ttf字体包

相关文章:

SpringBoot项目通过分词器生成词云

目录 前言一、词云是什么&#xff1f;二、使用步骤1.引入依赖2.application.yml3.Controller4.分词工具类4.词云生成工具类、支持输出文件和字节流 注意 前言 公司项目涉及到员工任务管理&#xff0c;需要从员工任务中获取任务信息生成个人词云图&#xff0c;可以把员工任务中…...

Nacos 配置管理及相关使用

文章目录 Nacos 配置管理一、统一配置管理1、在Nacos 中添加配置文件2、从微服务拉取配置3、配置实现步骤&#xff08;1&#xff09;引入 nacos-config 依赖&#xff08;2&#xff09;添加 bootstrap.yml&#xff08;4&#xff09;在 nacos 中添加配置 二、配置热更新1、配置热…...

重发布与路由策略

华子目录 重发布重发布条件重发布配置规则重发布名词配置命令ospf往rip重发布&#xff08;重发布动态&#xff09;静态往rip重发布&#xff08;重发布静态&#xff09;直连往rip重发布&#xff08;重发布直连&#xff09;rip往ospf重发布&#xff08;重发布动态&#xff09;静态…...

57. 插入区间(C++题解)

57. 插入区间 插入区间 给你一个无重叠的 &#xff0c;按照区间起始端点排序的区间列表。 在列表中插入一个新的区间&#xff0c;你需要确保列表中的区间仍然有序且不重叠&#xff08;如果有必要的话&#xff0c;可以合并区间&#xff09;。 示例 1&#xff1a; 输入&#x…...

【数据结构Java版】 初识泛型和包装类

目录 1.包装类 1.1基本数据类型以及它们所对应的包装类 1.2装箱和拆箱 1.3自动装箱和自动拆箱 2.什么是泛型 3.引出泛型 4.泛型类的使用 4.1语法 4.2示例 4.3类型推导 5.泛型是如何编译的 5.1擦除机制 5.2正确的写法 6.泛型的上届 6.1语法 6.2示例 …...

Spring中如何解决循环依赖问题的三种方法

什么是循环依赖问题 在 Spring 中&#xff0c;循环依赖问题指的是两个或多个 bean 之间相互依赖形成的闭环。具体而言&#xff0c;当 bean A 依赖于 bean B&#xff0c;同时 bean B 也依赖于 bean A&#xff0c;就形成了循环依赖。 循环依赖问题在 Spring 容器中是一个非常常…...

【ArcGIS Pro二次开发】(65):进出平衡SHP转TXT、TXT转SHP

最近一个小伙伴提了这么一个需求&#xff0c;需要把TXT和SHP进行互转。 这种TXT文件其实遇到了好几个版本&#xff0c;都有一点小差异。之前已经做过一个TXT转SHP的工具&#xff0c;但好像不适用。于是针对这个版本&#xff0c;做了互转的2个工具。 【SHP转TXT】 一、要实现的…...

Shell开发实践:服务器的磁盘、CPU、内存的占用监控

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年6月CSDN上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师…...

超详细 async和await 项目实战运用(附加文字解答+源码)

文章目录 问题描述async什么是 asyncasync 的作用async 的应用场景async 优点 await什么是 awaitawait 的作用await 的应用场景await 的优点async和 await结合使用 结束语 大家好&#xff01;又到了愉快的周末假期&#xff0c;今天是2023年9月3日|农历七月十九&#xff0c;我最…...

Maven入门教程(三):Maven语法

视频教程&#xff1a;Maven保姆级教程 Maven入门教程(一)&#xff1a;安装Maven环境 Maven入门教程(二)&#xff1a;idea/Eclipse使用Maven Maven入门教程(三)&#xff1a;Maven语法 Maven入门教程(四)&#xff1a;Nexus私服 Maven入门教程(五)&#xff1a;自定义脚手架 6.Mav…...

C++技术点,故事解析

语言的魅力 从人类诞生开始 &#xff0c;南方古猿到现代人类经历了非常多变化&#xff1b; 南方古猿到能人 有什么变化&#xff1f; 能人会使用工具&#xff0c;由于会使用工具 就可以获得肉类食物&#xff0c;当然只能吃一些动物腐肉 直到进化成直立人的晚期&#xff0c;在东…...

数据结构(Java实现)-字符串常量池与通配符

字符串常量池 在Java程序中&#xff0c;类似于&#xff1a;1&#xff0c; 2&#xff0c; 3&#xff0c;3.14&#xff0c;“hello”等字面类型的常量经常频繁使用&#xff0c;为了使程序的运行速度更快、更节省内存&#xff0c;Java为8种基本数据类型和String类都提供了常量池。…...

python强化学习--gym安装与使用

最近开始学习强化学习&#xff0c;第一步肯定是要学会安装和使用pym&#xff0c;原本以为很简单&#xff0c;事实上确实很简单&#xff0c;但是遇到一个小问题&#xff0c;就是安装gym之后&#xff0c;在应用的过程中&#xff0c;游戏界面没有显示出来&#xff0c;了解后才知道…...

105. 从前序与中序遍历序列构造二叉树

给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&#xff0c; inorder 是同一棵树的中序遍历&#xff0c;请构造二叉树并返回其根节点。 思路&#xff1a;题目给出了先序遍历和中序遍历的结果&#xff0c;因为先序遍历遵循根–>左–>…...

(第六天)初识Spring框架-SSM框架的学习与应用(Spring + Spring MVC + MyBatis)-Java EE企业级应用开发学习记录

SSM框架的学习与应用(Spring Spring MVC MyBatis)-Java EE企业级应用开发学习记录&#xff08;第六天&#xff09;初识Spring框架 ​ 昨天我们已经把Mybatis框架的基本知识全部学完&#xff0c;内容有Mybatis是一个半自动化的持久层ORM框架&#xff0c;深入学习编写动态SQL&a…...

如何使用『Nginx』配置后端『HTTPS』协议访问

前言 本篇博客主要讲解如何使用 Nginx 部署后端应用接口 SSL 证书&#xff0c;从而实现 HTTPS 协议访问接口&#xff08;本文使用公网 IP 部署&#xff0c;读者可以自行替换为域名&#xff09; 申请证书 须知 请在您的云服务平台申请 SSL 证书&#xff0c;一般来说证书期限…...

Git仓库简介

1、工作区、暂存区、仓库 工作区&#xff1a;电脑里能看到的目录。 暂存区&#xff1a;工作区有一个隐藏目录.git&#xff0c;是Git的版本库&#xff0c;Git的版本库里存了很多东西&#xff0c;其中最重要的就是称为stage&#xff08;或者叫index&#xff09;的暂存区&#xf…...

TensorRTC++ | INT8量化

Int8量化步骤 // 这是基本需要的组件 auto builder = make_nvshared(nvinfer1::createInferBuilder(logger)); auto config = make_nvshared(builder->createBuilderConfig())...

VS + qt环境使用QCustomPlot等三方库如何配置

文章目录 前言VS环境下引入第三方类库QCustomPlot方法一&#xff1a;解决办法&#xff1a; C中.dll与.lib文件的生成与使用1. 两种库&#xff1a;2.两种文件的区别 前言 Qt提供了显式和隐式导入第三方库方法&#xff0c;本文只介绍显示导入方法。 一般的第三方提供的库文件包…...

OS 段页结合的实际内存管理

虚拟内存承接段和页&#xff0c;从用户角度&#xff0c;虚拟内存提供段&#xff0c;从硬件角度&#xff0c;虚拟内存把段打散映射到页 先基于段的翻译&#xff0c;再基于页的翻译 p是pcb跟着进程换&#xff0c;64M一个段&#xff0c;set base就是建段表 因为每个进程虚拟地址…...

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…...

遍历 Map 类型集合的方法汇总

1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

mongodb源码分析session执行handleRequest命令find过程

mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程&#xff0c;并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令&#xff0c;把数据流转换成Message&#xff0c;状态转变流程是&#xff1a;State::Created 》 St…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备 ​​工具安装​​&#xff1a; 下载安装DevEco Studio 4.0&#xff08;支持HarmonyOS 5&#xff09;配置HarmonyOS SDK 5.0确保Node.js版本≥14 ​​项目初始化​​&#xff1a; ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

Neo4j 集群管理:原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

EtherNet/IP转DeviceNet协议网关详解

一&#xff0c;设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络&#xff0c;本网关连接到EtherNet/IP总线中做为从站使用&#xff0c;连接到DeviceNet总线中做为从站使用。 在自动…...

第 86 场周赛:矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵&#xff0c;其中每行&#xff0c;每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的row x col 的 grid&#xff0c;其中有多少个 3 3 的 “幻方” 子矩阵&am…...

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类 二者共有的常见方法 方法功能add加subtract减multiply乘divide除 注意点&#xff1a;传参类型必须是类对象 一、BigInteger 1. 作用&#xff1a;适合保存比较大的整型数 2. 使用说明 创建BigInteger对象 传入字符串 3. 代码示例 import j…...

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能&#xff1a;服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

JS设计模式(4):观察者模式

JS设计模式(4):观察者模式 一、引入 在开发中&#xff0c;我们经常会遇到这样的场景&#xff1a;一个对象的状态变化需要自动通知其他对象&#xff0c;比如&#xff1a; 电商平台中&#xff0c;商品库存变化时需要通知所有订阅该商品的用户&#xff1b;新闻网站中&#xff0…...