当前位置: 首页 > news >正文

Python 绘图进阶之词云图:文本数据的可视化艺术

Python 绘图进阶之词云图:文本数据的可视化艺术

引言

在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题和关键词。词云图不仅在学术研究中有广泛应用,还经常用于展示新闻文章、社交媒体内容和演讲稿等文本的分析结果。本文将带你深入探讨如何使用 Python 绘制词云图,并通过实例展示它的实际应用场景。

一、词云图的基本概念

词云图是一种图形化的表示方式,它将文本数据中的单词根据出现频率的不同以不同的大小和颜色展示。通常,词汇出现的频率越高,其在词云图中的字体就越大、位置越显眼。通过词云图,用户可以一目了然地获取文本中的关键信息。

二、使用 Python 绘制词云图

Python 提供了多个绘制词云图的库,其中 WordCloud 是最为常用的一个。通过这个库,我们可以轻松创建自定义的词云图,并对其进行多样化的设置。

1. 安装所需库

首先,我们需要安装绘制词云图所需的库。如果尚未安装,请运行以下命令:

pip install wordcloud matplotlib

2. 绘制基本的词云图

接下来,我们来绘制一个简单的词云图。假设我们有一段文本,想要分析其中的高频词汇。

示例代码

from wordcloud import WordCloud
import matplotlib.pyplot as plt# 示例文本
text = "Python is a great programming language. Python can be used for data science, machine learning, and more."# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')  # 关闭坐标轴
plt.show()

在这里插入图片描述

在这个简单的示例中,我们使用一段文本生成了一个基本的词云图。WordCloud 类提供了多种参数,如 widthheightbackground_color 等,方便用户自定义词云图的样式。

3. 从文件读取文本并生成词云图

在实际应用中,我们通常需要从文件(如文本文件或 CSV 文件)中读取内容并生成词云图。下面的示例展示了如何从文件中读取文本并创建词云图。

示例代码

# 从文件读取文本
with open('sample_text.txt', 'r', encoding='utf-8') as file:text = file.read()# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这里插入图片描述

在这个示例中,我们从文本文件 sample_text.txt 中读取了数据,并生成了对应的词云图。这样可以方便地处理更大规模的文本数据。

三、词云图的高级用法

1. 自定义词云图的形状

词云图的形状是可以自定义的,我们可以通过使用掩模(mask)图像来创建不同形状的词云图。

示例代码

from PIL import Image
import numpy as np# 读取掩模图像
mask = np.array(Image.open('cloud_shape.png'))# 生成词云图,使用掩模图像作为形状
wordcloud = WordCloud(width=800, height=400, background_color='white', mask=mask).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这里插入图片描述

在这个示例中,我们使用了一个云形的掩模图像 cloud_shape.png,并生成了对应形状的词云图,也就是心型的图。通过这种方式,词云图可以更具视觉吸引力和趣味性。

2. 自定义词云图的颜色

除了形状外,我们还可以自定义词云图中词汇的颜色,使得词云图更加美观和符合主题。

示例代码

from wordcloud import STOPWORDS# 自定义颜色函数
def custom_color_func(word, font_size, position, orientation, random_state=None, **kwargs):return "hsl(200, 100%%, %d%%)" % np.random.randint(30, 70)# 生成词云图,使用自定义颜色
wordcloud = WordCloud(width=800, height=400, background_color='white', color_func=custom_color_func, stopwords=STOPWORDS).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这里插入图片描述

这里我们定义了一个自定义的颜色函数 custom_color_func,并在生成词云图时使用了该函数,从而使词云图的词汇颜色按照特定的规律变化。

四、实战案例:分析新闻文章的关键词

假设我们从新闻网站抓取了一篇新闻文章,希望通过词云图来展示其中的关键词。

案例代码

# 从文件读取新闻文章
with open('news_article.txt', 'r', encoding='utf-8') as file:article_text = file.read()# 生成新闻文章的词云图
wordcloud = WordCloud(width=800, height=400, background_color='white', stopwords=STOPWORDS).generate(article_text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这里插入图片描述

在这个实战案例中,词云图展示了新闻文章中的高频词汇,可以帮助我们快速了解文章的主要内容和主题。

五、总结

词云图作为一种直观的文本数据可视化方法,能够帮助我们快速获取文本中的关键信息。通过本文的介绍,你应该已经掌握了如何使用 Python 中的 WordCloud 库生成和自定义词云图。在实际项目中,词云图可以用于分析各类文本数据,如社交媒体评论、产品评价、研究文献等,帮助你快速洞察数据背后的故事。


免费下载:
代码和数据免费下载请关注后私信“cloud”即可获得。

相关文章:

Python 绘图进阶之词云图:文本数据的可视化艺术

Python 绘图进阶之词云图:文本数据的可视化艺术 引言 在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题…...

【Windows】Q-Dir(资源管理器)软件介绍

软件介绍 Q-Dir是一款免费的文件管理器软件,它可以让您更方便地浏览和管理计算机上的文件和文件夹。与Windows自带的资源管理器相比,Q-Dir具有更多的功能和选项。 安装教程 软件下载完成,解压软件。 点击Q-Dir.exe即可打开软件。 功能…...

什么是令牌桶算法?工作原理是什么?使用它有哪些优点和注意事项?

大家好,我是鸭鸭! 此答案节选自鸭鸭最近弄的面试刷题神器面试鸭 ,更多大厂常问面试题,可以点击下面的小程序进行阅读哈! 目前这个面试刷题小程序刚出,有网页和小程序双端可以使用! 回归面试题…...

C++-类与对象(中上篇)

一、目标 1. 类的 6 个默认成员函数 2. 构造函数 3. 析构函数 二、对目标的介绍 1. 类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都没有吗?并不是,任何类在什么都不写时,编译器会自动生…...

链表 206.反转链表

一般方法 不需要一个个来回换,只需要改变链表的指向,即可完成 一个链表的头节点,也代表了整个链表 class Solution {public ListNode reverseList(ListNode head) {ListNode temp;ListNode cur head;ListNode pre null;while(cur ! null…...

Ubuntu18.04 配置EtherCAT主站IGH SOEM

IGH IGH 是开源的EtherCAT 主站软件 一、安装依赖 sudo apt update sudo apt install build-essential linux-headers-$(uname -r) mercurial autoconf libtool 也不知道安装的完全不完全 uname -r 可以查看内核,我安装的ubuntu18.04的内核版本是 5.4.0-84-gen…...

航空航天构型管理

构型管理(CM)被定义为在产品的生命周期中应用的SE技术和管理规程。CM的五个原则是:CM计划与执行、配置识别、配置变更和差异控制、配置状态核算和配置验证。 广义上的构型管理规划和管理是有效实施配置管理的关键。特别是在不同项目之间的差异中,构型管理…...

Visual Studio Code 安装与 C/C++ 语言运行总结

​ 大家好,我是程序员小羊! 前言: Visual Studio Code(简称 VS Code)是由微软开发的一款轻量级、强大的代码编辑器,支持多种编程语言和开发框架。由于其丰富的插件生态系统和灵活的配置选项,VS…...

Science Robotics 受鳞片启发的可编程机器人结构,可同时进行形状变形和刚度变化

一、前言速览 生物有机体通常凭借复杂的结构表现出显著的多功能性,例如章鱼具有可以同时改变形状和刚度的能力。现有的仿生软体机器人要想实现这样的能力,往往需要繁琐的结构和复杂的控制系统。为此,来自新加坡南洋理工大学的研究人员从覆盖…...

SpringBoot 自定义 Starter 实现

一、定义,什么是Starter SpringBoot Starter 是”一站式服务(one-stop service)“的依赖 Jar 包: 包含 Spring 以及相关技术(比如Redis)的所有依赖提供了自动配置的功能,开箱即用提供了良好的…...

「Spring MVC」Session、Cookie

🎇个人主页:Ice_Sugar_7 🎇所属专栏:JavaEE 🎇欢迎点赞收藏加关注哦! Spring MVC 🍉Session & Cookie🍌联系与区别 🍉获取 Cookie🍉存储 & 获取 Sess…...

Java虚拟机:垃圾回收器

大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 037 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进一步完善自己对整个 Java 技术体系来充实自…...

ES6-ES13学习笔记

初识ES6 ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语言。 1997年:EC…...

【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置

【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置 文章目录 控件安装和模块导入在ui上添加QChartView控件QChartView图表配置附录:C语言到C的入门知识点(主要适用于C语言精通到Qt的C开发入门)C语言与C的不同C中写C语言代码…...

Android14 屏幕录制(屏幕投影)和音频播放采集

Android 5开始支持屏幕采集, Android 10支持音频播放采集&#xff0c;不过Android 14用前台服务做屏幕录制时要增加一些处理. 1. app manifest 需要增加: <manifest><uses-permission android:name"android.permission.FOREGROUND_SERVICE" /><uses…...

一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶

一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 文章目录 前言一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 一、HKELM模型1. 极限学习机&#xff08;ELM&#xff0…...

redis面试(十五)公平锁队列重排

队列重拍 先说一下当前的加锁状态 anyLock由客户端A持有队列中是客户端B、客户端C并且客户端B现在是排在头部 那么队列重拍就是队列中某个客户端长时间没有重新申请加锁&#xff0c;没有刷新分数&#xff0c;就会被队列中挤掉。 假设这个长时间没有加锁的客户端是B。 总结 …...

python 基础语法os模块

一、os模块 待总结 二、os.path模块 1.abspath()方法--获取绝对路径 abspathO)方法用于返回文件或者目录的绝对路径。 语法格式如下: os .path.abspath(path) 参数说明: path:表示要获取绝对路径的相对路径&#xff0c;可以是文件也可以是目录。 返回值:返回获取到的绝…...

图论------迪杰斯特拉(Dijkstra)算法求单源最短路径。

编程要求 在图的应用中&#xff0c;有一个很重要的需求&#xff1a;我们需要知道从某一个点开始&#xff0c;到其他所有点的最短路径。这其中&#xff0c;Dijkstra 算法是典型的最短路径算法。 本关的编程任务是补全右侧代码片段中 Begin 至 End 中间的代码&#xff0c;实现 …...

河工院首届工业设计大赛程序组(挑战赛)题解

更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 寻找ACMer 思想&#xff1a; 签到题按照题意遍历字符串&#xff0c;不断向后寻找包含 ACMer 完整字符串的数量即可 std标程&#xff1a; #include <iostream> #include <cstring> #include …...

概率神经网络的分类预测:基于PNN网络的变压器故障诊断应用研究及对比实验(附Matlab源代码...

概率神经网络的分类预测 基于pnn网络变压器故障诊断 应用研究及对比实验 matlab源代码 代码有详细注释&#xff0c;完美运行变压器故障诊断这事儿听起来挺玄乎&#xff0c;但用概率神经网络&#xff08;Probabilistic Neural Network&#xff09;来处理就跟开挂似的。我最近在M…...

5种场景轻松搞定抖音视频保存 开源工具让无水印下载变简单

5种场景轻松搞定抖音视频保存 开源工具让无水印下载变简单 【免费下载链接】douyin_downloader 抖音短视频无水印下载 win编译版本下载&#xff1a;https://www.lanzous.com/i9za5od 项目地址: https://gitcode.com/gh_mirrors/dou/douyin_downloader 在数字内容爆炸的时…...

OpenClaw长期运行秘诀:GLM-4.7-Flash任务守护与自动恢复机制

OpenClaw长期运行秘诀&#xff1a;GLM-4.7-Flash任务守护与自动恢复机制 1. 为什么需要长期运行方案&#xff1f; 去年冬天的一个深夜&#xff0c;我被手机警报惊醒——OpenClaw在连续处理300多份文档后突然崩溃&#xff0c;导致凌晨的自动化报表任务全部中断。这次事故让我意…...

DAMOYOLO-S入门教程:如何扩展自定义类别——微调适配行业新标签

DAMOYOLO-S入门教程&#xff1a;如何扩展自定义类别——微调适配行业新标签 你是不是遇到过这样的问题&#xff1f;手头有一个很棒的通用目标检测模型&#xff0c;比如DAMOYOLO-S&#xff0c;它识别猫猫狗狗、汽车行人很在行&#xff0c;但你想让它帮你检测生产线上的特定零件…...

开发环境神器:OpenClaw+GLM-4.7-Flash自动补全错误日志解决方案

开发环境神器&#xff1a;OpenClawGLM-4.7-Flash自动补全错误日志解决方案 1. 为什么需要日志自动诊断系统 作为一个长期与开发环境打交道的程序员&#xff0c;我每天要面对数百行日志输出。最头疼的场景莫过于&#xff1a;当你在IDE中调试时&#xff0c;突然蹦出一段晦涩的错…...

C语言中结构体指针如何用 -> 取子数据及链表应用示例

在C语言当中&#xff0c;指针箭头“->”看起来是简单的&#xff0c;然而&#xff0c;好多人在学到链表之际&#xff0c;会被它难住。此符号从本质上来说&#xff0c;那是从一个结构体指针里把内部数据取出的快捷途径&#xff0c;要理解它呀&#xff0c;得先弄明白变量、指针…...

Dify低代码平台异步能力深度解密(含源码级Hook注入点):为什么你的custom node总在/call接口返回500?

第一章&#xff1a;Dify低代码平台异步能力深度解密&#xff08;含源码级Hook注入点&#xff09;&#xff1a;为什么你的custom node总在/call接口返回500&#xff1f;Dify 的 /call 接口默认采用同步执行模型&#xff0c;但 custom node 若包含异步 I/O&#xff08;如 HTTP 调…...

node-sass 构建失败问题解决方法

你遇到的 node-sass 构建失败是因为缺少编译工具或 Python 版本问题。 由于你只需要压缩 ui.js 这一个文件&#xff0c;无需完整安装所有依赖。下面提供两种方案&#xff0c;推荐方案一&#xff08;快速压缩&#xff09;。 对于仅压缩 ui.js&#xff08;推荐&#xff09; 1.安装…...

Confluence新手必看:5个高效编辑技巧让你秒变Wiki达人(含插件推荐)

Confluence新手必看&#xff1a;5个高效编辑技巧让你秒变Wiki达人&#xff08;含插件推荐&#xff09; 刚接触Confluence时&#xff0c;面对这个功能强大的企业Wiki平台&#xff0c;新手往往会感到无从下手。本文将分享5个经过实战验证的高效编辑技巧&#xff0c;帮助你快速掌…...

CUDA知识汇总2——cuFFT

cuFFT作为CUDA最基础的库之一&#xff0c;是NVIDIA提供的GPU加速的Fourier变换FFT库&#xff0c;能极大提升涉及FFT计算的科学计算、信号处理和深度学习等任务的速度。一、傅里叶变换和快速傅里叶变换​ Fourier变换是数字信号处理领域一个很重要的数学变换&#xff0c;它用来实…...