Python 绘图进阶之词云图:文本数据的可视化艺术
Python 绘图进阶之词云图:文本数据的可视化艺术
引言
在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题和关键词。词云图不仅在学术研究中有广泛应用,还经常用于展示新闻文章、社交媒体内容和演讲稿等文本的分析结果。本文将带你深入探讨如何使用 Python 绘制词云图,并通过实例展示它的实际应用场景。
一、词云图的基本概念
词云图是一种图形化的表示方式,它将文本数据中的单词根据出现频率的不同以不同的大小和颜色展示。通常,词汇出现的频率越高,其在词云图中的字体就越大、位置越显眼。通过词云图,用户可以一目了然地获取文本中的关键信息。
二、使用 Python 绘制词云图
Python 提供了多个绘制词云图的库,其中 WordCloud 是最为常用的一个。通过这个库,我们可以轻松创建自定义的词云图,并对其进行多样化的设置。
1. 安装所需库
首先,我们需要安装绘制词云图所需的库。如果尚未安装,请运行以下命令:
pip install wordcloud matplotlib
2. 绘制基本的词云图
接下来,我们来绘制一个简单的词云图。假设我们有一段文本,想要分析其中的高频词汇。
示例代码:
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 示例文本
text = "Python is a great programming language. Python can be used for data science, machine learning, and more."# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off') # 关闭坐标轴
plt.show()

在这个简单的示例中,我们使用一段文本生成了一个基本的词云图。WordCloud 类提供了多种参数,如 width、height、background_color 等,方便用户自定义词云图的样式。
3. 从文件读取文本并生成词云图
在实际应用中,我们通常需要从文件(如文本文件或 CSV 文件)中读取内容并生成词云图。下面的示例展示了如何从文件中读取文本并创建词云图。
示例代码:
# 从文件读取文本
with open('sample_text.txt', 'r', encoding='utf-8') as file:text = file.read()# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个示例中,我们从文本文件 sample_text.txt 中读取了数据,并生成了对应的词云图。这样可以方便地处理更大规模的文本数据。
三、词云图的高级用法
1. 自定义词云图的形状
词云图的形状是可以自定义的,我们可以通过使用掩模(mask)图像来创建不同形状的词云图。
示例代码:
from PIL import Image
import numpy as np# 读取掩模图像
mask = np.array(Image.open('cloud_shape.png'))# 生成词云图,使用掩模图像作为形状
wordcloud = WordCloud(width=800, height=400, background_color='white', mask=mask).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个示例中,我们使用了一个云形的掩模图像 cloud_shape.png,并生成了对应形状的词云图,也就是心型的图。通过这种方式,词云图可以更具视觉吸引力和趣味性。
2. 自定义词云图的颜色
除了形状外,我们还可以自定义词云图中词汇的颜色,使得词云图更加美观和符合主题。
示例代码:
from wordcloud import STOPWORDS# 自定义颜色函数
def custom_color_func(word, font_size, position, orientation, random_state=None, **kwargs):return "hsl(200, 100%%, %d%%)" % np.random.randint(30, 70)# 生成词云图,使用自定义颜色
wordcloud = WordCloud(width=800, height=400, background_color='white', color_func=custom_color_func, stopwords=STOPWORDS).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

这里我们定义了一个自定义的颜色函数 custom_color_func,并在生成词云图时使用了该函数,从而使词云图的词汇颜色按照特定的规律变化。
四、实战案例:分析新闻文章的关键词
假设我们从新闻网站抓取了一篇新闻文章,希望通过词云图来展示其中的关键词。
案例代码:
# 从文件读取新闻文章
with open('news_article.txt', 'r', encoding='utf-8') as file:article_text = file.read()# 生成新闻文章的词云图
wordcloud = WordCloud(width=800, height=400, background_color='white', stopwords=STOPWORDS).generate(article_text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个实战案例中,词云图展示了新闻文章中的高频词汇,可以帮助我们快速了解文章的主要内容和主题。
五、总结
词云图作为一种直观的文本数据可视化方法,能够帮助我们快速获取文本中的关键信息。通过本文的介绍,你应该已经掌握了如何使用 Python 中的 WordCloud 库生成和自定义词云图。在实际项目中,词云图可以用于分析各类文本数据,如社交媒体评论、产品评价、研究文献等,帮助你快速洞察数据背后的故事。
免费下载:
代码和数据免费下载请关注后私信“cloud”即可获得。
相关文章:
Python 绘图进阶之词云图:文本数据的可视化艺术
Python 绘图进阶之词云图:文本数据的可视化艺术 引言 在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题…...
【Windows】Q-Dir(资源管理器)软件介绍
软件介绍 Q-Dir是一款免费的文件管理器软件,它可以让您更方便地浏览和管理计算机上的文件和文件夹。与Windows自带的资源管理器相比,Q-Dir具有更多的功能和选项。 安装教程 软件下载完成,解压软件。 点击Q-Dir.exe即可打开软件。 功能…...
什么是令牌桶算法?工作原理是什么?使用它有哪些优点和注意事项?
大家好,我是鸭鸭! 此答案节选自鸭鸭最近弄的面试刷题神器面试鸭 ,更多大厂常问面试题,可以点击下面的小程序进行阅读哈! 目前这个面试刷题小程序刚出,有网页和小程序双端可以使用! 回归面试题…...
C++-类与对象(中上篇)
一、目标 1. 类的 6 个默认成员函数 2. 构造函数 3. 析构函数 二、对目标的介绍 1. 类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都没有吗?并不是,任何类在什么都不写时,编译器会自动生…...
链表 206.反转链表
一般方法 不需要一个个来回换,只需要改变链表的指向,即可完成 一个链表的头节点,也代表了整个链表 class Solution {public ListNode reverseList(ListNode head) {ListNode temp;ListNode cur head;ListNode pre null;while(cur ! null…...
Ubuntu18.04 配置EtherCAT主站IGH SOEM
IGH IGH 是开源的EtherCAT 主站软件 一、安装依赖 sudo apt update sudo apt install build-essential linux-headers-$(uname -r) mercurial autoconf libtool 也不知道安装的完全不完全 uname -r 可以查看内核,我安装的ubuntu18.04的内核版本是 5.4.0-84-gen…...
航空航天构型管理
构型管理(CM)被定义为在产品的生命周期中应用的SE技术和管理规程。CM的五个原则是:CM计划与执行、配置识别、配置变更和差异控制、配置状态核算和配置验证。 广义上的构型管理规划和管理是有效实施配置管理的关键。特别是在不同项目之间的差异中,构型管理…...
Visual Studio Code 安装与 C/C++ 语言运行总结
大家好,我是程序员小羊! 前言: Visual Studio Code(简称 VS Code)是由微软开发的一款轻量级、强大的代码编辑器,支持多种编程语言和开发框架。由于其丰富的插件生态系统和灵活的配置选项,VS…...
Science Robotics 受鳞片启发的可编程机器人结构,可同时进行形状变形和刚度变化
一、前言速览 生物有机体通常凭借复杂的结构表现出显著的多功能性,例如章鱼具有可以同时改变形状和刚度的能力。现有的仿生软体机器人要想实现这样的能力,往往需要繁琐的结构和复杂的控制系统。为此,来自新加坡南洋理工大学的研究人员从覆盖…...
SpringBoot 自定义 Starter 实现
一、定义,什么是Starter SpringBoot Starter 是”一站式服务(one-stop service)“的依赖 Jar 包: 包含 Spring 以及相关技术(比如Redis)的所有依赖提供了自动配置的功能,开箱即用提供了良好的…...
「Spring MVC」Session、Cookie
🎇个人主页:Ice_Sugar_7 🎇所属专栏:JavaEE 🎇欢迎点赞收藏加关注哦! Spring MVC 🍉Session & Cookie🍌联系与区别 🍉获取 Cookie🍉存储 & 获取 Sess…...
Java虚拟机:垃圾回收器
大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 037 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进一步完善自己对整个 Java 技术体系来充实自…...
ES6-ES13学习笔记
初识ES6 ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语言。 1997年:EC…...
【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置
【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置 文章目录 控件安装和模块导入在ui上添加QChartView控件QChartView图表配置附录:C语言到C的入门知识点(主要适用于C语言精通到Qt的C开发入门)C语言与C的不同C中写C语言代码…...
Android14 屏幕录制(屏幕投影)和音频播放采集
Android 5开始支持屏幕采集, Android 10支持音频播放采集,不过Android 14用前台服务做屏幕录制时要增加一些处理. 1. app manifest 需要增加: <manifest><uses-permission android:name"android.permission.FOREGROUND_SERVICE" /><uses…...
一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶
一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 文章目录 前言一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 一、HKELM模型1. 极限学习机(ELM࿰…...
redis面试(十五)公平锁队列重排
队列重拍 先说一下当前的加锁状态 anyLock由客户端A持有队列中是客户端B、客户端C并且客户端B现在是排在头部 那么队列重拍就是队列中某个客户端长时间没有重新申请加锁,没有刷新分数,就会被队列中挤掉。 假设这个长时间没有加锁的客户端是B。 总结 …...
python 基础语法os模块
一、os模块 待总结 二、os.path模块 1.abspath()方法--获取绝对路径 abspathO)方法用于返回文件或者目录的绝对路径。 语法格式如下: os .path.abspath(path) 参数说明: path:表示要获取绝对路径的相对路径,可以是文件也可以是目录。 返回值:返回获取到的绝…...
图论------迪杰斯特拉(Dijkstra)算法求单源最短路径。
编程要求 在图的应用中,有一个很重要的需求:我们需要知道从某一个点开始,到其他所有点的最短路径。这其中,Dijkstra 算法是典型的最短路径算法。 本关的编程任务是补全右侧代码片段中 Begin 至 End 中间的代码,实现 …...
河工院首届工业设计大赛程序组(挑战赛)题解
更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 寻找ACMer 思想: 签到题按照题意遍历字符串,不断向后寻找包含 ACMer 完整字符串的数量即可 std标程: #include <iostream> #include <cstring> #include …...
TQVaultAE终极指南:解锁泰坦之旅无限仓库与装备管理新境界
TQVaultAE终极指南:解锁泰坦之旅无限仓库与装备管理新境界 【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 你是否曾在泰坦之旅的冒险中,面对满仓的传…...
Ile-Ser-Bradykinin(T-Kinin) ;ISRPPGFSPFR
一、基础信息多肽名称:Ile-Ser-Bradykinin,别名 T-Kinin(T - 激肽) 三字母序列:Ile-Ser-Arg-Pro-Pro-Gly-Phe-Ser-Pro-Phe-Arg 单字母序列:ISRPPGFSPFR 氨基酸数量:11 aa 结构修饰:线…...
告别adb shell:用Python脚本一键搞定Android屏幕截图与导出
Python自动化:告别adb shell,一键搞定Android屏幕截图与导出 每次调试Android应用时,手动敲adb命令截图、导出、重命名,是不是让你感到效率低下?作为一名长期与Android设备打交道的开发者,我深知这种重复劳…...
LeagueAkari:3分钟快速上手的英雄联盟终极本地自动化工具指南
LeagueAkari:3分钟快速上手的英雄联盟终极本地自动化工具指南 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾经在英雄联盟…...
Linux下Cursor IDE智能安装器:企业级Bash脚本设计与实践
1. 项目概述:一个为Linux而生的Cursor IDE智能安装器如果你是一名在Linux环境下工作的开发者,并且对Cursor这款集成了AI辅助编程能力的现代IDE感兴趣,那么你很可能已经遇到过那个经典难题:如何优雅地在Linux上安装它?官…...
Keil5/MDK美化进阶:除了改颜色,这些隐藏的编辑器效率设置你调了吗?
Keil5/MDK美化进阶:解锁编辑器隐藏效率设置 第一次打开Keil5时,我被它那略显单调的界面震惊了——这真的是21世纪的IDE吗?作为一名长期使用现代编辑器的开发者,我几乎立刻开始寻找美化方案。但很快我发现,仅仅改变颜色…...
FPGA动态电压调节技术与PMBus控制路径设计
1. FPGA动态电压调节技术概述 在当今计算密集型应用中,FPGA因其可重构性和并行处理能力而广受欢迎,但随之而来的功耗问题也日益突出。动态电压调节技术(Dynamic Voltage Scaling, DVS)作为一种有效的功耗优化手段,允许系统根据工作负载实时调…...
OpenCV和numpy版本打架?一个pip命令同时安装opencv-python和contrib的避坑实践
OpenCV与NumPy版本冲突全攻略:精准配对安装与兼容性验证 当你兴致勃勃地准备开始一个计算机视觉项目,却在导入OpenCV时遭遇numpy.core.multiarray failed to import这样的错误提示,那种挫败感我深有体会。这种问题通常发生在Python数据科学和…...
抖音视频无水印下载:3分钟快速上手免费工具完整指南
抖音视频无水印下载:3分钟快速上手免费工具完整指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…...
CANN/asc-devkit asc_le函数文档
asc_le 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/can…...
