Python 绘图进阶之词云图:文本数据的可视化艺术
Python 绘图进阶之词云图:文本数据的可视化艺术
引言
在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题和关键词。词云图不仅在学术研究中有广泛应用,还经常用于展示新闻文章、社交媒体内容和演讲稿等文本的分析结果。本文将带你深入探讨如何使用 Python 绘制词云图,并通过实例展示它的实际应用场景。
一、词云图的基本概念
词云图是一种图形化的表示方式,它将文本数据中的单词根据出现频率的不同以不同的大小和颜色展示。通常,词汇出现的频率越高,其在词云图中的字体就越大、位置越显眼。通过词云图,用户可以一目了然地获取文本中的关键信息。
二、使用 Python 绘制词云图
Python 提供了多个绘制词云图的库,其中 WordCloud 是最为常用的一个。通过这个库,我们可以轻松创建自定义的词云图,并对其进行多样化的设置。
1. 安装所需库
首先,我们需要安装绘制词云图所需的库。如果尚未安装,请运行以下命令:
pip install wordcloud matplotlib
2. 绘制基本的词云图
接下来,我们来绘制一个简单的词云图。假设我们有一段文本,想要分析其中的高频词汇。
示例代码:
from wordcloud import WordCloud
import matplotlib.pyplot as plt# 示例文本
text = "Python is a great programming language. Python can be used for data science, machine learning, and more."# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off') # 关闭坐标轴
plt.show()

在这个简单的示例中,我们使用一段文本生成了一个基本的词云图。WordCloud 类提供了多种参数,如 width、height、background_color 等,方便用户自定义词云图的样式。
3. 从文件读取文本并生成词云图
在实际应用中,我们通常需要从文件(如文本文件或 CSV 文件)中读取内容并生成词云图。下面的示例展示了如何从文件中读取文本并创建词云图。
示例代码:
# 从文件读取文本
with open('sample_text.txt', 'r', encoding='utf-8') as file:text = file.read()# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个示例中,我们从文本文件 sample_text.txt 中读取了数据,并生成了对应的词云图。这样可以方便地处理更大规模的文本数据。
三、词云图的高级用法
1. 自定义词云图的形状
词云图的形状是可以自定义的,我们可以通过使用掩模(mask)图像来创建不同形状的词云图。
示例代码:
from PIL import Image
import numpy as np# 读取掩模图像
mask = np.array(Image.open('cloud_shape.png'))# 生成词云图,使用掩模图像作为形状
wordcloud = WordCloud(width=800, height=400, background_color='white', mask=mask).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个示例中,我们使用了一个云形的掩模图像 cloud_shape.png,并生成了对应形状的词云图,也就是心型的图。通过这种方式,词云图可以更具视觉吸引力和趣味性。
2. 自定义词云图的颜色
除了形状外,我们还可以自定义词云图中词汇的颜色,使得词云图更加美观和符合主题。
示例代码:
from wordcloud import STOPWORDS# 自定义颜色函数
def custom_color_func(word, font_size, position, orientation, random_state=None, **kwargs):return "hsl(200, 100%%, %d%%)" % np.random.randint(30, 70)# 生成词云图,使用自定义颜色
wordcloud = WordCloud(width=800, height=400, background_color='white', color_func=custom_color_func, stopwords=STOPWORDS).generate(text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

这里我们定义了一个自定义的颜色函数 custom_color_func,并在生成词云图时使用了该函数,从而使词云图的词汇颜色按照特定的规律变化。
四、实战案例:分析新闻文章的关键词
假设我们从新闻网站抓取了一篇新闻文章,希望通过词云图来展示其中的关键词。
案例代码:
# 从文件读取新闻文章
with open('news_article.txt', 'r', encoding='utf-8') as file:article_text = file.read()# 生成新闻文章的词云图
wordcloud = WordCloud(width=800, height=400, background_color='white', stopwords=STOPWORDS).generate(article_text)# 显示词云图
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

在这个实战案例中,词云图展示了新闻文章中的高频词汇,可以帮助我们快速了解文章的主要内容和主题。
五、总结
词云图作为一种直观的文本数据可视化方法,能够帮助我们快速获取文本中的关键信息。通过本文的介绍,你应该已经掌握了如何使用 Python 中的 WordCloud 库生成和自定义词云图。在实际项目中,词云图可以用于分析各类文本数据,如社交媒体评论、产品评价、研究文献等,帮助你快速洞察数据背后的故事。
免费下载:
代码和数据免费下载请关注后私信“cloud”即可获得。
相关文章:
Python 绘图进阶之词云图:文本数据的可视化艺术
Python 绘图进阶之词云图:文本数据的可视化艺术 引言 在数据科学和自然语言处理领域,词云图(Word Cloud)是一种常用的可视化工具。它通过直观的图形展示文本数据中的高频词汇,使得我们能够快速抓住文本内容的核心主题…...
【Windows】Q-Dir(资源管理器)软件介绍
软件介绍 Q-Dir是一款免费的文件管理器软件,它可以让您更方便地浏览和管理计算机上的文件和文件夹。与Windows自带的资源管理器相比,Q-Dir具有更多的功能和选项。 安装教程 软件下载完成,解压软件。 点击Q-Dir.exe即可打开软件。 功能…...
什么是令牌桶算法?工作原理是什么?使用它有哪些优点和注意事项?
大家好,我是鸭鸭! 此答案节选自鸭鸭最近弄的面试刷题神器面试鸭 ,更多大厂常问面试题,可以点击下面的小程序进行阅读哈! 目前这个面试刷题小程序刚出,有网页和小程序双端可以使用! 回归面试题…...
C++-类与对象(中上篇)
一、目标 1. 类的 6 个默认成员函数 2. 构造函数 3. 析构函数 二、对目标的介绍 1. 类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都没有吗?并不是,任何类在什么都不写时,编译器会自动生…...
链表 206.反转链表
一般方法 不需要一个个来回换,只需要改变链表的指向,即可完成 一个链表的头节点,也代表了整个链表 class Solution {public ListNode reverseList(ListNode head) {ListNode temp;ListNode cur head;ListNode pre null;while(cur ! null…...
Ubuntu18.04 配置EtherCAT主站IGH SOEM
IGH IGH 是开源的EtherCAT 主站软件 一、安装依赖 sudo apt update sudo apt install build-essential linux-headers-$(uname -r) mercurial autoconf libtool 也不知道安装的完全不完全 uname -r 可以查看内核,我安装的ubuntu18.04的内核版本是 5.4.0-84-gen…...
航空航天构型管理
构型管理(CM)被定义为在产品的生命周期中应用的SE技术和管理规程。CM的五个原则是:CM计划与执行、配置识别、配置变更和差异控制、配置状态核算和配置验证。 广义上的构型管理规划和管理是有效实施配置管理的关键。特别是在不同项目之间的差异中,构型管理…...
Visual Studio Code 安装与 C/C++ 语言运行总结
大家好,我是程序员小羊! 前言: Visual Studio Code(简称 VS Code)是由微软开发的一款轻量级、强大的代码编辑器,支持多种编程语言和开发框架。由于其丰富的插件生态系统和灵活的配置选项,VS…...
Science Robotics 受鳞片启发的可编程机器人结构,可同时进行形状变形和刚度变化
一、前言速览 生物有机体通常凭借复杂的结构表现出显著的多功能性,例如章鱼具有可以同时改变形状和刚度的能力。现有的仿生软体机器人要想实现这样的能力,往往需要繁琐的结构和复杂的控制系统。为此,来自新加坡南洋理工大学的研究人员从覆盖…...
SpringBoot 自定义 Starter 实现
一、定义,什么是Starter SpringBoot Starter 是”一站式服务(one-stop service)“的依赖 Jar 包: 包含 Spring 以及相关技术(比如Redis)的所有依赖提供了自动配置的功能,开箱即用提供了良好的…...
「Spring MVC」Session、Cookie
🎇个人主页:Ice_Sugar_7 🎇所属专栏:JavaEE 🎇欢迎点赞收藏加关注哦! Spring MVC 🍉Session & Cookie🍌联系与区别 🍉获取 Cookie🍉存储 & 获取 Sess…...
Java虚拟机:垃圾回收器
大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 037 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进一步完善自己对整个 Java 技术体系来充实自…...
ES6-ES13学习笔记
初识ES6 ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应用程序,成为企业级开发语言。 1997年:EC…...
【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置
【Qt开发】QtCharts图表——在ui上添加QChartView控件并进行绘图配置 文章目录 控件安装和模块导入在ui上添加QChartView控件QChartView图表配置附录:C语言到C的入门知识点(主要适用于C语言精通到Qt的C开发入门)C语言与C的不同C中写C语言代码…...
Android14 屏幕录制(屏幕投影)和音频播放采集
Android 5开始支持屏幕采集, Android 10支持音频播放采集,不过Android 14用前台服务做屏幕录制时要增加一些处理. 1. app manifest 需要增加: <manifest><uses-permission android:name"android.permission.FOREGROUND_SERVICE" /><uses…...
一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶
一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 文章目录 前言一行实现88个群智能算法优化混合核极限学习机HKELM的多特征输入单输出的数据回归预测Matlab程序全家桶 一、HKELM模型1. 极限学习机(ELM࿰…...
redis面试(十五)公平锁队列重排
队列重拍 先说一下当前的加锁状态 anyLock由客户端A持有队列中是客户端B、客户端C并且客户端B现在是排在头部 那么队列重拍就是队列中某个客户端长时间没有重新申请加锁,没有刷新分数,就会被队列中挤掉。 假设这个长时间没有加锁的客户端是B。 总结 …...
python 基础语法os模块
一、os模块 待总结 二、os.path模块 1.abspath()方法--获取绝对路径 abspathO)方法用于返回文件或者目录的绝对路径。 语法格式如下: os .path.abspath(path) 参数说明: path:表示要获取绝对路径的相对路径,可以是文件也可以是目录。 返回值:返回获取到的绝…...
图论------迪杰斯特拉(Dijkstra)算法求单源最短路径。
编程要求 在图的应用中,有一个很重要的需求:我们需要知道从某一个点开始,到其他所有点的最短路径。这其中,Dijkstra 算法是典型的最短路径算法。 本关的编程任务是补全右侧代码片段中 Begin 至 End 中间的代码,实现 …...
河工院首届工业设计大赛程序组(挑战赛)题解
更好的阅读体验 \huge{\color{red}{更好的阅读体验}} 更好的阅读体验 寻找ACMer 思想: 签到题按照题意遍历字符串,不断向后寻找包含 ACMer 完整字符串的数量即可 std标程: #include <iostream> #include <cstring> #include …...
Unity游戏逆向第一步:手把手教你从APK里提取Assembly-CSharp.dll(附ILSpy使用指南)
Unity游戏逆向实战:从APK提取C#脚本的完整指南 在移动游戏开发领域,Unity引擎凭借其跨平台特性占据了重要地位。对于开发者而言,了解Unity打包后的文件结构不仅是调试的必要技能,也是学习优秀游戏设计的重要途径。本文将详细介绍如…...
别再只盯着原理图了!用Python+OpenCV动手模拟激光三角测距(斜射/直射对比)
用PythonOpenCV模拟激光三角测距:斜射与直射的实战对比 激光三角测距技术听起来高大上,但真正理解它的精髓往往需要跳出公式推导的泥潭。作为一名长期在工业检测领域摸爬滚打的技术人员,我发现用代码模拟物理过程是最有效的学习方式。本文将…...
python算法毕设课题100例
文章目录🚩 1 前言1.1 选题注意事项1.1.1 难度怎么把控?1.1.2 题目名称怎么取?1.2 开题选题推荐1.2.1 起因1.2.2 核心- 如何避坑(重中之重)1.2.3 怎么办呢?🚩2 选题概览🚩 3 项目概览题目1 : 基于协同过滤的…...
别再用重启就丢数据的流量统计了!OpenWrt上nlbwmon的持久化配置与性能优化全攻略
OpenWrt高级流量监控:nlbwmon持久化配置与性能优化实战 每次重启路由器后流量统计归零?图表加载慢到怀疑人生?这些问题困扰着许多OpenWrt用户。本文将带你深入解决nlbwmon的两大核心痛点——数据持久化和界面响应速度,打造一个真正…...
SAP-ABAP:ABAP Development Tools(ADT)安装配置学习分享教程(四篇连载)第四篇:ADT连接故障排查与环境迁移教程
ABAP Development Tools(ADT)安装配置学习分享教程(四篇连载) 第四篇:ADT连接故障排查与环境迁移教程 ADT连不上SAP后端?刚刚还好好的系统突然报错了?换了新电脑要重建整个开发环境?…...
【Sora 2 × Gaussian Splatting融合实战指南】:20年CV专家亲授3大跨模态生成瓶颈突破法
更多请点击: https://intelliparadigm.com 第一章:Sora 2 Gaussian Splatting融合的技术演进与范式跃迁 Sora 2 与 Gaussian Splatting 的深度耦合,标志着生成式视频建模从隐式神经表征迈向显式可微几何渲染的关键转折。二者并非简单串联&a…...
从零部署Claude 3.5 Sonnet私有化实例:NVIDIA A10/A100实测吞吐对比、Token缓存优化与RAG集成避坑指南(含GitHub开源脚本)
更多请点击: https://intelliparadigm.com 第一章:Claude 3.5 Sonnet新功能详解 Anthropic 正式发布的 Claude 3.5 Sonnet 在推理速度、多模态理解与工具调用能力上实现了显著跃升。相比前代,其上下文窗口稳定支持 200K tokens,…...
3个步骤快速掌握Windows网络性能测试:iperf3实战指南
3个步骤快速掌握Windows网络性能测试:iperf3实战指南 【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds 还在为网络速度不稳定而烦恼吗&…...
LogExpert终极指南:三步搞定Windows日志分析难题
LogExpert终极指南:三步搞定Windows日志分析难题 【免费下载链接】LogExpert Windows tail program and log file analyzer. 项目地址: https://gitcode.com/gh_mirrors/lo/LogExpert 想象一下,当你面对一个生产环境问题,需要快速分析…...
Linux I2C设备驱动避坑指南:以MPU6050为例,解决i2c_transfer返回EIO错误
Linux I2C设备驱动深度排障:MPU6050的EIO错误全解析 调试嵌入式设备时,最令人沮丧的莫过于那些间歇性出现的错误。它们像幽灵一样时隐时现,让开发者陷入无尽的猜测和试错循环。MPU6050作为一款广泛使用的运动传感器,其I2C接口的稳…...
