网易云音乐歌名可视化:词云生成与GitHub-Pages部署实践
引言
本文将基于前一篇爬取的网易云音乐数据, 利用Python的
wordcloud
、matplotlib
等库, 对歌名数据进行深入的词云可视化分析. 我们将探索不同random_state
对词云布局的影响, 并详细介绍如何将生成的词云图部署到GitHub Pages, 实现数据可视化的在线展示. 介绍了如何从原始数据出发, 生成超酷词云图, 并将其部署到 GitHub Pages 上.
词云预览
▶️ 点击预览词云交互 ◀️
脚本地址:
项目地址: Gazer
utils.py
visualization.py
main.py
代码结构和使用方法
文件结构
Gazer/
├── NeteaseCloudMusicGaze/
│ ├── data/
│ │ ├── processed/
│ │ ├── raw/
│ │ │ └── me_music_data.json
│ │ └── title_stopwords.txt
│ ├── output/
│ │ └── visualizations/
│ ├── src/
│ │ ├── __init__.py # 确保 src 是一个 Python 包
│ │ ├── utils.py # 包含工具函数
│ │ └── visualization.py # 主要的可视化逻辑
│ └── main.py # 程序的入口点, 用于调用 src 中的函数
└── ...
代码结构
-
utils.py
load_stopwords_from_file
从指定文件路径加载停用词列表, 并将其转换为集合. 如果文件不存在, 则返回空集合, 并记录错误日志load_json_data
加载爬取的 JSON 数据文件. 如果文件路径错误或 JSON 格式不正确, 将捕获异常并打印错误信息.load_and_extract_text
从爬取的 JSON 文件加载数据并提取 title 字段(即歌曲名), 将这些值组成一个列表返回. 如果文件加载失败或数据提取失败, 会进行相应的错误处理.
-
visualization.py
generate_wordcloud
根据文本列表生成词云图, 并返回词频字典save_word_frequencies_to_csv
将词频字典保存到 CSV 文件visualize_keywords
调用以上两个函数, 并且可视化关键词数据, 生成词云图并保存词频到 CSV 文件
-
main.py
主脚本, 调用utils.py
和visualization.py
中的函数
使用方法
- 确保已经根据上一篇文档中的方法爬取了相应的数据, 确保 json 文件格式正确, 为一个字典列表.
- 安装依赖:
pip install wordcloud matplotlib jieba numpy
, 或者克隆项目代码后pip install -r requirements.txt
- 修改
main.py
文件中的配置:- 填写
data_path
爬取的 json 文件路径 - 填写
output_dir
输出的词云图和词频 csv 文件路径
- 填写
代码分析
文件读取
之前爬取的 JSON 文件是一个包含多个字典的列表, 那么 load_json_data
函数如果成功加载, 就会返回一个列表, 这个列表里面包含的就是你的 JSON 文件中的那些字典.
以我的 me_music_data.json
为例, 文件内容是这样的(假设只有 2 条):
[{"title": "Common Denominator [Bonus Track]","singer": "Justin Bieber","album": "My World","comment": 3118},{"title": "I Found a Reason","singer": "Cat Power","album": "V for Vendetta","comment": 841}
]
那么 load_json_data
函数加载成功后, 返回的 data
变量就会是一个列表:
data = [{"title": "Common Denominator [Bonus Track]","singer": "Justin Bieber","album": "My World","comment": 3118},{"title": "I Found a Reason","singer": "Cat Power","album": "V for Vendetta","comment": 841}
]
然后你就可以通过索引访问列表中的每一个字典, 例如 data[0]
就是第一个字典, data[1]
就是第二个字典, 以此类推. 并且可以通过键值对的方式访问字典中的每一个值, 例如data[0]["title"]
就是"Common Denominator [Bonus Track]"
.
停用词
为了后续更多的数据处理, 将 TITLE_STOPWORDS
写入文件, 并创建一个函数来读取它.
在 E:\Gazer\NeteaseCloudMusicGaze\data\
目录下手动创建一个名为 title_stopwords.txt
的文本文件, 每个停用词占一行.
这里提供了一些适用于歌名的停用词示例. 为了获得更加精确的可视化效果, 建议你先运行一次 main.py
, 然后根据生成的词频 CSV 文件(例如word_frequencies_me_music_data.csv
), 观察高频出现的、但对你的分析目标没有实际意义的词语, 并将它们添加到 title_stopwords.txt
文件中. 之后再次运行main.py
, 观察词云图的变化.
、
版
feat
翻自
Cover
EDIT
Instrumental
插曲
version
ver
Piano
Mix
丶
WorldCloud
类一些常用参数及其含义和说明
wordcloud = WordCloud(width=960, # 词云图宽度(px), 默认为 400height=600, # 词云图高度(px), 默认为 200background_color=None, # 设置背景颜色为透明, 或自定义如"white", "#000000", 默认为 "black"stopwords=stopwords,font_path=DEFAULT_FONT_PATH,max_words=200, # 词云图中显示的最大词数, 默认为 200max_font_size=100, # 词云图中最大的字体大小, 可以根据你的数据量调整, 默认为None, 表示自动根据词频调整random_state=42, # 随机数种子, 用于控制词云图的布局, 设置相同的值可以得到相同的布局mode="RGBA" # 颜色模式, "RGB" 或 "RGBA", 默认为 "RGB" # ... 还有很多其他参数, 具体可以参考官方文档
)
这些参数都不需要你全部设置, 只有在你需要自定义某些效果的时候设置就行了. 你可以根据自己的需求调整这些参数, 生成各种各样的词云图.
wordcloud.generate(text)
: 根据文本生成词云. 这一步会根据传入的文本text
, 统计词频, 应用停用词, 计算每个词的位置和大小, 最终生成词云图. 但是这个时候词云图还在内存里. 这里面的text
就是所有歌名使用空格连接起来的一个超级长的字符串.wordcloud.to_file(output_path)
: 将生成的词云图保存到文件. 这一步将内存中的词云图渲染成图片, 并保存到指定的路径output_path
.wordcloud.words_
: 获取词云中每个词及其对应的归一化频率. 这是一个字典属性, 包含了生成词云图的词语及其频率信息, 后续save_word_frequencies_to_csv
函数会使用这个字典属性.
简单来说, 这三行代码完成了“根据文本生成词云图”、“将词云图保存到文件”和“获取词频数据”这三个操作.
关于 random_state
随机种子
random_state
参数用于控制 wordcloud
库在生成词云图时涉及到的随机过程. 这些随机过程包括:
- 词语位置的随机扰动:为了避免词语重叠,
wordcloud
会在一定范围内随机调整词语的位置. - 词语颜色的随机选择:如果没有指定每个词的颜色,
wordcloud
会从一个颜色列表中随机选择颜色.
random_state
的作用就是控制这些随机过程的可重复性.
- 如果你设置了
random_state
为一个固定的整数(例如 42, 或者其他任何整数), 那么每次运行代码时, 只要其他参数相同, 生成的词云图布局和颜色都会是一样的. 这对于调试代码、复现结果、保持结果一致性非常有用. - 如果你不设置
random_state
, 或者将其设置为None
, 那么每次运行代码时, 词云图的布局和颜色都会随机变化.
42
这个数字本身并没有什么特殊的含义, 你可以把它设置为任何你喜欢的整数. 大家经常用 42
, 可能是因为道格拉斯·亚当斯在他的科幻小说《银河系漫游指南》中说 “The Answer to the Ultimate Question of Life, the Universe, and Everything is 42” .
想来点不一样的?
-
如果你想每次生成的词云图都不同, 就不要设置
random_state
, 或者设置为None
. -
如果你想尝试几种不同的布局, 但又希望每次运行代码时这几种布局能够固定下来, 你可以尝试几个不同的
random_state
值, 例如1
、2
、3
, 看看哪个布局你最喜欢, 然后就固定使用那个值.不同的 random_state 值的布局预览
生成这些预览图需要实际运行代码, 并设置不同的
random_state
值.这里提供一段代码, 让你能够自己生成并比较不同
random_state
值对应的词云图:from wordcloud import WordCloud, STOPWORDS import matplotlib.pyplot as plt import os from typing import List, Dict import csv from src.utils import load_json_data, load_and_extract_text, load_stopwords_from_file# 常量定义 (根据你的实际情况修改) WORD_HEADER = "Word" FREQUENCY_HEADER = "Frequency" DEFAULT_FONT_PATH = "msyh.ttc" TITLE_STOPWORDS_PATH = r"E:\Gazer\NeteaseCloudMusicGaze\data\title_stopwords.txt" DATA_PATH = r"E:\Gazer\NeteaseCloudMusicGaze\data\raw\me_music_data.json" OUTPUT_DIR = r"E:\Gazer\NeteaseCloudMusicGaze\output\visualizations"def generate_wordcloud(text_list: List[str], output_path: str, stopwords: set = None, random_state=None) -> Dict[str, float]:# 为了演示, 我把 random_state 提到这里了"""根据文本列表生成词云图, 并返回词频字典. (文档字符串的其他部分保持不变)"""text = " ".join(text_list)if stopwords is None:stopwords = set(STOPWORDS)title_stopwords = load_stopwords_from_file(TITLE_STOPWORDS_PATH)stopwords.update(title_stopwords)wordcloud = WordCloud(width=960,height=600,background_color=None,stopwords=stopwords,font_path=DEFAULT_FONT_PATH,max_words=200,max_font_size=100,random_state=random_state, # 使用传入的 random_statemode="RGBA")wordcloud.generate(text)wordcloud.to_file(output_path)return wordcloud.words# 其他函数 (save_word_frequencies_to_csv, visualize_keywords) 保持不变if __name__ == "__main__":text_list = load_and_extract_text(DATA_PATH)os.makedirs(OUTPUT_DIR, exist_ok=True)# 尝试不同的 random_state 值for i in range(1, 6): # 生成 5 个不同的 random_state 的结果output_path = os.path.join(OUTPUT_DIR, f"wordcloud_random_state_{i}.png")generate_wordcloud(text_list, output_path, random_state=i)print(f"已生成词云图:{output_path}")
这段代码会生成 5 个词云图, 分别对应
random_state
值为 1、2、3、4、5 的情况. 你可以查看这些图片, 比较它们的布局差异.
visualize_keywords
这个函数是否重复了前两个函数的功能?
visualize_keywords
函数确实调用了 generate_wordcloud
和 save_word_frequencies_to_csv
这两个函数, 但它并不是简单地重复它们的功能, 而是**将它们组合起来, 形成一个更高级别的功能:从原始数据文件出发, 生成词云图和对应的词频 CSV 文件. **
可以这样理解:
generate_wordcloud
负责根据文本生成词云图, 并返回词频数据.save_word_frequencies_to_csv
负责将词频数据保存到 CSV 文件.visualize_keywords
负责统筹安排, 它首先调用load_and_extract_text
从数据文件提取文本, 然后调用generate_wordcloud
生成词云图和获取词频, 最后调用save_word_frequencies_to_csv
将词频保存到文件.
visualize_keywords
函数的作用是对数据进行可视化, 属于数据分析和数据可视化的高级功能, generate_wordcloud
和 save_word_frequencies_to_csv
只是可视化过程中的步骤. 这样划分可以让代码的逻辑更清晰, 也更易于维护和扩展.
你可以把 generate_wordcloud
和 save_word_frequencies_to_csv
看作是工具函数, 它们分别负责生成词云和保存词频这两个独立的任务. 而 visualize_keywords
则是一个更高级别的函数, 它利用这两个工具函数来完成一个更复杂的目标.
使用 wordart 获取更美观的词云可视化, 并使用 github-pages 部署
wordart 提供了可高度自定义的词云图, 可以使用生成的 csv 导入词频自定义词云颜色, 形状等. 完成后, 点 SAVE
, 然后点 Share
将当前作品设置为公开, 点 Webpage
复制 iframe
标签.
<iframe style="width:100%; height: 100%; border: none" src="https://cdn.wordart.com/iframe/qfwzk59spavk"></iframe>
将iframe
标签放进创建的 HTML 文件的 body
中, 使用 Cursor
/ VS Code
的 Live Server 打开. 按 Ctrl+S
保存 HTML 到本地, 命名为 index.html, 以便后续在 github-pages 中部署. 这时也会自动下载一个文件夹 index_files
, 包含 qfwzk59spavk.html
和 wordart.min.js.下载
. 此时可以直接用本地浏览器打开 index.html
, 也可以获取鼠标和词云的交互功能.
这个方法完美地绕过了编码问题和 cdn.wordart.com
的访问限制, 直接将你在 Live Server 中看到的、已经渲染好的、包含交互式词云的页面完整地保存到了本地.
需要注意的地方:
- Live Server 的依赖: 这种方法依赖于 Live Server 能够正确地渲染你的网页. 如果你的网页在 Live Server 中显示有问题, 那么保存下来的网页也会有问题.
iframe
的内容: 这种方法会将iframe
中的内容 (也就是qfwzk59spavk.html
) 也一起保存下来. 这通常是没问题的, 但如果iframe
中的内容非常大, 或者你不希望将iframe
的内容保存到本地, 那么你需要手动编辑保存后的 HTML 文件, 删除iframe
相关的代码.- 如果你之后需要部署到 GitHub, 你仍需检查
index.html
中的文件路径是否正确.
确保你已经为你的仓库开启 GitHub pages:
可以点击 开启 GitHub pages 教程 查看
开启后直接 push 到仓库同步, 等待 pages 部署完毕就能在 https://YourGithubUserName.github.io/RepositoryName/
看到可交互式词云已经成功部署到网站.
相关文章:

网易云音乐歌名可视化:词云生成与GitHub-Pages部署实践
引言 本文将基于前一篇爬取的网易云音乐数据, 利用Python的wordcloud、matplotlib等库, 对歌名数据进行深入的词云可视化分析. 我们将探索不同random_state对词云布局的影响, 并详细介绍如何将生成的词云图部署到GitHub Pages, 实现数据可视化的在线展示. 介绍了如何从原始数据…...
单片机基础模块学习——DS18B20温度传感器芯片
不知道该往哪走的时候,就往前走。 一、DS18B20芯片原理图 该芯片共有三个引脚,分别为 GND——接地引脚DQ——数据通信引脚VDD——正电源 数据通信用到的是1-Wier协议 优点:占用端口少,电路设计方便 同时该协议要求通过上拉电阻…...

《网络数据安全管理条例》施行,企业如何推进未成年人个人信息保护(下)
文章目录 前言三、全流程推进未成年人个人信息保护1、处理前:未成年人个人信息处理的告知同意2、处理中:加强个人信息处理流程管理3、处理后:落实个人信息保护合规审计四、大型网络平台应每年发布社会责任报告前言 《网数条例》颁布前,我国已针对未成年人个人信息保护陆续…...

书生大模型实战营3
文章目录 L0——入门岛git基础Git 是什么?Git 中的一些基本概念工作区、暂存区和 Git 仓库区文件状态分支主要功能 Git 平台介绍GitHubGitLabGitee Git 下载配置验证下载 Git配置 Git验证 Git配置 Git常用操作Git简易入门四部曲Git其他指令 闯关任务任务1: 破冰活动…...

Spring Boot 集成 WebClient 实战教程 实现同步、异步请求处理以及响应式编程、响应式流、响应式Mono
该项目介绍springboot集成WebClient 实现服务的请求操作 示例中演示了,如何配置WebClient的请求头,请求参数等相关参数,实现同步、异步请求处理以及响应式编程、响应式流、响应式Mono。 为什么使用WebClient 不用RestTemplate 在 Spring Framework 5.0 及更高版本中,Res…...

C语言深入解析 printf的底层源码实现
深入解析 printf 的底层源码实现 printf 是 C 标准库中最常用的函数之一,用于格式化输出字符串。它的底层实现复杂且高效,包含多个模块化的函数和机制。本文结合 GNU C Library(glibc)的源码,详细分析 printf 的实现原…...

go 循环处理无限极数据
数据表结构: CREATE TABLE permission (id int(11) NOT NULL AUTO_INCREMENT COMMENT 权限ID,permission_name varchar(255) DEFAULT NULL COMMENT 权限名称,permission_url varchar(255) DEFAULT NULL COMMENT 权限路由,status tinyint(1) DEFAULT NULL COMMENT 权…...

C# Dynamic关键字
一、引言:开启动态编程之门 在 C# 的编程世界里,长久以来我们习惯了静态类型语言带来的严谨与稳定。在传统的 C# 编程中,变量的类型在编译时就已经确定,这就像是给每个变量贴上了一个固定的标签,在整个代码执行过程中…...

ReactNative react-devtools 夜神模拟器连调
目录 一、安装react-devtools 二、在package.json中配置启动项 三、联动 一、安装react-devtools yarn add react-devtools5.3.1 -D 这里选择5.3.1版本,因为高版本可能与夜神模拟器无法联动,导致部分功能无法正常使用。 二、在package.json中配置启…...

【教学类-89-02】20250128新年篇02——姓名藏头对联(星火讯飞+Python,五言对联,有横批)
背景需求: 过年了,我想用幼儿的名字写对联,但是我根本不会写,于是尝试让AI来写。 1.我班的孩子的名字都是2字和3字的 2.惊喜发现,AI它很快就能生成带名字的对联 但是观察发现,如果是二个名字的对联&#…...

装机爱好者的纯净工具箱
对于每一位电脑用户来说,新电脑到手后的第一件事通常是检测硬件性能。今天为大家介绍一款开源且无广告的硬件检测工具——入梦工具箱。 主要功能 硬件信息一目了然 打开入梦工具箱,首先看到的是硬件信息概览。这里不仅包含了内存、主板、显卡、硬盘等常…...

【新春不断更】数据结构与算法之美:二叉树
Hello大家好,我是但凡!很高兴我们又见面啦! 眨眼间已经到了2024年的最后一天,在这里我要首先感谢过去一年陪我奋斗的每一位伙伴,是你们给予我不断前行的动力。银蛇携福至,万象启新程。蛇年新春之际…...

网站结构优化:加速搜索引擎收录的关键
本文来自:百万收录网 原文链接:https://www.baiwanshoulu.com/9.html 网站结构优化对于加速搜索引擎收录至关重要。以下是一些关键策略,旨在通过优化网站结构来提高搜索引擎的抓取效率和收录速度: 一、合理规划网站架构 采用扁…...

Effective Objective-C 2.0 读书笔记—— objc_msgSend
Effective Objective-C 2.0 读书笔记—— objc_msgSend 文章目录 Effective Objective-C 2.0 读书笔记—— objc_msgSend引入——静态绑定和动态绑定OC之中动态绑定的实现方法签名方法列表 其他方法objc_msgSend_stretobjc_msgSend_fpretobjc_msgSendSuper 尾调用优化总结参考文…...

[MySQL]事务的隔离级别原理与底层实现
目录 1.为什么要有隔离性 2.事务的隔离级别 读未提交 读提交 可重复读 串行化 3.演示事务隔离级别的操作 查看与设置事务的隔离级别 演示读提交操作 演示可重复读操作 1.为什么要有隔离性 在真正的业务场景下,MySQL服务在同一时间一定会有大量的客户端进程…...

项目升级Sass版本或升级Element Plus版本遇到的问题
项目升级Sass版本或升级Element Plus版本遇到的问题 如果项目有需求需要用到高版本的Element Plus组件,则需要升级相对应的sass版本,Element 文档中有提示,2.8.5及以后得版本,sass最低支持的版本为1.79.0,所升级sass、…...

C++中,存储两个相同类型的数据,数据结构
在C中,存储两个相同类型的数据,可以使用多种数据结构。这里有几种常见且合适的选择: 简单的变量: 最直接的方式就是使用两个独立的变量。这种方法简单直观,但不够结构化。 cpp int a 5; int b 10; std::pair&#x…...

python实战(十五)——中文手写体数字图像CNN分类
一、任务背景 本次python实战,我们使用来自Kaggle的数据集《Chinese MNIST》进行CNN分类建模,不同于经典的MNIST数据集,我们这次使用的数据集是汉字手写体数字。除了常规的汉字“零”到“九”之外还多了“十”、“百”、“千”、“万”、“亿…...

[论文阅读] (37)CCS21 DeepAID:基于深度学习的异常检测(解释)
祝大家新春快乐,蛇年吉祥! 《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正࿰…...

Linux - 进程间通信(2)
目录 2、进程池 1)理解进程池 2)进程池的实现 整体框架: a. 加载任务 b. 先描述,再组织 I. 先描述 II. 再组织 c. 创建信道和子进程 d. 通过channel控制子进程 e. 回收管道和子进程 问题1: 解答1ÿ…...

Kafka 消费端反复 Rebalance: `Attempt to heartbeat failed since group is rebalancing`
文章目录 Kafka 消费端反复 Rebalance: Attempt to heartbeat failed since group is rebalancing1. Rebalance 过程概述2. 错误原因分析2.1 消费者组频繁加入或退出2.1.1 消费者故障导致频繁重启2.1.2. 消费者加入和退出导致的 Rebalance2.1.3 消费者心跳超时导致的 Rebalance…...

SpringBoot+Electron教务管理系统 附带详细运行指导视频
文章目录 一、项目演示二、项目介绍三、运行截图四、主要代码1.查询课程表代码2.保存学生信息代码3.用户登录代码 一、项目演示 项目演示地址: 视频地址 二、项目介绍 项目描述:这是一个基于SpringBootElectron框架开发的教务管理系统。首先ÿ…...

操作系统(Linux Kernel 0.11Linux Kernel 0.12)解读整理——内核初始化(main init)之控制台工作
前言 在 Linux 内核中,字符设备主要包括控制终端设备和串行终端设备,对这些设备的输入输出涉及控制台驱动程序,这包括键盘中断驱动程序 keyboard.S 和控制台显示驱动程序 console.c,还有终端驱动程序与上层程序之间的接口部分。 终端驱动程序…...

Autogen_core: Message and Communication
目录 完整代码代码解释1. 消息的数据类:2. 创建代理人(MyAgent):3. 创建和运行代理人的运行时环境:4. 根据发送者路由消息的代理(RoutedBySenderAgent):5. 创建和运行带路由的代理&a…...

ComfyUI工作流教程、软件使用、开发指导、模型下载
在人工智能和设计技术迅速发展的今天,AI赋能的工作流已成为创意设计与生产的重要工具。无论是图片处理、服装试穿,还是室内设计与3D建模,这些智能化的解决方案极大地提高了效率和创作质量。 为了帮助设计师、开发者以及AI技术爱好者更好地利用这些工具,我们整理了一份详尽…...

零基础Vue学习1——Vue学习前环境准备
目录 环境准备 创建Vue项目 项目目录说明 后续开发过程中常用命令 环境准备 安装开发工具:vscode、webstorm、idea都可以安装node:V22以上版本即可安装pnpm 不知道怎么安装的可以私信我教你方法 创建Vue项目 本地新建一个文件夹,之后在文件夹下打开…...

定西市建筑房屋轮廓数据shp格式gis无偏移坐标(字段有高度和楼层)内容测评
定西市建筑房屋轮廓数据是GIS(Geographic Information System,地理信息系统)领域的重要资源,用于城市规划、土地管理、环境保护等多个方面。这份2022年的数据集采用shp(Shapefile)格式,这是一种…...

汉语向编程指南
汉语向编程指南 一、引言王阳明代数与流形学习理论慢道缓行理性人类型指标系统为己之学与意气实体过程晏殊几何学半可分离相如矩阵与生成气质邻域镶嵌气度曲面细分生成气质邻域镶嵌气度曲面细分社会科学概论琴生生物机械科技工业研究所软凝聚态物理开发工具包琴生生物机械 报告…...

Writing an Efficient Vulkan Renderer
本文出自GPU Zen 2。 Vulkan 是一个新的显式跨平台图形 API。它引入了许多新概念,即使是经验丰富的图形程序员也可能不熟悉。Vulkan 的主要目标是性能——然而,获得良好的性能需要深入了解这些概念及其高效应用方法,以及特定驱动程序实现的实…...

AI常见的算法
人工智能(AI)中常见的算法分为多个领域,如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途: 1. 机器学习 (Machine Learning) 监督学习 (Supervised Learning) 线性回归 (Linear Regr…...