当前位置：首页 > article >正文

【Python】网络爬虫——词云wordcloud详细教程，爬取豆瓣最新评论并生成各式词云

article 2026/4/2 2:14:42

一、功能介绍

二、关键技术

1、安装WordCloud

2、利用WordCloud

1、WordCloud的基础用法

**相关参数介绍**

**WordCloud 提供的方法如下**

2、WordCloud的应用举例

3、设置停用词

4、WordCloud使用词频

三、程序设计的步骤

1、抓取网页数据

2、数据清洗

3、用词云进行展示

四、实现代码

五、最终效果展示

一、功能介绍

词云，即：对网络文本中出现频率较高的“关键词”予以视觉上的突出，形成“关键词云层”或“关键词渲染”，从而过滤掉大量的文本信息，使浏览网页者只要扫过一眼文本就可以领略文本的主旨。

本项目用来爬取豆瓣网上最新的电影评论（以最新上映的：异形：夺命舰 Alien: Romulus为例），经过数据清理和词频统计后进行词云展示。

二、关键技术

1、安装WordCloud

pip install wordcloud

2、利用WordCloud

1、WordCloud的基础用法

class wordcloud.WordCloud(font path=None, width=400, height=200, margin=2, ranks only=None, prefer horizontal=0.9, mask=None, scale=1, color func=None, max words=200, min font size=4, stopwords=None, random state=None, background color='black', max font size=None, font step=1, mode='RGB', relative scaling=0.5, regexp=None, collocations=True, colormap=None, normalize_plurals=True)

WordCloud 提供的方法如下

fit_words(frequencies)：根据词频生成词云。
generate(text)：根据文本生成词云。
generate_from_frequencies(frequencies[…])：根据词频生成词云。
generate_from_text(text)：根据文本生成词云。
process_text(text)：将长文本分词并去除屏蔽词(此处指英语，中文分词还需要自己用其他库先行实现，使用上面的fit_words(fequencies))。
recolor([random_state,color_func,colormap])：对现有输出重新着色，重新着色会比重新生成整个词云快很多。
to_array()：转化为 numpy array。
to_file(filename)：输出到文件。

2、WordCloud的应用举例

from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import matplotlib.pyplot as plt
from PIL import Image  # 使用Pillow库代替scipy.misc.imread
import numpy as nptext = open('test.txt', 'r',encoding='utf-8').read()  # 读取一个txt文件
bg_pic = Image.open('alice.png')  # 读取背景图片
'''设置词云样式'''
wc = WordCloud(background_color='White', mask=np.array(bg_pic), font_path="simhei.ttf", max_words=2000, max_font_size=150,random_state=30, scale=1.5)
wc.generate_from_text(text)  # 根据文本生成词云image_colors = ImageColorGenerator(np.array(bg_pic))  # 确保bg_pic是数组格式
plt.imshow(wc)  # 展示词云图
plt.axis('off')
plt.show()
print('display success!')# 保存词云图片
wc.to_file('test2.jpg')

运行结果：

3、设置停用词

用户可以手动设置停用词，使得词云中不显示该词。

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS  # 词云包# 读取整个文章
text = open('test.txt', 'r', encoding='utf-8').read()  # 读取一个txt文件
# 读取遮罩/彩色图像
alice_coloring = np.array(Image.open('alice.png'))  # 读取背景图片
# 设置停用词
stopwords = set(STOPWORDS)
stopwords.add("的")  # 人工添加停用词
stopwords.add("了")  # 人工添加停用词# 可以通过mask参数来设置词云形状
wc = WordCloud(background_color='White', mask=np.array(alice_coloring), font_path="simhei.ttf", max_words=2000,stopwords=stopwords, max_font_size=40,random_state=42)
# 生成词云
wc.generate(text)
# 根据图片生成颜色
image_colors = ImageColorGenerator(np.array(alice_coloring))  # 确保bg_pic是数组格式
plt.imshow(wc, interpolation="bilinear")  # 展示词云图
plt.axis('off')
plt.show()# 保存词云图片
wc.to_file('test2.jpg')

运行结果：

4、WordCloud使用词频

import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as pltfrom wordcloud import WordCloud, ImageColorGenerator, STOPWORDS  # 词云包lyric = ''
f = open('./test.txt', 'r', encoding='utf-8')
for i in f:lyric += f.read()
# 用jieba对文章做分词，提取出词频高的前50个词
result = jieba.analyse.textrank(lyric, topK=50, withWeight=True)
keywords = dict()
for i in result:keywords[i[0]] = i[1]
print(keywords)

运行结果：

三、程序设计的步骤

1、抓取网页数据

查找页面中id为’nowplaying’的div标签:

在找到的div标签内，查找所有class为’list-item’的li标签:

2、数据清洗

** 消除与数据分析无关的数据 **

1、正则表达式去除非中文字符：

pattern = re.compile(r'[^ws]')
cleaned_comments = pattern.sub('', comments)

2、停用词过滤：

stopwords = set(STOPWORDS)
with open('./StopWords.txt', encoding="utf-8") as f:stopwords.update(word.strip() for word in f)
keywords = {word: score for word, score in keywords.items() if word not in stopwords}

3、使用jieba进行中文分词：

result = jieba.analyse.textrank(cleaned_comments, topK=150, withWeight=True)

3、用词云进行展示

1、创建词云对象：

wordcloud = WordCloud(font_path="simhei.ttf", mask=np.array(bg_pic), background_color="white",max_font_size=80, stopwords=stopwords).generate_from_frequencies(keywords)

2、展示词云：

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

3、打印成功信息：

print('词云展示成功!')

四、实现代码

import warnings
import jieba
import jieba.analyseimport re
import matplotlib.pyplot as plt
import requests
from bs4 import BeautifulSoup as bs
from wordcloud import WordCloud, STOPWORDS# 忽略警告
warnings.filterwarnings("ignore")# 设置matplotlib图形大小
plt.rcParams['figure.figsize'] = (10.0, 5.0)# 分析网页函数
def getNowPlayingMovieList():url = 'https://movie.douban.com/nowplaying/guangzhou'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}try:resp = requests.get(url, headers=headers)resp.raise_for_status()  # 检查请求是否成功html = resp.textexcept requests.exceptions.HTTPError as errh:print(f"HTTP错误: {errh}")return []except requests.exceptions.RequestException as err:print(f"请求错误: {err}")return []soup = bs(html, 'html.parser')nowplaying_movie = soup.find('div', id='nowplaying')if not nowplaying_movie:return []nowplaying_movie_list = nowplaying_movie.find_all('li', class_='list-item')nowplaying_list = []for item in nowplaying_movie_list:nowplaying_dict = {}nowplaying_dict['id'] = item['data-subject']nowplaying_dict['name'] = item.find('img')['alt']nowplaying_list.append(nowplaying_dict)return nowplaying_list# 爬取评论函数
def getCommentsById(movieId, pageNum):eachCommentList = []if pageNum <= 0:return eachCommentListstart = (pageNum - 1) * 20url = f'https://movie.douban.com/subject/{movieId}/comments?start={start}&limit=20'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}try:resp = requests.get(url, headers=headers)resp.raise_for_status()  # 检查请求是否成功html = resp.textexcept requests.exceptions.HTTPError as errh:print(f"HTTP错误: {errh}")return []except requests.exceptions.RequestException as err:print(f"请求错误: {err}")return []soup = bs(html, 'html.parser')comment_div_lits = soup.find_all('div', class_='comment')for item in comment_div_lits:if item.find('p'):eachCommentList.append(item.find('p').text.strip())return eachCommentListdef main():NowPlayingMovie_list = getNowPlayingMovieList()if not NowPlayingMovie_list:print("没有获取到电影列表")returncommentList = []for i in range(1, 11):  # 从第1页到第10页comments_temp = getCommentsById(NowPlayingMovie_list[0]['id'], i)  # 选择第几个电影来进行爬虫，[0]为第一个commentList.extend(comments_temp)comments = " ".join(commentList)# 使用正则表达式去掉标点符号和非中文字符pattern = re.compile(r'[^ws]')cleaned_comments = pattern.sub('', comments)# 使用jieba分词进行中文分词result = jieba.analyse.textrank(cleaned_comments, topK=150, withWeight=True)keywords = {word: weight for word, weight in result}# 停用词集合stopwords = set(STOPWORDS)with open('./StopWords.txt', encoding="utf-8") as f:stopwords.update(word.strip() for word in f)# 过滤停用词keywords = {word: score for word, score in keywords.items() if word not in stopwords}# 创建词云wordcloud = WordCloud(font_path="simhei.ttf", background_color="white",max_font_size=80,stopwords=stopwords).generate_from_frequencies(keywords)plt.imshow(wordcloud, interpolation='bilinear')plt.axis("off")plt.show()print('词云展示成功!')if __name__ == "__main__":main()

五、最终效果展示

PS：当然也可以对上述词云进行上面介绍过的形状上的一些处理：

【Python】网络爬虫——词云wordcloud详细教程，爬取豆瓣最新评论并生成各式词云

目录一、功能介绍二、关键技术 1、安装WordCloud 2、利用WordCloud 1、WordCloud的基础用法 **相关参数介绍** **WordCloud 提供的方法如下** 2、WordCloud的应用举例 3、设置停用词 4、WordCloud使用词频三、程序设计的步骤 1、抓取网页数据 2、数据清洗 3、…...

编程日记 2026/3/5 9:48:02

第39天：安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化

时间轴： Java知识点： 功能：数据库操作，文件操作，序列化数据，身份验证，框架开发，第三方组件使用等. 框架库：MyBatis，SpringMVC，SpringBoot&#xf…...

编程日记 2026/4/1 23:01:18

综合练习 —— 递归、搜索与回溯算法

目录一、1863. 找出所有子集的异或总和再求和 - 力扣（LeetCode） 算法代码： 代码思路问题分析核心思想实现细节代码解析初始化 DFS 函数时间复杂度空间复杂度示例运行输入运行过程总结二、 47. 全排列 II - 力扣&a…...

编程日记 2026/4/1 20:21:41

c++ 中的 auto 与 const 关键字

总是看到这两个关键字，根据 AI 的回复进行了一些整理总结。文章目录 **1. auto 关键字****基本用法****与指针、引用结合****与 const 结合****在函数返回值推导****auto 不能用于** **2. const 关键字****修饰变量****修饰指针****修饰函数参数****修饰成员函数**…...

编程日记 2026/3/23 19:31:31

.pem文件是什么

.pem 文件通常是一个 Privacy-Enhanced Mail 格式的文件，它是一个常见的证书文件格式，可以存储加密密钥、证书或其他加密数据。最常见的用途是 SSH 密钥和 SSL/TLS 证书。在 SSH 使用中，.pem 文件一般是私钥文件，用于通过公…...

编程日记 2026/3/31 3:33:45

【Java SE】Java中String的内存原理

参考笔记： Java String 类深度解析：内存模型、常量池与核心机制_java stringx、-CSDN博客解析java中String的内存原理_string s1 new string("ab");内存分析-CSDN博客目录 1.String初识 2.字符串字面量 3.内存原理图 4. 示例验证 4.…...

编程日记 2026/3/24 10:32:46

IDEA提示将方法形参更改为(什么什么类型)，要检查对应的实体类中的字段类型是否正确

IDEA提示inviteCodeId应该是字符串，明显不对，后来检查发现是FakeRegistration类中把inviteCodeId定义为String类型了。...

编程日记 2026/3/25 16:43:20

DeepSeek-OpenSourceWeek-第五天-Launch of 3FS and Smallpond Framework

2025 年 2 月 28 日，DeepSeek 在开源周的最后一天宣布推出了 Fire-Flyer File System（3FS）和 Smallpond 数据处理框架。这些创新旨在提升数据访问和处理能力，特别是针对 AI 训练和推理工作负载。 Fire-Flyer File System (3FS) 3FS 是一种高性能的分布式文件系统，专为应对…...

编程日记 2026/3/30 14:53:44

【芯片设计】NPU芯片前端设计工程师面试记录·20250227

应聘公司某NPU/CPU方向芯片设计公司。小声吐槽两句，前面我问了hr需不需要带简历，hr不用公司给打好了，然后我就没带空手去的。结果hr小姐姐去开会了，手机静音( Ĭ ^ Ĭ )面试官、我、另外的hr小姐姐都联系不上，结果就变成了两个面试官和我一共三个人在会议室里一人拿出…...

编程日记 2026/3/24 3:22:02

初阶数据结构（C语言实现）——3顺序表和链表（3）

3.链表 3.1 链表的概念及结构概念：链表是一种物理存储结构上非连续、非顺序的存储结构，数据元素的逻辑顺序是通过链表中的指针链接次序实现的链表的物理结构 1.从上图可看出，链式结构在逻辑上是连续的，但是在物理上不一定连续…...

编程日记 2026/3/26 0:25:16

Kubernetes故障排查实战指南

前言在云原生时代，Kubernetes已成为容器编排的事实标准。然而，随着系统规模和复杂度的增加，故障排查变得越来越具有挑战性。本文将从实战角度，系统化介绍K8s故障排查方法和最佳实践。 © ivwdcwso (ID: u012172506) 一、故障排查方法论 1.1 三步排查法问题定位：快…...

编程日记 2025/8/5 6:59:41

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169 一、安装 VSCode二、搭建 NXP JN5169 ZigBee 3.0 开发环境和下载示例工程三、配置 VSCode1、配置环境变量 MYSYS_HOME2、VSCode 安装以下插件3、VSCode 配置头文件路径四、编译工程1、JN-AN-1219 有 6 个构建选项2、修改 …...

编程日记 2026/3/13 19:24:09

Python常见面试题的详解24

1. 如何对关键词触发模块进行测试要点功能测试：验证正常关键词触发、边界情况及大小写敏感性，确保模块按预期响应不同输入。性能测试：关注响应时间和并发处理能力，保证模块在不同负载下的性能表现。兼容性测试：测…...

编程日记 2025/3/22 1:22:53

加载大数据时性能压力优化

1. 减少数据请求量分页加载（Pagination） 原理：将数据拆分为多页，按需加载。实现： 传统分页（页码切换）。无限滚动（滚动到底部自动加载下一页，如社交媒体）。…...

编程日记 2025/12/28 16:35:12

java文件 ，包名org.rain.tag package org.rain.tag; import java.io.IOException; import java.util.HashMap; import java.util.Map; import javax.servlet.jsp.JspException; import javax.servlet.jsp.tagext.DynamicAttributes; import javax.servlet.jsp.…...

编程日记 2025/8/5 3:26:51

使用Fuse-DFS挂载文件存储 HDFS-后端存储ceph

1. 编译环境准备 yum install cmake3 ln -s /usr/bin/cmake3 /usr/bin/cmake yum install gcc-c安装挂载依赖 yum -y install fuse fuse-devel fuse-libs执行以下命令，载入FUSE模块 modprobe fuse2. 下载源码包 hadoop-3.3.4-src.tar.gz解压后执行以下命令打开…...

编程日记 2025/8/4 23:04:50

DBGPT安装部署使用

简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。目的是构建大模型领域的基础设施，通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…...

编程日记 2026/3/24 17:53:52

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2]

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2] 1.Which topics2.Control1.1操作模拟船（1）命令行直接发布（2）启动键盘控制文件 3.Customer your VRX world3.1Which world parameters3.2改变风的参数 3.2.1更改默认参数&…...

编程日记 2026/2/25 6:47:57

yolov8 目标追踪 (源码 +效果图)

1.在代码中增加了s键开始追踪 e键结束追踪显示移动距离(代码中可调标尺和像素的比值以便接近实际距离) 2.绘制了监测区域只在区域内的检测 3.规定了检测的类别只有人类才绘制轨迹 import osimport cv2 from ultralytics import YOLO from collections import defaultdic…...

编程日记 2026/3/26 3:33:15

运维Apache面试题及参考答案

目录简述 Apache Web 服务器的主要特点及适用场景 Apache 的默认监听端口是什么？如何修改为其他端口？ Apache 的主配置文件名称及路径是什么？不同 Linux 发行版的默认路径有何差异？解释 Apache 的 MPM（Multi-Processing Module）机制，列举常见的工作模式（如 prefor…...

编程日记 2025/8/6 11:01:53

基于Python的web漏洞挖掘，漏洞扫描系统(附源码，部署）

本次技术通过利用Python技术来开发一款针对web漏洞挖掘扫描的技术，通过web漏洞的挖掘扫描来实现对网站URL的漏洞检测，通过高中低风险的判断来实现对一款网站中存在的漏洞进行可视化的分析，从而能够找到问题并且尽快的实现问题的解决。博主介…...

编程日记 2026/3/24 17:58:46

K8s部署主从结构MySQL服务

01 介绍 RC、Deployment、DaemonSet都是面向无状态的服务，它们所管理的Pod的IP、名字、启停顺序等都是随机分配的，而StatefulSet，管理所有有状态的服务。 StatefulSet为了解决有状态服务的问题，它所管理的Pod拥有固定的Pod名称，一定的启停顺序，在StatefulSet中，Pod名字…...

编程日记 2025/8/6 5:49:31

岳阳市美术馆预约平台（小程序论文源码调试讲解）

第4章系统设计一个成功设计的系统在内容上必定是丰富的，在系统外观或系统功能上必定是对用户友好的。所以为了提升系统的价值，吸引更多的访问者访问系统，以及让来访用户可以花费更多时间停留在系统上，则表明该系统设计得比较专…...

编程日记 2026/3/6 23:29:56

ubuntu22.04系统如何自建2级ntp服务器

一：ntp服务器详情服务器型号系统版本 IP地址主机名 ntp服务版本虚拟机8c-32g-1T Ubuntu22.04 10.20.30.2 DMZ-NTP-SERVER 4.2.8p15 二：ntp服务端部署配置脚本 #!/bin/bash # 脚本信息 echo "--------------------------…...

编程日记 2026/3/26 7:20:55

DeepSeek赋能智慧社区：提升社区治理，优化资源配置，带来全新变革

在数字化浪潮的推动下，智慧社区正逐渐成为城市发展的重要方向。作为一款先进的人工智能大模型，DeepSeek凭借其强大的多模态数据分析和智能决策能力，正在为智慧社区的建设注入新的活力。标准规范及顶层设计指南、供应商整体解决方案合集、供应…...

编程日记 2026/4/1 4:40:45

spring注解开发（Spring整合MyBatis——Mapper代理开发模式、(Spring、MyBatis、Jdbc)配置类）(6)

目录一、纯MyBatis独立开发程序。 （1）数据库与数据表。 （2）实体类。 （3）dao层接口。（Mapper代理模式、无SQL映射文件——注解配置映射关系） （4）MyBatis核心配…...

编程日记 2026/3/26 6:03:35

springcloud组件调用顺序

Spring Cloud 组件的调用顺序并不是固定不变的，它依赖于具体的业务场景和微服务架构的设计。然而，可以概括出一个典型的微服务架构中 Spring Cloud 组件的调用流程，这个流程大致可以分为以下几个步骤： 服务注册与发现&#xff1a…...

编程日记 2026/3/6 20:33:54

【MySQL】数据库-图书管理系统（CC++实现）

一.预期功能该图书管理系统设计提供基本的设计模版，涉及数据库的增删查改等操作，包含登录功能，图书管理功能，图书借阅功能，用户管理功能等基础功能，详细功能查看以下菜单表，共包含三个菜单&am…...

编程日记 2026/3/3 11:29:47

VSCode轻松调试运行C#控制台程序

1.背景我一直都是用VS来开发C#项目的，用的比较顺手，也习惯了。看其他技术文章有介绍VS Code更轻量，更方便。所以我专门花时间来使用VS Code，看看它是如何调试代码、如何运行C#控制台。这篇文章是一个记录的过程。 2.操作 2.1 V…...

编程日记 2026/3/14 4:28:33

python-leetcode-下一个排列

31. 下一个排列 - 力扣（LeetCode） class Solution:def nextPermutation(self, nums: List[int]) -> None:"""Do not return anything, modify nums in-place instead."""# Step 1: Find the first decreasing element …...

编程日记 2026/3/8 19:21:48

一、功能介绍

二、关键技术

1、安装WordCloud

2、利用WordCloud

1、WordCloud的基础用法

**相关参数介绍**

**WordCloud 提供的方法如下**

2、WordCloud的应用举例

3、设置停用词

4、WordCloud使用词频

三、程序设计的步骤

1、抓取网页数据

2、数据清洗

3、用词云进行展示

四、实现代码

五、最终效果展示

相关文章：

相关参数介绍

WordCloud 提供的方法如下