当前位置: 首页 > article >正文

【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云

目录

一、功能介绍

二、关键技术

1、安装WordCloud

2、利用WordCloud

1、WordCloud的基础用法

**相关参数介绍**

**WordCloud 提供的方法如下**

2、WordCloud的应用举例

3、设置停用词

4、WordCloud使用词频

三、程序设计的步骤

1、抓取网页数据

2、数据清洗

3、用词云进行展示

四、实现代码

五、最终效果展示


一、功能介绍

词云,即:对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要扫过一眼文本就可以领略文本的主旨。

本项目用来爬取豆瓣网上最新的电影评论(以最新上映的:异形:夺命舰 Alien: Romulus为例),经过数据清理和词频统计后进行词云展示。

二、关键技术

1、安装WordCloud

pip install wordcloud

2、利用WordCloud

1、WordCloud的基础用法
class wordcloud.WordCloud(font path=None, width=400, height=200, margin=2, ranks only=None, prefer horizontal=0.9, mask=None, scale=1, color func=None, max words=200, min font size=4, stopwords=None, random state=None, background color='black', max font size=None, font step=1, mode='RGB', relative scaling=0.5, regexp=None, collocations=True, colormap=None, normalize_plurals=True)
**相关参数介绍**
  • font_path:需要展现什么字体就把该字体路径+扩展名写上,例如:font_path = ‘黑体.ttf’。
  • width:输出的画布宽度,默认为400像素
  • height:输出的画布高度,默认为200像素
  • prefer_horizontal:词语水平方向排版出现的频率,默认为 0.9(所以词语垂直方向排版出现的频率为 0.1)。
  • mask:如果该参数为空,则使用二维遮罩绘制词云;如果该参数非空,设置的宽高值将被忽略,遮罩形状将被 mask 取代。除了全白(#FFFFFF)部分不会绘制以外,其余部分会用于绘制词云。例如bg_pic= imread(‘读取一张图片.png’),背景图片的画布一定要设置为白色(#FFFFFF),然后显示的形状为不是白色的其他颜色。用户可以用 PS 工具将自己要显示的形状复制到一个纯白色的画布上,然后保存。
  • Scale:按照比例放大画布,例如设置为1.5,则长和宽都是原来画布的 1.5 倍。
  • min_font_size:显示的最小的字体大小。
  • font_step:字体步长,如果步长大于1,会加快运算,但是可能导致结果出现较大的误差。
  • max_words:要显示的词的最大个数。
  • stopwords:设置需要屏蔽的词,如果为空,则使用内置的STOPWORDS。
  • background_color:背景颜色,例如 background color=‘white’,背景颜色为白色,默认颜色为黑色。
  • max_font_size:显示的最大的字体大小。
  • mode:当该参数为 “RGBA” 并且 background_color 不为空时背景透明。
  • relative_scaling:词频和字体大小的关联性。
  • color_func:生成新颜色的函数,如果为空,则使用selfcolor_func。
  • regexp:使用正则表达式分隔输入的文本。
  • collocations:是否包括两个词的搭配。
  • colormap:给每个单词随机分配颜色,若指定color func,则忽略该方法。

**WordCloud 提供的方法如下**
  • fit_words(frequencies):根据词频生成词云。
  • generate(text):根据文本生成词云。
  • generate_from_frequencies(frequencies[…]):根据词频生成词云。
  • generate_from_text(text):根据文本生成词云。
  • process_text(text):将长文本分词并去除屏蔽词(此处指英语,中文分词还需要自己用其他库先行实现,使用上面的fit_words(fequencies))。
  • recolor([random_state,color_func,colormap]):对现有输出重新着色,重新着色会比重新生成整个词云快很多。
  • to_array():转化为 numpy array。
  • to_file(filename):输出到文件。

2、WordCloud的应用举例
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS
import matplotlib.pyplot as plt
from PIL import Image  # 使用Pillow库代替scipy.misc.imread
import numpy as nptext = open('test.txt', 'r',encoding='utf-8').read()  # 读取一个txt文件
bg_pic = Image.open('alice.png')  # 读取背景图片
'''设置词云样式'''
wc = WordCloud(background_color='White', mask=np.array(bg_pic), font_path="simhei.ttf", max_words=2000, max_font_size=150,random_state=30, scale=1.5)
wc.generate_from_text(text)  # 根据文本生成词云image_colors = ImageColorGenerator(np.array(bg_pic))  # 确保bg_pic是数组格式
plt.imshow(wc)  # 展示词云图
plt.axis('off')
plt.show()
print('display success!')# 保存词云图片
wc.to_file('test2.jpg')

运行结果:

3、设置停用词

用户可以手动设置停用词,使得词云中不显示该词。

from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS  # 词云包# 读取整个文章
text = open('test.txt', 'r', encoding='utf-8').read()  # 读取一个txt文件
# 读取遮罩/彩色图像
alice_coloring = np.array(Image.open('alice.png'))  # 读取背景图片
# 设置停用词
stopwords = set(STOPWORDS)
stopwords.add("的")  # 人工添加停用词
stopwords.add("了")  # 人工添加停用词# 可以通过mask参数来设置词云形状
wc = WordCloud(background_color='White', mask=np.array(alice_coloring), font_path="simhei.ttf", max_words=2000,stopwords=stopwords, max_font_size=40,random_state=42)
# 生成词云
wc.generate(text)
# 根据图片生成颜色
image_colors = ImageColorGenerator(np.array(alice_coloring))  # 确保bg_pic是数组格式
plt.imshow(wc, interpolation="bilinear")  # 展示词云图
plt.axis('off')
plt.show()# 保存词云图片
wc.to_file('test2.jpg')

运行结果:

4、WordCloud使用词频
import jieba.analyse
from PIL import Image, ImageSequence
import numpy as np
import matplotlib.pyplot as pltfrom wordcloud import WordCloud, ImageColorGenerator, STOPWORDS  # 词云包lyric = ''
f = open('./test.txt', 'r', encoding='utf-8')
for i in f:lyric += f.read()
# 用jieba对文章做分词,提取出词频高的前50个词
result = jieba.analyse.textrank(lyric, topK=50, withWeight=True)
keywords = dict()
for i in result:keywords[i[0]] = i[1]
print(keywords)

运行结果:

三、程序设计的步骤

1、抓取网页数据

查找页面中id为’nowplaying’的div标签:

在找到的div标签内,查找所有class为’list-item’的li标签:

2、数据清洗

** 消除与数据分析无关的数据 **

1、正则表达式去除非中文字符:

pattern = re.compile(r'[^ws]')
cleaned_comments = pattern.sub('', comments)

2、停用词过滤:

stopwords = set(STOPWORDS)
with open('./StopWords.txt', encoding="utf-8") as f:stopwords.update(word.strip() for word in f)
keywords = {word: score for word, score in keywords.items() if word not in stopwords}

3、使用jieba进行中文分词:

result = jieba.analyse.textrank(cleaned_comments, topK=150, withWeight=True)

3、用词云进行展示

1、创建词云对象:

wordcloud = WordCloud(font_path="simhei.ttf", mask=np.array(bg_pic), background_color="white",max_font_size=80, stopwords=stopwords).generate_from_frequencies(keywords)

2、展示词云:

plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

3、打印成功信息:

print('词云展示成功!')

四、实现代码

import warnings
import jieba
import jieba.analyseimport re
import matplotlib.pyplot as plt
import requests
from bs4 import BeautifulSoup as bs
from wordcloud import WordCloud, STOPWORDS# 忽略警告
warnings.filterwarnings("ignore")# 设置matplotlib图形大小
plt.rcParams['figure.figsize'] = (10.0, 5.0)# 分析网页函数
def getNowPlayingMovieList():url = 'https://movie.douban.com/nowplaying/guangzhou'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}try:resp = requests.get(url, headers=headers)resp.raise_for_status()  # 检查请求是否成功html = resp.textexcept requests.exceptions.HTTPError as errh:print(f"HTTP错误: {errh}")return []except requests.exceptions.RequestException as err:print(f"请求错误: {err}")return []soup = bs(html, 'html.parser')nowplaying_movie = soup.find('div', id='nowplaying')if not nowplaying_movie:return []nowplaying_movie_list = nowplaying_movie.find_all('li', class_='list-item')nowplaying_list = []for item in nowplaying_movie_list:nowplaying_dict = {}nowplaying_dict['id'] = item['data-subject']nowplaying_dict['name'] = item.find('img')['alt']nowplaying_list.append(nowplaying_dict)return nowplaying_list# 爬取评论函数
def getCommentsById(movieId, pageNum):eachCommentList = []if pageNum <= 0:return eachCommentListstart = (pageNum - 1) * 20url = f'https://movie.douban.com/subject/{movieId}/comments?start={start}&limit=20'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0'}try:resp = requests.get(url, headers=headers)resp.raise_for_status()  # 检查请求是否成功html = resp.textexcept requests.exceptions.HTTPError as errh:print(f"HTTP错误: {errh}")return []except requests.exceptions.RequestException as err:print(f"请求错误: {err}")return []soup = bs(html, 'html.parser')comment_div_lits = soup.find_all('div', class_='comment')for item in comment_div_lits:if item.find('p'):eachCommentList.append(item.find('p').text.strip())return eachCommentListdef main():NowPlayingMovie_list = getNowPlayingMovieList()if not NowPlayingMovie_list:print("没有获取到电影列表")returncommentList = []for i in range(1, 11):  # 从第1页到第10页comments_temp = getCommentsById(NowPlayingMovie_list[0]['id'], i)  # 选择第几个电影来进行爬虫,[0]为第一个commentList.extend(comments_temp)comments = " ".join(commentList)# 使用正则表达式去掉标点符号和非中文字符pattern = re.compile(r'[^ws]')cleaned_comments = pattern.sub('', comments)# 使用jieba分词进行中文分词result = jieba.analyse.textrank(cleaned_comments, topK=150, withWeight=True)keywords = {word: weight for word, weight in result}# 停用词集合stopwords = set(STOPWORDS)with open('./StopWords.txt', encoding="utf-8") as f:stopwords.update(word.strip() for word in f)# 过滤停用词keywords = {word: score for word, score in keywords.items() if word not in stopwords}# 创建词云wordcloud = WordCloud(font_path="simhei.ttf", background_color="white",max_font_size=80,stopwords=stopwords).generate_from_frequencies(keywords)plt.imshow(wordcloud, interpolation='bilinear')plt.axis("off")plt.show()print('词云展示成功!')if __name__ == "__main__":main()

五、最终效果展示

PS:当然也可以对上述词云进行上面介绍过的形状上的一些处理:

相关文章:

【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云

目录 一、功能介绍 二、关键技术 1、安装WordCloud 2、利用WordCloud 1、WordCloud的基础用法 **相关参数介绍** **WordCloud 提供的方法如下** 2、WordCloud的应用举例 3、设置停用词 4、WordCloud使用词频 三、程序设计的步骤 1、抓取网页数据 2、数据清洗 3、…...

第39天:安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化

时间轴&#xff1a; Java知识点&#xff1a; 功能&#xff1a;数据库操作&#xff0c;文件操作&#xff0c;序列化数据&#xff0c;身份验证&#xff0c;框架开发&#xff0c;第三方组件使用等. 框架库&#xff1a;MyBatis&#xff0c;SpringMVC&#xff0c;SpringBoot&#xf…...

综合练习 —— 递归、搜索与回溯算法

目录 一、1863. 找出所有子集的异或总和再求和 - 力扣&#xff08;LeetCode&#xff09; 算法代码&#xff1a; 代码思路 问题分析 核心思想 实现细节 代码解析 初始化 DFS 函数 时间复杂度 空间复杂度 示例运行 输入 运行过程 总结 二、 47. 全排列 II - 力扣&a…...

c++ 中的 auto 与 const 关键字

总是看到这两个关键字&#xff0c;根据 AI 的回复进行了一些整理总结。 文章目录 **1. auto 关键字****基本用法****与指针、引用结合****与 const 结合****在函数返回值推导****auto 不能用于** **2. const 关键字****修饰变量****修饰指针****修饰函数参数****修饰成员函数**…...

.pem文件是什么

.pem 文件通常是一个 Privacy-Enhanced Mail 格式的文件&#xff0c;它是一个常见的 证书文件 格式&#xff0c;可以存储加密密钥、证书或其他加密数据。最常见的用途是 SSH 密钥 和 SSL/TLS 证书。 在 SSH 使用中&#xff0c;.pem 文件一般是 私钥 文件&#xff0c;用于通过公…...

【Java SE】Java中String的内存原理

参考笔记&#xff1a; Java String 类深度解析&#xff1a;内存模型、常量池与核心机制_java stringx、-CSDN博客 解析java中String的内存原理_string s1 new string("ab");内存分析-CSDN博客 目录 1.String初识 2.字符串字面量 3.内存原理图 4. 示例验证 4.…...

IDEA提示将方法形参更改为(什么什么类型),要检查对应的实体类中的字段类型是否正确

IDEA提示inviteCodeId应该是字符串&#xff0c;明显不对&#xff0c;后来检查发现是FakeRegistration类中把inviteCodeId定义为String类型了。...

DeepSeek-OpenSourceWeek-第五天-Launch of 3FS and Smallpond Framework

2025 年 2 月 28 日,DeepSeek 在开源周的最后一天宣布推出了 Fire-Flyer File System(3FS)和 Smallpond 数据处理框架。这些创新旨在提升数据访问和处理能力,特别是针对 AI 训练和推理工作负载。 Fire-Flyer File System (3FS) 3FS 是一种高性能的分布式文件系统,专为应对…...

【芯片设计】NPU芯片前端设计工程师面试记录·20250227

应聘公司 某NPU/CPU方向芯片设计公司。 小声吐槽两句,前面我问了hr需不需要带简历,hr不用公司给打好了,然后我就没带空手去的。结果hr小姐姐去开会了,手机静音( Ĭ ^ Ĭ )面试官、我、另外的hr小姐姐都联系不上,结果就变成了两个面试官和我一共三个人在会议室里一人拿出…...

初阶数据结构(C语言实现)——3顺序表和链表(3)

3.链表 3.1 链表的概念及结构 概念&#xff1a;链表是一种物理存储结构上非连续、非顺序的存储结构&#xff0c;数据元素的逻辑顺序是通过链表中的指针链接次序实现的 链表的物理结构 1.从上图可看出&#xff0c;链式结构在逻辑上是连续的&#xff0c;但是在物理上不一定连续…...

Kubernetes故障排查实战指南

前言 在云原生时代,Kubernetes已成为容器编排的事实标准。然而,随着系统规模和复杂度的增加,故障排查变得越来越具有挑战性。本文将从实战角度,系统化介绍K8s故障排查方法和最佳实践。 © ivwdcwso (ID: u012172506) 一、故障排查方法论 1.1 三步排查法 问题定位:快…...

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169 一、安装 VSCode二、搭建 NXP JN5169 ZigBee 3.0 开发环境和下载示例工程三、配置 VSCode1、配置环境变量 MYSYS_HOME2、VSCode 安装以下插件3、VSCode 配置头文件路径 四、编译工程1、JN-AN-1219 有 6 个构建选项2、修改 …...

Python常见面试题的详解24

1. 如何对关键词触发模块进行测试 要点 功能测试&#xff1a;验证正常关键词触发、边界情况及大小写敏感性&#xff0c;确保模块按预期响应不同输入。 性能测试&#xff1a;关注响应时间和并发处理能力&#xff0c;保证模块在不同负载下的性能表现。 兼容性测试&#xff1a;测…...

加载大数据时性能压力优化

1. 减少数据请求量 分页加载&#xff08;Pagination&#xff09; 原理&#xff1a;将数据拆分为多页&#xff0c;按需加载。实现&#xff1a; 传统分页&#xff08;页码切换&#xff09;。无限滚动&#xff08;滚动到底部自动加载下一页&#xff0c;如社交媒体&#xff09;。…...

动态自定义标签属性页面(Tomcat 9)

java文件 &#xff0c;包名org.rain.tag package org.rain.tag; import java.io.IOException; import java.util.HashMap; import java.util.Map; import javax.servlet.jsp.JspException; import javax.servlet.jsp.tagext.DynamicAttributes; import javax.servlet.jsp.…...

使用Fuse-DFS挂载文件存储 HDFS-后端存储ceph

1. 编译环境准备 yum install cmake3 ln -s /usr/bin/cmake3 /usr/bin/cmake yum install gcc-c安装挂载依赖 yum -y install fuse fuse-devel fuse-libs执行以下命令&#xff0c;载入FUSE模块 modprobe fuse2. 下载源码包 hadoop-3.3.4-src.tar.gz解压后执行以下命令 打开…...

DBGPT安装部署使用

简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施&#xff0c;通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…...

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2]

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2] 1.Which topics2.Control1.1操作模拟船&#xff08;1&#xff09;命令行直接发布&#xff08;2&#xff09;启动键盘控制文件 3.Customer your VRX world3.1Which world parameters3.2改变风的参数 3.2.1更改默认参数&…...

yolov8 目标追踪 (源码 +效果图)

1.在代码中 增加了s键开始追踪 e键结束追踪 显示移动距离(代码中可调标尺和像素的比值 以便接近实际距离) 2.绘制了监测区域 只在区域内的检测 3.规定了检测的类别 只有人类才绘制轨迹 import osimport cv2 from ultralytics import YOLO from collections import defaultdic…...

运维Apache面试题及参考答案

目录 简述 Apache Web 服务器的主要特点及适用场景 Apache 的默认监听端口是什么?如何修改为其他端口? Apache 的主配置文件名称及路径是什么?不同 Linux 发行版的默认路径有何差异? 解释 Apache 的 MPM(Multi-Processing Module)机制,列举常见的工作模式(如 prefor…...

基于Python的web漏洞挖掘,漏洞扫描系统(附源码,部署)

本次技术通过利用Python技术来开发一款针对web漏洞挖掘扫描的技术&#xff0c;通过web漏洞的挖掘扫描来实现对网站URL的漏洞检测&#xff0c;通过高中低风险的判断来实现对一款网站中存在的漏洞进行可视化的分析&#xff0c;从而能够找到问题并且尽快的实现问题的解决。 博主介…...

K8s部署主从结构MySQL服务

01 介绍 RC、Deployment、DaemonSet都是面向无状态的服务,它们所管理的Pod的IP、名字、启停顺序等都是随机分配的,而StatefulSet,管理所有有状态的服务。 StatefulSet为了解决有状态服务的问题,它所管理的Pod拥有固定的Pod名称,一定的启停顺序,在StatefulSet中,Pod名字…...

岳阳市美术馆预约平台(小程序论文源码调试讲解)

第4章 系统设计 一个成功设计的系统在内容上必定是丰富的&#xff0c;在系统外观或系统功能上必定是对用户友好的。所以为了提升系统的价值&#xff0c;吸引更多的访问者访问系统&#xff0c;以及让来访用户可以花费更多时间停留在系统上&#xff0c;则表明该系统设计得比较专…...

ubuntu22.04系统如何自建2级ntp服务器

一&#xff1a;ntp服务器详情 服务器型号 系统版本 IP地址 主机名 ntp服务版本 虚拟机8c-32g-1T Ubuntu22.04 10.20.30.2 DMZ-NTP-SERVER 4.2.8p15 二&#xff1a;ntp服务端部署配置脚本 #!/bin/bash # 脚本信息 echo "--------------------------…...

DeepSeek赋能智慧社区:提升社区治理,优化资源配置,带来全新变革

在数字化浪潮的推动下&#xff0c;智慧社区正逐渐成为城市发展的重要方向。作为一款先进的人工智能大模型&#xff0c;DeepSeek凭借其强大的多模态数据分析和智能决策能力&#xff0c;正在为智慧社区的建设注入新的活力。 标准规范及顶层设计指南、供应商整体解决方案合集、供应…...

spring注解开发(Spring整合MyBatis——Mapper代理开发模式、(Spring、MyBatis、Jdbc)配置类)(6)

目录 一、纯MyBatis独立开发程序。 &#xff08;1&#xff09;数据库与数据表。 &#xff08;2&#xff09;实体类。 &#xff08;3&#xff09;dao层接口。&#xff08;Mapper代理模式、无SQL映射文件——注解配置映射关系&#xff09; &#xff08;4&#xff09;MyBatis核心配…...

springcloud组件调用顺序

Spring Cloud 组件的调用顺序并不是固定不变的&#xff0c;它依赖于具体的业务场景和微服务架构的设计。然而&#xff0c;可以概括出一个典型的微服务架构中 Spring Cloud 组件的调用流程&#xff0c;这个流程大致可以分为以下几个步骤&#xff1a; 服务注册与发现&#xff1a…...

【MySQL】数据库-图书管理系统(CC++实现)

一.预期功能 该图书管理系统设计提供基本的设计模版&#xff0c;涉及数据库的增删查改等操作&#xff0c;包含登录功能&#xff0c;图书管理功能&#xff0c;图书借阅功能&#xff0c;用户管理功能等基础功能&#xff0c;详细功能查看以下菜单表&#xff0c;共包含三个菜单&am…...

VSCode轻松调试运行C#控制台程序

1.背景 我一直都是用VS来开发C#项目的&#xff0c;用的比较顺手&#xff0c;也习惯了。看其他技术文章有介绍VS Code更轻量&#xff0c;更方便。所以我专门花时间来使用VS Code&#xff0c;看看它是如何调试代码、如何运行C#控制台。这篇文章是一个记录的过程。 2.操作 2.1 V…...

python-leetcode-下一个排列

31. 下一个排列 - 力扣&#xff08;LeetCode&#xff09; class Solution:def nextPermutation(self, nums: List[int]) -> None:"""Do not return anything, modify nums in-place instead."""# Step 1: Find the first decreasing element …...