当前位置: 首页 > news >正文

爬虫学习案例8

爬取京东评论信息

采用DrissionPage自动化工具采集,感觉比Selenium工具好,真香。

安装第三方库

pip install DrissionPage
pip install pandas
pip install pyecharts
pip install jieba
pip install wordcloud

1.安装DrissionPage库

DrissionPage安装博客

2.爬取评论信息到csv文件

from  DrissionPage import ChromiumPage
import csv
# 打开浏览器
dp = ChromiumPage()
# 监听数据包
dp.listen.start('https://api.m.jd.com/?appid=item-v3&functionId=pc_club_productPageComments&client=pc')
dp.get("https://item.jd.com/100058720776.html#comment")f = open('jd_comments.csv', 'w', encoding='utf-8-sig', newline='')
csv_writer = csv.DictWriter(f,['昵称','地区','产品','评论时间','评论内容'])
csv_writer.writeheader()
# 循环采集前20页评论数据
for page in range(1,21):print(f"正在采集第{page}页评论数据")dp.scroll.to_bottom()resp = dp.listen.wait()json_data = resp.response.bodyprint(json_data)print("-------------------------")commets = json_data['comments']for comment_obj in commets:dit = {'昵称': comment_obj['nickname'],'地区': comment_obj['location'],'产品': comment_obj['productColor'],'评论时间': comment_obj['creationTime'],'评论内容': comment_obj['content'],}print(dit)csv_writer.writerow(dit)# 点击下一页按钮dp.ele('css:.ui-pager-next').click()

如需获取其他商品评论,修改监听数据包,dp.listen.start,dp.get
dp.listen.start自己搜索,抓包请求
dp.get点击下一页,复制浏览器url即可
在这里插入图片描述
在这里插入图片描述

3.制作词云图

效果png图片:
在这里插入图片描述
新建一个py文件

# 词云图
import jieba
import wordcloud
import pandas as pd
df = pd.read_csv('jd_comments.csv')
content = ''.join([i for i in df['评论内容']])
# print(content)
# 结巴分词处理
string = ''.join(jieba.lcut(content))
# 词云图配置
wc = wordcloud.WordCloud(background_color='white',width=1000,height=700,font_path='msyhbd.ttc',stopwords={'了','啊','的','都'}
)
# 导入词汇
wc.generate(string)
# 写出图片
wc.to_file('jd_wordcloud.png')

4.制作饼状图可视化

饼状图官网例子
在这里插入图片描述
新建一个py文件

# 饼状图可视化
from pyecharts import options as opts
from pyecharts.charts import Pie
import  pandas as pd
df = pd.read_csv('jd_comments.csv')
x = df['地区'].value_counts().index.to_list()
y = df['地区'].value_counts().to_list()
print(x)
print(y)
c = (Pie().add("",[list(z)for z in zip(x,y,)],center=["40%", "50%"],).set_global_opts(title_opts=opts.TitleOpts(title="京东-黑丝区域购买饼状图"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render("pie_scroll_legend.html")
)x = df['产品'].value_counts().index.to_list()
y = df['产品'].value_counts().to_list()
print(x)
print(y)
c = (Pie().add("",[list(z)for z in zip(x,y,)],center=["40%", "50%"],).set_global_opts(title_opts=opts.TitleOpts(title="京东-黑丝产品受欢迎饼状图"),legend_opts=opts.LegendOpts(type_="scroll", pos_left="80%", orient="vertical"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render("京东-黑丝产品受欢迎饼状图.html")
)

分析后饼状图效果:性感黑丝最受欢迎,嘿嘿。
在这里插入图片描述
参考资料:
bilibili

相关文章:

爬虫学习案例8

爬取京东评论信息 采用DrissionPage自动化工具采集,感觉比Selenium工具好,真香。 安装第三方库 pip install DrissionPage pip install pandas pip install pyecharts pip install jieba pip install wordcloud1.安装DrissionPage库 DrissionPage安装…...

深入了解 CouchDB 的 Mango 查询:操作符和限制

CouchDB 是一个基于文档的数据库管理系统,支持 HTTP 协议,拥有强大的同步机制和灵活的数据模型。Mango 查询是 CouchDB 中用于数据检索的现代化查询接口,灵感来自 MongoDB 的查询语法。本文将深入探讨 Mango 查询中的各种操作符和限制,并提供详细的例子和说明,帮助你更好地…...

基于SSM(Spring + Spring MVC + MyBatis)框架搭建一个病人跟踪信息管理系统

基于SSM(Spring Spring MVC MyBatis)框架搭建一个病人治疗跟踪信息系统是一个相对复杂的项目,涉及到多个模块和功能。以下是一个简要的指导步骤。 1. 环境准备 开发环境:确保安装了Java Development Kit (JDK),建议…...

U盘文件名变乱码:原因、恢复与预防全解析

一、U盘文件名变乱码现象描述 在日常使用U盘进行数据传输和存储时,我们有时会遇到一个令人头疼的问题:U盘中的文件名突然变成了乱码,无法正常识别或访问。这些乱码文件名可能包含各种奇怪的字符和符号,使得原本有序的文件管理变得…...

EasyGBS国标GB28181公网平台P2P远程访问故障诊断:云端服务端排查指南

随着信息技术的飞速发展,视频监控领域正经历从传统安防向智能化、网络化安防的深刻转变。EasyGBS平台,作为基于国标GB28181协议的视频流媒体平台,为用户提供了强大的视频监控直播功能。然而,在实际应用中,P2P远程访问可…...

一网多平面

“一网多平面”是一种网络架构概念,具体指的是在一张物理网络之上,逻辑划分出“1N”个平面。以下是对“一网多平面”的详细解释: 定义与构成 01一网多平面 指的是在统一的物理网络基础设施上,通过逻辑划分形成多个独立的网络平面…...

animatediff 模型网盘分享

网盘 一、123网盘,不限速 https://www.123pan.com/s/ueQ8jv-OlzPh.html 网盘 网址 animatediff 国外网址https://huggingface.co/guoyww/animatediff/tree/cd71ae134a27ec6008b968d6419952b0c0494cf2 国内镜像在 https://hf-mirror.com/guoyww/animatediff/t…...

ansible play-book玩法

使用ansible-playbook实现安装nginx_ansible 安装nginx-CSDN博客文章浏览阅读1.5k次,点赞14次,收藏19次。本文详细介绍了如何在Linux环境中准备Ansible环境,包括配置主机、下载和安装Ansible,以及使用yum模块和tar包源码安装Nginx…...

MySQL索引-索引的分类和创建

索引类型 数据类型 B树索引Hash索引FullText全文索引 物理存储 聚簇索引二级索引 字段特性 主键索引唯一索引普通索引前缀索引 字段个数 单列索引联合索引 创建索引 创建表时一同创建创建表后单独创建创建表后通过修改表结构创建 可以通过 SHOW INDEX FROM test_table;查看…...

如何给负载均衡平台做好安全防御

在现代网络架构中,负载均衡(Load Balancing)扮演着至关重要的角色。它不仅负责将流量分配到多个服务器以确保高效的服务交付,还作为第一道防线来抵御外部攻击。为了保护您的应用程序和服务免受潜在威胁,必须对负载均衡…...

HR/TA/HRBP的关系

HR(人力资源)领域包含 TA(人才获取)和 HRBP(人力资源业务伙伴)这两个重要的角色,但它们只是 HR 工作的一部分分支,一般我们说的HR指TA。 1. 人才获取(TA) 定…...

Docker环境下MySQL数据库持久化部署全攻略

概述 在当今的软件开发领域,Docker容器技术已经成为应用部署和管理的新标准。它不仅简化了应用的部署流程,还为数据管理提供了灵活的解决方案。特别是在涉及到MySQL数据库时,数据持久化是一个不可忽视的重要环节。本文将分享如何在Docker中部…...

如何查看pad的console输出,以便我们更好的进行调试,查看并了解实际可能的问题。

1、以下是baidu AI回复: 2、说明: 1)如果小伙伴们经常做android开发的话,这个不陌生,因为调试都是要开启这个开发者模式。并启用USB调试模式。 2)需要连上USB线,有的时候会忘记,然…...

react中使用ResizeObserver来观察元素的size变化

在 React 中使用 ResizeObserver 来观察元素的大小变化,可以通过创建一个自定义 Hook 来封装 ResizeObserver 的逻辑,并在组件中使用这个 Hook。以下是一个完整的示例,展示了如何在 React 中使用 ResizeObserver 来观察元素的大小变化。 自定…...

Linux快速入门-Linux文件系统管理

Linux文件系统管理 1. Linux文件系统概述1.1 文件系统概念1.2 用户权限差异1.3 文件命名规范 2. Linux文件系统分类及特点2.1 ext2(第二扩展文件系统)2.2 ext3(第三扩展文件系统)2.3 ext4(第四扩展文件系统&#xff09…...

漏洞检测工具:Swagger UI敏感信息泄露

Swagger UI敏感信息泄露 漏洞定义 Swagger UI是一个交互式的、可视化的RESTful API文档工具,它允许开发人员快速浏览、测试API接口。Swagger UI通过读取由Swagger(也称为OpenAPI)规范定义的API描述文件(如swagger.json或swagger…...

VSCode如何修改默认扩展路径和用户文件夹目录到D盘

在使用Visual Studio Code(VSCode)时,随着安装的扩展和用户数据的增多,C盘的空间可能会逐渐紧张。为了优化存储管理,将VSCode的默认扩展路径和用户文件夹目录迁移到D盘是一个有效的解决方案。以下是详细的操作步骤&…...

【超详细实操内容】django的身份验证系统之限制用户访问的三种方式

目录 1、使用request.user.is_authenticated属性 2、装饰器login_required 3、LoginRequiredMixin类 通常情况下,网站都会对用户限制访问,例如,未登录的用户不可访问用户中心页面。Django框架中使用request.user.isauthenticated属性、装饰器loginrequired和LoginRequire…...

AI芯片常见概念

文章目录 AI芯片常见概念前言常见概念AI芯片分类按照芯片的技术架构分GPU半定制化的 FPGA全定制化 ASIC神经拟态芯片 按应用场景分训练卡推理卡 按部署位置分国产AI卡资料汇总 AI芯片算力和能效比AI芯片算力AI芯片能效比 封装相关Chiplet技术3DIC三星多芯片集成联盟&#xff08…...

Linux 中 epoll 的详解

Linux 中 epoll 的详解 epoll 是 Linux 内核提供的一种高效的 I/O 多路复用机制,用于监控大量文件描述符的 I/O 事件。相较于传统的 select 和 poll,epoll 在高并发和大规模网络编程场景下表现出色,特别适合需要处理成千上万个文件描述符的应…...

c++ 笔记(一)基础篇

c 基础知识编译与执行流程函数指针指针函数回调函数异常处理函数模板与类模板(泛型编程)函数模板类模板文件IO强制类型转换const_caststatic_castreinterpert_castdynamic_cast编译与执行流程 c编译过程: 预处理–编译–汇编–链接 预处理阶…...

玻璃K值如何测试?

玻璃K值如何测试? 玻璃K值测试方法有测试+计算法、防护热板法/热流计法、标定热箱法、现场测试方法等,标准有JGJ/T 151、GB/T 2680、GB/T 22476、GB/T 10294、GB/T 8484、GB/T 36261等;经常有朋友咨询该用哪种方法、哪个标准?本期做个梳理,不妥之处敬请指正! 1、测试+计…...

收藏!2026开年AI爆火,正在重塑程序员职业命运(小白/程序员必看)

2026开年以来,AI技术的爆发式发展彻底打破了技术圈的平静,这场变革不再是“遥不可及的趋势”,而是实实在在渗透到每一位程序员的日常工作中,悄悄改写着我们的职业轨迹——无论是大厂布局还是行业需求,都在释放一个强烈…...

Qwen3.5-9B问题解决:部署常见错误排查与日志查看指南

Qwen3.5-9B问题解决:部署常见错误排查与日志查看指南 1. 部署前环境检查 1.1 硬件要求确认 在部署Qwen3.5-9B模型前,请确保您的硬件环境满足以下最低要求: GPU:NVIDIA显卡,显存≥24GB(推荐RTX 3090/409…...

终极指南:Mitsuba 3与Dr.Jit编译器如何用JIT技术重塑渲染管线

终极指南:Mitsuba 3与Dr.Jit编译器如何用JIT技术重塑渲染管线 【免费下载链接】mitsuba3 Mitsuba 3: A Retargetable Forward and Inverse Renderer 项目地址: https://gitcode.com/gh_mirrors/mi/mitsuba3 Mitsuba 3是一个革命性的研究导向渲染系统&#xf…...

BiliTools哔哩哔哩工具箱:2026年终极跨平台B站资源管理解决方案

BiliTools哔哩哔哩工具箱:2026年终极跨平台B站资源管理解决方案 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliToo…...

Vivado Aurora 8B/10B IP核实战:从配置到上板测试的完整避坑指南

Vivado Aurora 8B/10B IP核实战:从配置到上板测试的完整避坑指南 在高速串行通信领域,Xilinx的Aurora 8B/10B协议因其轻量级、低延迟和高可靠性特点,已成为FPGA开发者实现板间高速互联的首选方案。本文将基于Kintex-7开发板,深入解…...

JAVA集合—ArrayList源码深度解析

前言ArrayList 可能是每个 Java 开发者最早接触、使用最频繁的集合类。但你是否真正理解过它的内部实现?比如:扩容机制是什么?为什么扩容是 1.5 倍?add() 和 remove() 的时间复杂度分别是多少?本文基于 JDK 21 源码&am…...

OpenClaw智能写作:Qwen3.5-9B驱动的草稿生成与优化

OpenClaw智能写作:Qwen3.5-9B驱动的草稿生成与优化 1. 为什么需要AI写作助手? 作为一个经常需要输出技术文档的开发者,我发现自己总在重复同样的困境:面对空白文档时大脑一片空白,写完后又陷入无休止的语法检查和格式…...

010、AI硬件复兴:从NPU到专用芯片的创业路径

010、AI硬件复兴:从NPU到专用芯片的创业路径 文章目录010、AI硬件复兴:从NPU到专用芯片的创业路径一、从一次深夜调试说起二、NPU的“夹层生存”现状三、专用芯片的“场景深潜”四、创业路径上的四个暗礁五、给务实主义者的建议六、写在最后一、从一次深…...