当前位置：首页 > news >正文

【Python爬虫+可视化】解析小破站热门视频，看看播放量为啥会这么高！评论、弹幕主要围绕什么展开

news 2026/2/11 2:08:21

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

环境使用

Python 3.8
Pycharm

模块使用

import requests
import csv
import datetime
import hashlib
import time

一. 数据来源分析

明确需求

明确采集网站以及数据

网址: https://space.bilibili.com/517327498/video?tid=0&pn=2&keyword=&order=pubdate

数据: 视频基本信息: 标题播放量评论弹幕上传时间 …
抓包分析

打开开发者工具: F12 / 右键点击检查选择network

点击网页下一页 --> XHR 第一条数据包就是我们需要的内容

数据包: https://api.bilibili.com/x/space/wbi/arc/search?mid=517327498&ps=30&tid=0&pn=3&keyword=&order=pubdate&platform=web&web_location=1550101&order_avoided=true&w_rid=c9a9f931486961175b1e8138d695680e&wts=1690027894

二. 代码实现步骤 <固定四个大步骤>

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回响应数据
解析数据, 提取我们需要的数据内容
保存数据, 把信息数据保存表格文件

获取视频详情数据

1.发送请求, 模拟浏览器对于url地址发送请求

'''
python资料获取看这里噢！！ 小编 V：python10010 好友验证备注：6
即可获取文章源码/教程/资料/解答等福利，还有不错的视频学习教程和PDF电子书！
'''
# 模拟浏览器
headers = {# 用户代理 表示浏览器基本身份信息'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}string = f'keyword=&mid=517327498&order=pubdate&order_avoided=true&platform=web&pn=1&ps=30&tid=0&web_location=1550101&wts={int(time.time())}6eff17696695c344b67618ac7b114f92'
# 实例化对象
md5_hash = hashlib.md5()
md5_hash.update(string.encode('utf-8'))
# 请求链接
url = 'https://api.bilibili.com/x/space/wbi/arc/search'
# 请求参数
data = {'mid': '517327498','ps': '30','tid': '0','pn': '1','keyword': '','order': 'pubdate','platform': 'web','web_location': '1550101','order_avoided': 'true','w_rid': md5_hash.hexdigest(),'wts': int(time.time()),
}
# 发送请求 <Response [200]> 响应对象 表示请求成功
response = requests.get(url=url, params=data, headers=headers)

2.获取数据, 获取服务器返回响应数据

response.json() 获取响应json数据

字典数据类型
response.text 获取响应文本数据

网页源代码字符串数据
response.content 获取响应二进制数据数据

获取图片/视频/音频/特定格式文件

print(response.json())

3.解析数据, 提取我们需要的数据内容

字典数据: 键值对取值

根据冒号左边的内容[键], 提取冒号右边的内容[值]

for index in response.json()['data']['list']['vlist']:# 时间戳 时间节点 --> 上传视频时间点date = index['created']dt = datetime.datetime.fromtimestamp(date)dt_time = dt.strftime('%Y-%m-%d')dit = {'标题': index['title'],'描述': index['description'],'BV号': index['bvid'],'播放量': index['play'],'弹幕': index['video_review'],'评论': index['comment'],'时长': index['length'],'上传时间': dt_time,}print(dit)

4.保存数据, 把信息数据保存表格文件

'''
python资料获取看这里噢！！ 小编 V：python10010 好友验证备注：6
即可获取文章源码/教程/资料/解答等福利，还有不错的视频学习教程和PDF电子书！
'''
f = open('信息.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题','描述','BV号','播放量','弹幕','评论','时长','上传时间',
])
csv_writer.writeheader()

数据可视化

导入数据

import pandas as pddf = pd.read_csv('B站视频信息.csv')
df.head()

2020~2023年每月视频总播放平均数

'''
python资料获取看这里噢！！ 小编 V：python10010 好友验证备注：6
即可获取文章源码/教程/资料/解答等福利，还有不错的视频学习教程和PDF电子书！
'''
from pyecharts import options as opts
from pyecharts.charts import Barc = (Bar().add_xaxis(monthly_avg_plays_2021['月份'].tolist()).add_yaxis("", monthly_avg_plays_2021['播放量'].tolist()).set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),title_opts=opts.TitleOpts(title="罗翔视频可视化", subtitle="2020~2023年每月视频总播放平均数"),)
)
c.render_notebook()

每年视频总播放量

df['年份'] = pd.to_datetime(df['上传时间']).dt.strftime('%Y')
yearly_total_plays_all = df.groupby('年份')['播放量'].sum().reset_index()
yearly_total_plays_allc = (Bar().add_xaxis(yearly_total_plays_all['年份'].tolist()).add_yaxis("", yearly_total_plays_all['播放量'].tolist()).set_global_opts(xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),title_opts=opts.TitleOpts(title="B站罗翔视频可视化", subtitle="每年视频总播放量"),)
)
c.render_notebook()

弹幕量Top10

'''
python资料获取看这里噢！！ 小编 V：python10010 好友验证备注：6
即可获取文章源码/教程/资料/解答等福利，还有不错的视频学习教程和PDF电子书！
'''
top10 = df[['标题', '弹幕']].sort_values('弹幕', ascending=False)[:10]
names = list(top10['标题'])
counts = list(top10['弹幕'])
c = (Bar().add_xaxis(names).add_yaxis("", counts).reversal_axis().set_series_opts(label_opts=opts.LabelOpts(position="right")).set_global_opts(title_opts=opts.TitleOpts(title="弹幕量Top10"))
#     .render("bar_reversal_axis.html")
)
c.render_notebook()

评论量Top10

top10 = df[['标题', '评论']].sort_values('评论', ascending=False)[:10]
names = list(top10['标题'])
counts = list(top10['评论'])
c = (Bar().add_xaxis(names).add_yaxis("", counts).reversal_axis().set_series_opts(label_opts=opts.LabelOpts(position="right")).set_global_opts(title_opts=opts.TitleOpts(title="评论量Top10"))
#     .render("bar_reversal_axis.html")
)
c.render_notebook()

尾语

好了，今天的分享就差不多到这里了！

对下一篇大家想看什么，可在评论区留言哦！看到我会更新哒(ง •_•)ง

喜欢就关注一下博主，或点赞收藏评论一下我的文章叭！！！

最后，宣传一下呀~👇👇👇 更多源码、资料、素材、解答、交流 皆点击下方名片获取呀👇👇👇

【Python爬虫+可视化】解析小破站热门视频，看看播放量为啥会这么高！评论、弹幕主要围绕什么展开

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码环境使用 Python 3.8 Pycharm 模块使用 import requests import csv import datetime import hashlib import time 一. 数据来源分析明确需求明确采集网站以及数…...

编程日记 2023/10/31 14:47:47

Mac电脑专业三维模型展UV贴图编辑工具RizomUV RS + VS 2023有哪些特点

RizomUV RS VS是一款功能强大的UV展开软件，用于在三维模型上创建和编辑UV贴图。它具有直观的用户界面和丰富的功能，能够帮助艺术家和设计师更高效地进行UV展开工作。 RizomUV RS VS支持多种模型格式，包括OBJ、FBX、DAE和3DS等，使…...

编程日记 2023/10/31 14:46:46

Linux文件描述符和文件指针互转

本文研究的主要是Linux中文件描述符fd与文件指针FILE*互相转换的相关内容，具体介绍如下。简介 1.文件描述符fd的定义: 文件描述符在形式上是一个非负整数。实际上，它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当…...

编程日记 2023/10/31 14:45:45

C++11线程

C11线程创建线程创建线程需要包含头文件<thread>，使用线程类std::thread 构造函数默认构造函数 thread() noexcept; 默认构造函数，构造一个线程对象，但它不会启动任何实际的线程执行。任务函数构造函数 template< class Fun…...

编程日记 2023/10/31 14:44:44

VIVO应用商店评论数据抓取

VIVO应用商店的app评论数据抓取每个应用的评论能获取到最新的 100页数据每页20条，也就是 2000条评论数据接口： pl.appstore.vivo.com.cn/port/comments/ 爬取运行截图：...

编程日记 2023/10/31 14:43:43

第00章_写在前面

第00章_写在前面讲师：尚硅谷-宋红康（江湖人称：康师傅） 官网：http://www.atguigu.comhttp://www.atguigu.com/) 一、MySQL数据库基础篇大纲 MySQL数据库基础篇分为5个篇章： 1. 数据库概述与MySQL安装篇…...

编程日记 2023/10/31 14:42:42

测绘人注意，你可能会改变历史！

你也许想不到，曾经有一个测绘人员在进行实地测量作业时，在地图上就这么随手一标注，却让这个地方成为了如今的网红打卡地。这个地方就是外地游客慕名而来的“宽窄巷子”，如果连这个地方都不知道的成都人，就应该不能算…...

编程日记 2023/10/31 14:41:41

MySQL - 慢查询

慢查询日志用于记录执行时间超过设定的时间阈值的 SQL 查询语句。它的目的是帮助数据库管理员识别和优化执行时间较长的查询，以提高数据库性能： 慢查询定义：慢查询日志记录那些执行时间超过 long_query_time 参数设定的时间阈值的 SQL 查询语…...

编程日记 2023/10/31 14:40:40

go中“哨兵错误”的由来及使用建议

“哨兵错误（sentinel error）”这个词的出处。之前我也只是在一些书籍和资料中见到过，也没深究。当这个网友问了我之后，就深入的翻了翻资料，在golang的官方博客中找到了这个词的提法，也算是比较官方的了吧。…...

编程日记 2023/10/31 14:39:38

【Python百练——第2练】使用Python做一个猜数字小游戏

💐作者：insist-- 💐个人主页：insist-- 的个人主页理想主义的花，最终会盛开在浪漫主义的土壤里，我们的热情永远不会熄灭，在现实平凡中，我们终将上岸，阳光万里 ❤️欢迎点…...

编程日记 2023/10/31 14:37:36

Power BI 傻瓜入门 18. 让您的数据熠熠生辉

本章内容包括： 配置Power BI以使数据增量刷新发现使用Power BI Desktop and Services保护数据集的方法在不影响性能和完整性的情况下管理海量数据集如果有更新的、更相关的数据可用，旧数据对组织没有好处。而且，老实说，如果数据…...

编程日记 2023/10/31 14:36:34

什么是车规级芯片？一起探讨车规级芯片NCV8705MTADJTCG LDO线性稳压器工作原理、特性参数

关于车规级芯片（Automotive Grade Chip），车规级芯片是专门用于汽车行业的芯片，具有高可靠性、高稳定性和低功耗等特点，以满足汽车电子系统的严格要求。这些芯片通常用于车载电子控制单元（ECU）和…...

编程日记 2023/10/31 14:34:32

Stream流基础使用

目录 Stream出现时间：作用：什么是 Stream？生成流 forEach map filter limit...

编程日记 2023/10/31 14:33:31

防数据泄密的解决方案

防数据泄密的解决方案安企神数据防泄密系统下载使用现代化企业离不开信息数据，数据对企业的经营至关重要，也是企业发展的命脉。为了保护公司数据不被泄露，尤其是在防止数据泄密方面，公司面临着巨大的挑战，需要采取…...

编程日记 2023/10/31 14:31:29

禁用swagger

springfox: documentation: auto-startup: false...

编程日记 2023/10/31 14:30:28

ddl: create drop alter dml：对数据进行管理update insert into delete truncate dql:查询语句 select dcl:权限控制语句grant revoke 创建用户 create user 用户名主机 identified by 密码加密 SELECT PASSWORD(密码); #先获取加密的密码 CREATE USER lisiloca…...

编程日记 2023/10/31 14:29:26

wireshark捕获DNS

DNS解析： 过滤项输入dns： dns查询报文应答报文： 事务id相同，flag里 QR字段1，表示响应，answers rrs变成了2. 并且响应报文多了Answers 再具体一点，得到解析出的ip地址（最底下的add…...

编程日记 2023/10/31 14:27:24

Linux学习-kubernetes之Ingress

资源下载 IngressController IngressYAML Ingress安装部署 #1.将下载的ingress.tar.gz通过docker的方式导入harbor仓库 [rootmaster ingress]# docker load -i ingress.tar.xz [rootmaster ingress]# docker images|while read i t _;do[[ "${t}" "TAG"…...

编程日记 2023/10/31 14:26:23

diamond大基因序列快速比对工具使用详解-包含超算集群多节点计算使用方法

Diamond是一款快速的序列比对工具，其使用方法如下： 1. 安装Diamond： 可从官方网站（https://github.com/bbuchfink/diamond/releases）下载安装包，并安装到本地电脑中。当然还有docker，conda以及…...

编程日记 2023/10/31 14:24:21

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2026/2/7 20:40:53

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/11/15 16:18:24

剑指offer20_链表中环的入口节点

链表中环的入口节点给定一个链表，若其中包含环，则输出环的入口节点。若其中不包含环，则输出null。数据范围节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。节点 val 值各不相同。链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

编程新知 2026/1/31 6:09:22

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类在 Nav2（Navigation2）的行为树框架中，行为树节点插件按照功能分为 Action（动作节点）、Condition（条件节点）、Control（控制节点）和 Decorator（装饰节点）四类。 1.1 动作节点 Action 执行具体的机器人操作或任务，直接与硬件、传感器或外部系统…...

编程新知 2026/2/7 8:45:41