基于 Python 的 Bilibili 评论分析与可视化
一、项目概述
本项目利用 Python 对 Bilibili (哔哩哔哩)平台上的视频评论数据进行爬取、清洗和分析,并通过可视化展示数据的主要特征。我们通过以下几个步骤实现了这一过程:
- 数据爬取:使用 Bilibili 提供的 API 获取指定视频的评论数据。
- 数据清洗:对评论内容进行文本预处理,清除无关信息,并对 IP 地址进行地区解析。
- 数据分析:对评论内容、点赞数等信息进行统计分析,挖掘出有意义的趋势。
- 数据可视化:使用
pyecharts
库生成词云图、柱状图、折线图等多种图表,展示评论的分布与趋势。
本文将详细介绍每一步的实现过程,以及如何利用 Python 工具处理和分析海量的网络评论数据。
二、数据爬取
首先,我们使用 Bilibili 提供的 API 接口来获取视频的评论数据。Bilibili 的 API 支持根据视频 ID(oid)、页码(pn)等参数获取评论信息。我们通过构造请求 URL 发送 HTTP 请求来抓取数据。
以下是爬虫代码的核心部分:
import requests
import csv
import time
import random
from tqdm import tqdm# 设置请求头
header = {"Cookie": "你的 Cookie 值","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}# 视频 ID 列表
list_id = [898762590]# 数据爬取过程
for i in tqdm(list_id):rows = []for p in tqdm(range(342, 801)):try:html = requests.get(url, headers=header)data = html.json()# 提取评论数据for reply in data['data']['replies']:username = reply['member']['uname']comment = reply['content']['message']ctime = trans_date(reply['ctime'])# 保存数据到 CSVwith open(f'bilibili_comments_{i}.csv', 'a', newline='', encoding='utf-8') as file:writer = csv.writer(file)if file.tell() == 0:writer.writerow(['Username', 'Comment', 'Timestamp', 'Like Count', 'IP Location'])writer.writerows(rows)
在此代码中,我们指定了视频的 ID 和页码范围(342
到 801
),并通过循环逐页爬取评论。每一条评论数据包括用户名、评论内容、时间戳、点赞数和 IP 地址。
三、数据清洗
数据爬取完成后,我们对获取的评论数据进行清洗。主要的清洗任务包括:
- 去除无关内容:移除 URL、标点符号、特殊字符等。
- 分词与停用词过滤:使用
jieba
对中文评论进行分词,并过滤掉无意义的停用词。 - IP 地址地区解析:对 IP 地址中的地理位置进行解析,将其统一成省份、市区等格式。
- 时间格式转换:将评论时间戳转换为标准的时间格式,便于后续的时间序列分析。
数据清洗的核心代码如下:
import re
import jieba
from zhon.hanzi import punctuation as zh_punctuationdef clean_text(text):# 去除 URL 和特殊字符text = re.sub(r'http\S+', '', text)text = re.sub(f"[{zh_punctuation}]", "", text) # 去除中文标点text = re.sub(r'[.,!?]', '', text) # 去除英文标点text = re.sub(r'[^a-zA-Z0-9\u4e00-\u9fa5\s]', '', text) # 保留字母、数字和中文text = ' '.join(text.split()) # 去除多余的空格return text# 停用词处理
def load_stopwords(filepath):with open(filepath, 'r', encoding='gbk') as f:stopwords = f.read().splitlines()return stopwords# 文本预处理
def preprocess_text(text, stopwords):words = jieba.cut(text)return [word for word in words if word not in stopwords and len(word) > 1]df['Comment'] = df['Comment'].apply(clean_text)
stopwords = load_stopwords('./stop_word.txt')
df['Cleaned_Comment'] = df['Comment'].apply(lambda x: preprocess_text(x, stopwords))
四、数据分析与可视化
1. 准备工作
在开始之前,确保你已经安装了所需的 Python 库,并且有一个包含 Bilibili 评论数据的 CSV 文件。我们将使用以下库:
pandas
:用于数据处理和分析。pyecharts
:用于生成图表和大屏展示。
首先安装这些库:
pip install pandas pyecharts
2. 数据准备
假设我们已经获取到 Bilibili 的评论数据,并将其保存为 data2.csv
。数据的主要字段包括:
Timestamp
:评论的时间戳。Cleaned_Comment
:清洗后的评论内容,存储为 Python 列表格式。Like Count
:评论的点赞数。IP Location
:评论者的 IP 地址(用于分析地理分布)。
数据格式如下所示:
Timestamp | Cleaned_Comment | Like Count | IP Location |
---|---|---|---|
2022-01-01 12:00:00 | [‘word1’, ‘word2’, ‘word3’] | 5 | 北京市 |
2022-01-01 12:05:00 | [‘word4’, ‘word5’, ‘word2’] | 10 | 上海市 |
… | … | … | … |
3. 数据处理与分析
3.1 处理评论文本与词频分析
为了从评论中提取出有用的信息,我们将清洗后的评论文本展开,并统计每个词语的出现频率,以便生成词云和柱状图。
import pandas as pd
from collections import Counter# 读取 CSV 文件
df = pd.read_csv('data2.csv')# 将 Cleaned_Comment 列转换为 Python 列表
df['Cleaned_Comment'] = df['Cleaned_Comment'].apply(eval)# 展平所有评论词语
all_words = [word for comment in df['Cleaned_Comment'] for word in comment]# 统计词频
word_counts = Counter(all_words)# 转换为词云输入格式
wordcloud_data = [(word, count) for word, count in word_counts.items()]
3.2 时间处理与按时间间隔统计
我们将时间戳转换为 datetime
格式,并按天或按15天的时间间隔统计评论数量和点赞数的变化。
# 转换时间戳为 datetime 格式
df['Timestamp'] = pd.to_datetime(df['Timestamp'])# 筛选出2022年数据
df_2022 = df[(df['Timestamp'] >= '2022-01-01') & (df['Timestamp'] < '2023-01-01')]# 按15天的时间间隔统计评论数量
comment_count_by_15days = df_2022.resample('15D', on='Timestamp').size().reset_index(name='Comment Count')
x_data_comment = comment_count_by_15days['Timestamp'].dt.strftime('%Y-%m-%d').tolist()
y_data_comment = comment_count_by_15days['Comment Count'].tolist()# 按15天的时间间隔统计点赞数量
like_count_by_15days = df_2022.resample('15D', on='Timestamp').sum().reset_index()
x_data_like = like_count_by_15days['Timestamp'].dt.strftime('%Y-%m-%d').tolist()
y_data_like = like_count_by_15days['Like Count'].tolist()
3.3 统计 IP 地理分布
我们还可以统计评论的 IP 地址分布,了解用户的地理位置。
# 统计各省份的 IP 地址数量
province_ip_count = df['IP Location'].value_counts().reset_index()
province_ip_count.columns = ['province', 'ip_count']
4. 使用 pyecharts 创建图表
接下来,我们将使用 pyecharts
库来生成各种类型的图表,包括词云图、柱状图、折线图和地图。
4.1 生成词云图
词云图展示了评论中最常出现的词语,直观地呈现了评论内容的主要话题。
from pyecharts.charts import WordCloud
from pyecharts import options as optswordcloud = WordCloud(init_opts=opts.InitOpts(width="800px", height="600px"))
wordcloud.add("", wordcloud_data, word_size_range=[20, 100])
wordcloud.set_global_opts(title_opts=opts.TitleOpts(title="评论词云图"))
wordcloud.render("wordcloud.html")
4.2 生成评论和点赞量变化折线图
折线图可以帮助我们观察评论和点赞数量的时间变化趋势。
from pyecharts.charts import Lineline_comment = (Line().add_xaxis(x_data_comment).add_yaxis("2022年评论量每15天变化", y_data_comment).set_global_opts(title_opts=opts.TitleOpts(title="2022年评论量变化"))
)line_like = (Line().add_xaxis(x_data_like).add_yaxis("2022年点赞量每15天变化", y_data_like).set_global_opts(title_opts=opts.TitleOpts(title="2022年点赞量变化"))
)line_comment.render("comment_change.html")
line_like.render("like_change.html")
4.3 生成地理分布地图
我们使用地图展示 IP 地址的地理分布,了解用户的分布情况。
from pyecharts.charts import Mapmap_chart = (Map().add("IP 数量", [list(z) for z in zip(province_ip_count['province'], province_ip_count['ip_count'])], "china").set_global_opts(title_opts=opts.TitleOpts(title="IP 地址分布"))
)
map_chart.render("ip_location_map.html")
4.4 创建时间轮播图
时间轮播图可以展示不同年份和月份的评论和点赞数据。通过设置 pyecharts
中的 Timeline
,可以制作动态展示的效果。
from pyecharts.charts import Timeline, Bartimeline = Timeline()for year in df['Year'].unique():df_year = df[df['Year'] == year]bar = (Bar().add_xaxis(df_year['Month'].astype(str).tolist()).add_yaxis("每月评论数", df_year['Comment Count'].tolist()).set_global_opts(title_opts=opts.TitleOpts(title=f"{year}年每月评论数")))timeline.add(bar, f"{year}年")timeline.render("timeline.html")
5. 构建大屏展示
最后,我们将这些图表整合到一个交互式的大屏页面中。通过 pyecharts
的 Page
类,可以将多个图表组合到一个页面,生成一个动态大屏。
from pyecharts.components import Table
from pyecharts.charts import Page# 创建表格
table = Table()
headers = ["基于 Python 的 Bilibili 评论分析大屏"]
rows = []
table.add(headers=headers, rows=rows)# 创建页面
page = Page(layout=Page.DraggablePageLayout)page.add(table,wordcloud,line_comment,line_like,map_chart,timeline
)# 渲染大屏页面
page.render("bilibili_comment_analysis.html")
print("大屏生成完毕:bilibili_comment_analysis.html")
6. 结果展示
执行完上述代码后,你将得到一个包含以下内容的交互式大屏:
- 评论词云图:展示评论中最常见的词汇。
- 时间折线图:展示评论和点赞数的时间变化。
- 地理分布图:展示评论者的地理位置分布。
- 时间轮播图:展示不同年份和月份的评论和点赞数据。
五、总结
本项目展示了如何利用 Python 从 Bilibili 获取评论数据,经过清洗和处理后,通过多种图表形式展示数据分析结果。通过对评论内容和点赞数的分析,我们可以揭示视频的互动情况,了解用户的情感倾向与话题趋势。数据可视化部分使得这些分析结果更加直观、易懂。
对于未来的改进,我们可以进一步优化爬虫性能,增加对评论的情感分析,或者将数据存储到数据库中进行更加复杂的查询与分析。
六、参考资料
- Bilibili API文档: Bilibili Open API
pandas
官方文档:https://pandas.pydata.orgjieba
官方文档:https://github.com/fxsjy/jiebapyecharts
官方文档:https://pyecharts.org
希望通过这篇博客,大家能对如何通过 Python 进行 Bilibili 评论数据分析和可视化有一个清晰的了解,也希望能启发大家在实际项目中应用这些技术。
源代码添加
相关文章:

基于 Python 的 Bilibili 评论分析与可视化
一、项目概述 本项目利用 Python 对 Bilibili (哔哩哔哩)平台上的视频评论数据进行爬取、清洗和分析,并通过可视化展示数据的主要特征。我们通过以下几个步骤实现了这一过程: 数据爬取:使用 Bilibili 提供的 API 获取…...

大语言模型理论基础
文章目录 前言大语言模型必需知识概述大语言模型目标模型上下文神经网络的神经元常见激活函数SigmoidTanhRelusoftmax 通用近似定理多层感知机(MLP)拟合最后 前言 你好,我是醉墨居士,我们接下来对大语言模型一探究竟,…...

【 LLM论文日更|检索增强:大型语言模型是强大的零样本检索器 】
论文:https://aclanthology.org/2024.findings-acl.943.pdf代码:GitHub - taoshen58/LameR机构:悉尼科技大学 & 微软 & 阿姆斯特丹大学 & 马里兰大学领域:retrieval & llm发表:ACL2024 研究背景 研究…...
【基于轻量型架构的WEB开发】课程 作业3 Spring框架
一. 单选题(共12题,48分) 1. (单选题)以下有关Spring框架优点的说法不正确的是( )。 A. Spring就大大降低了组件之间的耦合性。 B. Spring是一种侵入式框架 C. 在Spring中,可以直接通过Spring配置文件管理…...

14.最长公共前缀-力扣(LeetCode)
题目: 解题思路: 解决本题的关键点是确定扫描的方式,大体上有两种方式:横向扫描和纵向扫描。 1、横向扫描:首先比较第一个字符串和第二个字符串,记录二者的公共前缀,然后用当前公共前缀与下一个…...

客户案例|智能进化:通过大模型重塑企业智能客服体验
01 概 述 随着人工智能技术的快速发展,客户对服务体验的期待和需求不断升级。在此背景下,大模型技术的崛起,为智能客服领域带来了创造性的变革。 在上篇文章《在后LLM时代,关于新一代智能体的思考》中有提到,智能客服…...
Flink Job更新和恢复
Checkpoints 的主要目的是为意外失败的作业提供恢复机制。 Savepoints的设计更侧重于可移植性和操作灵活性,尤其是在 job 变更方面。Savepoint 的用例是针对计划中的、手动的运维。例如,可能是更新你的 Flink 版本,更改你的作业图等等。 fli…...
读多写少业务中,MySQL如何优化数据查询方案?
小熊学Java站点:https://www.javaxiaobear.cn 编程资料合集:https://pqgmzk7qbdv.feishu.cn/base/QXq2bY5OQaZiDksJfZMc30w5nNb?from=from_copylink 看一看当面试官提及“在读多写少的网络环境下,MySQL 如何优化数据查询方案”时,你要从哪些角度出发回答问题??? 案例…...

Bugku CTF_Web——点login咋没反应
Bugku CTF_Web——点login咋没反应 进入靶场 随便输个试试 看来确实点login没反应 抓包看看 也没有什么信息 看了下源码 给了点提示 一个admin.css try ?12713传参试试 拿到一个php代码 <?php error_reporting(0); $KEYctf.bugku.com; include_once("flag.php&q…...

attention 注意力机制 学习笔记-GPT2
注意力机制 这可能是比较核心的地方了。 gpt2 是一个decoder-only模型,也就是仅仅使用decoder层而没有encoder层。 decoder层中使用了masked-attention 来进行注意力计算。在看代码之前,先了解attention-forward的相关背景知识。 在普通的self-atten…...
什么是HTTP,什么是HTTPS?HTTP和HTTPS都有哪些区别?
什么是 HTTP? HTTP(Hypertext Transfer Protocol,超文本传输协议)是一种应用层协议,用于在互联网上进行数据通信。它定义了客户端(通常是浏览器)和服务器之间的请求和响应格式。HTTP 是无状态的…...

SkyWalking-安装
SkyWalking-简单介绍 是一个开源的分布式追踪系统,用于检测、诊断和优化分布式系统的功能。 支持 ElasticSearch、H2、MySQL、PostgreSql 等数据库 基于 ElasticSearch 的情况 ElasticSearch(ES) 安装 1、下载并解压 https://www.elastic…...

RabbitMQ运维
1. 单机多节点 1.1 搭建RabbitMQ ①安装RabbitMQ 略 ②确认RabbitMQ运⾏没问题 #查看RabbitMQ状态 rabbitmqctl status 节点名称: 端口号: 25672:Erlang分布式节点通信的默认端⼝, Erlang是RabbitMQ的底层通信协议.15672: Web管理界⾯的默认端⼝, 通过这个端⼝可以访问R…...
Go语言并发精髓:深入理解和运用go语句
Go语言并发精髓:深入理解和运用go语句 在Go语言的世界里,go语句是实现并发的核心,它简洁而强大,允许程序以前所未有的方式运行多个任务。本文将深入探讨go语句及其执行规则,揭示Go语言并发编程的内在机制,并提供实际案例帮助读者掌握其用法。 1. go语句的基本概念(Wha…...

基于STM32的智能家居系统:MQTT、AT指令、TCP\HTTP、IIC技术
一、项目概述 随着智能家居技术的不断发展,越来越多的家庭开始使用智能设备来提升生活质量和居住安全性。智能家居系统不仅提供了便利的生活方式,还能有效地监测家庭环境,保障家庭安全。本项目以设计一种基于STM32单片机的智能家居系统为目标…...

分糖果(相等分配)
题目:有n种不同口味的糖果,第i种糖果的数量为a[i],现在需要把糖果分给m个人。分给每个人糖果的数量必须是相等的,并且每个人只能选择一种糖果。也就是说,可以把一种糖果分给多个人,但是一个人的糖果不能有多…...
docker构建jdk11
# 建立一个新的镜像文件,配置模板:新建立的镜像是以centos为基础模板 # 因为jdk必须运行在操作系统之上 FROM centos:7.9.2009# 作者名 MAINTAINER yuanhang# 创建一个新目录来存储jdk文件 RUN mkdir /usr/local/java#将jdk压缩文件复制到镜像中&#…...
唐帕科技校园语音报警系统:通过关键词识别,阻止校园霸凌事件
校园霸凌问题已成为全球教育领域的严峻挑战,给受害者带来了身心上的长期创伤。然而,随着科技的发展,尤其是人工智能和语音识别技术的不断进步,我们开始看到创新性解决方案的出现。校园语音报警系统便是其中一种利用技术手段保护学…...
酒店行业数据仓库
重要名词: PMS:酒店管理系统CRS:中央预定系统客户:可以分为会员、散客(自行到店入住)、协议(与酒店长期合作,内部价)、中介预定:可以分为线上预定、线下预定…...

A029-基于Spring Boot的物流管理系统的设计与实现
🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…...
spring:实例工厂方法获取bean
spring处理使用静态工厂方法获取bean实例,也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下: 定义实例工厂类(Java代码),定义实例工厂(xml),定义调用实例工厂ÿ…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

AI病理诊断七剑下天山,医疗未来触手可及
一、病理诊断困局:刀尖上的医学艺术 1.1 金标准背后的隐痛 病理诊断被誉为"诊断的诊断",医生需通过显微镜观察组织切片,在细胞迷宫中捕捉癌变信号。某省病理质控报告显示,基层医院误诊率达12%-15%,专家会诊…...
GitHub 趋势日报 (2025年06月06日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 590 cognee 551 onlook 399 project-based-learning 348 build-your-own-x 320 ne…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...
【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)
LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...

wpf在image控件上快速显示内存图像
wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像(比如分辨率3000*3000的图像)的办法,尤其是想把内存中的裸数据(只有图像的数据,不包…...

破解路内监管盲区:免布线低位视频桩重塑停车管理新标准
城市路内停车管理常因行道树遮挡、高位设备盲区等问题,导致车牌识别率低、逃费率高,传统模式在复杂路段束手无策。免布线低位视频桩凭借超低视角部署与智能算法,正成为破局关键。该设备安装于车位侧方0.5-0.7米高度,直接规避树枝遮…...

uniapp 小程序 学习(一)
利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 :开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置,将微信开发者工具放入到Hbuilder中, 打开后出现 如下 bug 解…...
学习一下用鸿蒙DevEco Studio HarmonyOS5实现百度地图
在鸿蒙(HarmonyOS5)中集成百度地图,可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API,可以构建跨设备的定位、导航和地图展示功能。 1. 鸿蒙环境准备 开发工具:下载安装 De…...