当前位置：首页 > article >正文

爬虫基础之爬取猫眼Top100 可视化

article 2026/3/3 1:07:26

网站: TOP100榜 - 猫眼电影 - 一网打尽好电影

**本次案例所需用到的模块**
requests (发送HTTP请求)	pandas(数据处理和分析保存数据)
parsel(解析HTML数据)	pyecharts(数据可视化图表)
pymysql(连接和操作MySQL数据库)	lxml(数据解析模块)

确定爬取的内容:

电影名称
电影主演
上映时间
评分

分析页面:

确认是静态数据还是动态数据
右击打开网页源代码快捷键Ctrl+F 打开搜索框搜索需要爬取的数据

可以发现此数据为静态数据即所需要的数据都在网页上面

爬取步骤:

一.发送请求模拟浏览器向服务器发送请求

二. 解析数据从网页中提取数据

三. 保存数据将爬取到的数据保存为本地文件

OK 我们开始写代码
将浏览器的url地址复制构建请求头参数
此网站需要登陆才能拿到数据请求体中一般包含三个数据 UA(浏览器的基本信息) referer(就是防盗链即当前页面通过哪个页面跳转过来的) cookie(用户的一些基本信息)

# 导包
import requestsurl = 'https://www.maoyan.com/board/4?timeStamp=1741780786427&channelId=40011&index=2&signKey=30a132dd14a76c19cfd2759ba27adc28&sVersion=1&webdriver=false'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0','referer':'https://www.maoyan.com/','cookie':'你的cookie'}
resp = requests.get(url,headers=headers)
print(resp.text)

打印我们从浏览器爬取下来的信息
Ctrl+F 快捷键搜索确认数据在返回的信息中

第二步解析数据

打开开发者工具中的元素用左上角的小箭头去查看页面的结构

定位元素拿到对应的class属性值采取parserl模块里面的css 的来提取数据

我们可以看到爬取下来的内容中有空格缩进
处理办法: 转换成字符串类型的格式然后使用strip()方法去掉空格 replace 替换方法去除不要的文字只保留主演名字

movie_time = li.css('.releasetime::text').get().replace('上映时间：', '')
# 上映时间也一样 只保留时间

最后这个评分是分开的需要做个字符串的拼接

getall() 拿到所有满足条件的class属性为score 下面i 标签中的文本其返回的是个列表通过对列表取值就可以拿到这两个分开的评分最后拼接起来输出打印莫问题

movie_s = li.css('.score i::text').getall()[0]
movie_ore = li.css('.score i::text').getall()[-1]
movie_score = movie_s + movie_ore

所有的信息提取完毕接下来我们保存数据

三.保存数据

将数据存储在字典中在外面定义一个空列表最后将字典添加到列表中

data = []dit = {'电影名': movie_name,'主演': movie_actor,'上映时间': movie_time,'评分': movie_score
}
data.append(dit)

最后听过pandas 保存数据

# 传入我们的列表 设置索引列为false 即不生成额外的一列索引
pd.DataFrame(data).to_excel('Top100.xlsx', index=False)

本次爬虫板块的代码如下还有保存到数据库的就不讲解了详细的话看我之前的文章
多页爬取的话分析几页的url地址可得多了个offset参数每页间隔10 后续通过for循环遍历即可

import requests
import parsel
import pandas as pd
import pymysql# 建立连接
connect = pymysql.connect(user='root',password="112233",host='localhost',database='douban', )
# 拿游标
cursor = connect.cursor()# 此模块集成了css  xpath re正则三种解析数据的模块
data = []
for page in range(0, 101, 10):url = f'https://www.maoyan.com/board/4?timeStamp=1741780786427&channelId=40011&index=2&signKey=30a132dd14a76c19cfd2759ba27adc28&sVersion=1&webdriver=false&offset={page}'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0','referer':'https://www.maoyan.com/','cookie':'你的cookie'}resp = requests.get(url, headers=headers)selector = parsel.Selector(resp.text)lis = selector.css('.board-wrapper dd')for li in lis:movie_name = li.css('.name a::attr(title)').get()movie_actor = li.css('.star::text').get().strip().replace('主演：', '')movie_time = li.css('.releasetime::text').get().replace('上映时间：', '')movie_s = li.css('.score i::text').getall()[0]movie_ore = li.css('.score i::text').getall()[-1]movie_score = movie_s + movie_oredit = {'电影名': movie_name,'主演': movie_actor,'上映时间': movie_time,'评分': movie_score}data.append(dit)# pd.DataFrame(data).to_excel('Top100.xlsx', index=False)#     准备sql语句sql = 'insert into top100 values (%s,%s,%s,%s)'cursor.executemany(sql,[(movie_name,movie_actor,movie_time,movie_score)])# 提交事务connect.commit()

爬取的数据如下:

接着我们清洗数据将excel文件中上映时间的字段中的国家地名去掉只保留纯日期数值
至于如何查看数据的一些信息语法就不在这里介绍了可以看之前的文章

# 导包 读取文件
import pandas as pddf = pd.read_excel('Top100.xlsx', index_col=False)
# 将上映时间这一列的数据中的日期提取出来 重新赋值给上映时间这一列
df['上映时间'] = df['上映时间'].str.extract(r'(\d{4}-\d{2}-\d{2})')# 去除空数据
# 将数据中的空数据去除  在原有的数据上
df.dropna(inplace=True)# 将处理好的数据保存到新的文件中  不生成索引列
df.to_excel('new_Top.xlsx', index=False)

# 导包
from pyecharts.charts import Line
from pyecharts import options as opts# 生成柱状图
c = (Line()# 添加x轴 数据 将电影名这一列的数据转换成列表.add_xaxis(df['电影名'].tolist())# 添加y轴 设置y轴名称  同样将数据转换成列表.add_yaxis('评分', df['评分'].tolist())# 设置 配置项.set_global_opts(# 标题与副标题的设置title_opts=opts.TitleOpts(title="Top100电影评分", subtitle='副标题'),# x轴相关的设置  设置x轴的数据 向右旋转45 -45 为逆时针xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)))# 列的设置 不显示每一列上面的数据.set_series_opts(label_opts=opts.LabelOpts(is_show=False))
)
# 生成html 文件
c.render('Top100.html')

爬虫基础之爬取猫眼Top100 可视化

网站: TOP100榜 - 猫眼电影 - 一网打尽好电影本次案例所需用到的模块 requests (发送HTTP请求) pandas(数据处理和分析保存数据) parsel(解析HTML数据) pyecharts(数据可视化图表) pymysql(连接和操作MySQL数据库) lxml(数据解析模块) 确定爬取的内容: 电影名称电影主演…...

编程日记 2026/2/20 14:14:04

ffmpeg库视频硬解码使用流程

FFmpeg 的硬解码（Hardware Decoding）通过调用 GPU 或专用硬件的编解码能力实现，能显著降低 CPU 占用率。 ‌一、FFmpeg 支持的硬件解码类型‌ FFmpeg 原生支持多种硬件加速类型，具体由 AVHWDeviceType 定义，包括&…...

编程日记 2026/2/13 22:33:15

LS-NET-006-思科MDS 9148S 查看内存

LS-NET-006-思科MDS 9148S 查看内存方法一：使用 show version 命令该命令可显示设备的基本系统信息，包括内存总量。登录交换机的CLI（通过控制台或SSH连接）。输入命令： show version 在输出中查找类似以下内容…...

编程日记 2026/2/28 6:47:00

小程序API —— 54 路由与通信 - 编程式导航

在小程序中实现页面的跳转，有两种方式： 声明式导航：navigator 组件编程式导航：使用小程序提供的 API 编程式导航 API 提供了五个常用的 API 方法： wx.navigateTo()：保留当前页面，跳转到应用内…...

编程日记 2026/2/28 3:54:29

关于金融开发领域的一些专业知识总结

目录 1. 交易生命周期 1.1 证券交易所 1.1.1 交易前 1) 订单生成（Order Generation） 2) 订单管理（Order Management） 1.1.2 交易执行 3) 交易匹配（Trade Matching） 1.1.3 交易后 4) 交易确认&…...

编程日记 2026/3/2 18:17:02

使用 `pytest` 框架时，可以通过极限封装将 YAML 文件的读取、解析

在使用 pytest 框架时，可以通过极限封装将 YAML 文件的读取、解析和测试用例的通用逻辑封装成共享的方法或 fixture，从而减少重复代码。以下是详细的实现步骤和示例。 1. 封装 YAML 文件读取和解析将 YAML 文件的读取和解析逻辑封装到一个工具函数中，供所有测试用例调用。…...

编程日记 2026/2/27 13:18:00

蓝桥杯练习day3：反转字符串

一、题意写一个函数，其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。不要给另外的数组分配额外的空间，你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。示例 1： 输入：s [“h”,“e”,“…...

编程日记 2026/2/15 8:05:50

DeepSeek-R1深度解读

deepseek提出了一种通过强化学习（RL）激励大语言模型（LLMs）推理能力的方法，个人认为最让人兴奋的点是：通过RL发现了一个叫“Aha Moment”的现象，这个时刻发生在模型的中间版本中。在这个阶段&…...

编程日记 2026/2/23 13:53:15

15-双链表-双链表基本操作

题目来源 827. 双链表 - AcWing题库思路此题我只想说，千万千万别漏了头结点和尾结点，不然根本查不出来是哪里出了问题，因为传入的k会有问题；最左边插入，相当于是在头结点的右边插入（也就是0号节点的右…...

编程日记 2026/2/27 1:48:00

正则表达式详解（regular expression）

💡 正则表达式（Regular Expression, regex）知识点总结 💡 正则表达式是一种用于匹配字符串的模式，广泛用于搜索、替换、验证等操作。 📌 正则表达式的主要作用 1️⃣ 字符串匹配 🧐 检查一个…...

编程日记 2026/2/28 11:21:58

经典面试题：C/C++中static关键字的三大核心作用与实战应用

一、修饰局部变量：改变生命周期，保留跨调用状态核心作用： 延长生命周期：将局部变量从栈区移至静态存储区（数据段或BSS段），生命周期与程序一致保留状态：变量在函数多次调用间保…...

编程日记 2026/2/24 3:36:44

笔记：代码随想录算法训练营day57：99.岛屿数量深搜、岛屿数量广搜、100.岛屿的最大面积

学习资料：代码随想录注：文中含大模型生成内容 99. 岛屿数量卡码网题目链接（ACM模式） 先看深搜方法：找到未标标记过的说明找到一片陆地的或者一片陆地的一个角落，dfs搜索是寻找相连接的陆地其余部分并…...

编程日记 2026/2/23 4:16:42

【小也的Java之旅系列】01 分布式、集群、微服务的区别

前言做Java开发多年，一直以来都有想把Java做成一个系列的想法，最近整理自己的笔记发现有很多值得写的内容，但这些内容又往往杂乱不堪。CSDN上有很多高质量的Java博客，但大多不是从一个人成长的角度去写的。而我们——一个技术人…...

编程日记 2026/2/28 20:35:04

基于视觉的核桃分级与套膜装置研究（大纲）

基于视觉的核桃分级与套膜装置研究：从设计到实现的完整指南 （SolidWorks、OpenCV、STM32开发实践） 🌟 项目背景与目标 1.1 为什么选择视觉分级与套膜？ 产业痛点： 中国核桃年产量全球第一，但…...

编程日记 2026/2/28 15:22:06

JimuReport与deepseek结合，颠覆现有BI模式

在数字化转型的浪潮中，企业对数据的依赖程度越来越高，如何高效地分析和利用数据成为关键。JimuReport凭借其强大的报表设计能力和灵活的数据处理功能，已经成为众多企业的首选工具。如今，它即将与DeepSeek深度结合，为企…...

编程日记 2026/2/26 12:20:40

大白话详细解读函数之柯里化

1. 函数柯里化是什么？ 函数柯里化是一种将多参数函数转换成一系列单参数函数的技术。简单来说，就是把一个接收多个参数的函数，变成每次只接收一个参数，并返回一个新函数，直到所有参数都接收完毕，最后返回结…...

编程日记 2025/11/27 7:56:00

11、STL中的set使用方法

一、了解 set 是 C 标准模板库（STL）中提供的有序关联容器之一。基于红黑树（Red-Black Tree）实现，用于存储一组唯一的元素，并按照元素的值进行排序。 set的特性唯一性键是唯一的。无重复。有序性按升序…...

编程日记 2026/2/28 16:20:44

git 子模块的使用

1. 子模块的核心概念独立性：子模块是一个独立的 Git 仓库，有自己的提交历史和分支。指针机制：主仓库仅记录子模块的特定提交（而不是分支），确保代码版本可控。适用场景：依赖第三方库、多项目…...

编程日记 2026/2/14 20:29:51

vsftpd服务权限配置

主配置文件：/etc/vsftpd/vsftpd.conf anonymous_enableYES　　 #是否启用匿名用户 no_anon_passwordYES 　　#匿名用户login时不询问口令 anon_upload_enableyes | no # 匿名用户对文件（非目录）上传权限。 anon_world_readable_onlyyes | …...

编程日记 2026/2/16 16:16:50

遥感数据获取、处理、分析到模型搭建全流程学习！DeepSeek、Python、OpenCV驱动空天地遥感数据分析

【扔进数据，直接出结果】在科技飞速发展的时代，遥感数据的精准分析已经成为推动各行业智能决策的关键工具。从无人机监测农田到卫星数据支持气候研究，空天地遥感数据正以前所未有的方式为科研和商业带来深刻变革。然而，对于许多专…...

编程日记 2026/2/18 13:06:55

操作系统——（管程、线程、进程通信）

目录一、管程机制 （1）管程定义 （2）特点： 二、进程通信 （1）概念 （2）高级通信机制三、线程 （1）概念 （2）与进程比较…...

编程日记 2026/2/13 17:14:40

Sqlserver安全篇之_启用和禁用Named Pipes的案列介绍

https://learn.microsoft.com/zh-cn/sql/tools/configuration-manager/named-pipes-properties?viewsql-server-ver16 https://learn.microsoft.com/zh-cn/sql/tools/configuration-manager/client-protocols-named-pipes-properties-protocol-tab?viewsql-server-ver16 默认…...

编程日记 2026/2/21 18:14:01

确定爬取的内容:

电影名称

电影主演

上映时间

评分

分析页面:

爬取步骤:

一.发送请求 模拟浏览器向服务器发送请求

二. 解析数据 从网页中提取数据

三. 保存数据 将爬取到的数据保存为本地文件

第二步 解析数据

三.保存数据

相关文章：

一.发送请求模拟浏览器向服务器发送请求

二. 解析数据从网页中提取数据

三. 保存数据将爬取到的数据保存为本地文件

第二步解析数据