当前位置: 首页 > news >正文

Python爬取猫眼电影票房 + 数据可视化

目录

    • 主角查看与分析 爬取
    • 可视化分析
      • 猫眼电影上座率前10分析
      • 猫眼电影票房场均人次前10分析
      • 猫眼电影票票房占比分析

主角查看与分析 爬取

对猫眼电影票房进行爬取,首先我们打开猫眼


接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12,我们可以看到详细信息。
在这里插入图片描述

通过两个对比,我们不难发现User-AgentsignKey数据是变化的(平台使用了数据加密)
在这里插入图片描述
所以我们需要对User-Agent与signKey分别进行解密。

通过造一个content字符串,包含请求方法、时间戳、User-Agent、index等信息,并对其进行MD5加密得到sign。最后将这些参数放入params字典中,准备发送请求。

def getData():url = 'https://piaofang.maoyan.com/dashboard-ajax/movie'useragents = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.183'headers = {'User-Agent':useragents,'Referer':'https://piaofang.maoyan.com/dashboard/movie'}useragents = str(base64.b64encode(useragents.encode('utf-8')),'utf-8')index = str(round(random.random() * 1000))times = str(math.ceil(time.time() * 1000))content = "method=GET&timeStamp={}&User-Agent={}&index={}&channelId=40009&sVersion=2&key=A013F70DB97834C0A5492378BD76C53A".format(times,useragents,index)md5 = hashlib.md5()md5.update(content.encode('utf-8'))sign = md5.hexdigest()params = {'orderType': '0','uuid': '17d79b87a00c8-015087c7514df4-5919145b-144000-17d79b87a00c8',# 时间戳'timeStamp': times,# base64加密'User-Agent': useragents,# 随机数 * 1000取整'index': index,'channelId': '40009','sVersion': '2',# md5加密'signKey': sign}

接着我们就可以对于猫眼电影票房数据进行爬取了,比如上座率、场均人次、票房占比、电影名称、上映时间、综合票房、排片场次和排片占比等。

    resps = requests.get(url = url , headers = headers, params = params).json()# print(resps)# 上座率数据缺省值这么使用数据data_avgSeatView = jsonpath.jsonpath(resps, '$..avgSeatView')# print(data_avgSeatView)# 场均人次data_avgShowView=jsonpath.jsonpath(resps,'$..avgShowView')# 票房占比data_boxRate=jsonpath.jsonpath(resps,'$..boxRate')# 电影名称data_name=jsonpath.jsonpath(resps,'$..movieName')# 上映时间data_time=jsonpath.jsonpath(resps,'$..releaseInfo')# 综合票房data_sumBoxDesc=jsonpath.jsonpath(resps,'$..sumBoxDesc')# 排片场次data_showCount=jsonpath.jsonpath(resps,'$..showCount')# 排片占比data_showCountRate=jsonpath.jsonpath(resps,'$..showCountRate')data={'电影名称':data_name,'上映时间':data_time,'上座率':data_avgSeatView,'场均人次':data_avgShowView,'票房占比':data_boxRate,'综合票房':data_sumBoxDesc,'排片场次':data_showCount,'排片占比':data_showCountRate}df = pd.DataFrame(pd.DataFrame.from_dict(data, orient='index').values.T, columns=list(data.keys()))print(df)df.to_csv("猫眼电影1.csv",index=False,encoding='utf-8')

通过DataFrame输出到控制台我们可以看到爬取成功。
在这里插入图片描述

可视化分析

import pandas as pd
data=pd.read_csv("猫眼电影1.csv")

在这里插入图片描述

数据缺省值处理

# 去除空值
data.dropna(inplace=True)
data

在这里插入图片描述

猫眼电影上座率前10分析

data_sorted = data.sort_values(by='上座率', ascending=False)
data_top10=data_sorted.head(10)
data_top10

在这里插入图片描述

data_top10['电影名称'].tolist()

在这里插入图片描述

percentage=data_top10['上座率'].tolist()
data_shangan=[percentage.replace("%", "") for percentage in percentage]
data_shangan

在这里插入图片描述

from pyecharts.charts import Bar,Line,Map,Page,Pie  
from pyecharts import options as opts 
from pyecharts.globals import SymbolType
from pyecharts.charts import Bar
# from pyecharts.charts import opts
#条形图  
#bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px')) 
bar1 = Bar() 
bar1.add_xaxis(data_top10['电影名称'].tolist())
bar1.add_yaxis('', data_shangan) 
bar1.set_global_opts(title_opts=opts.TitleOpts(title='猫眼电影上座率前10分析'),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=-15)),visualmap_opts=opts.VisualMapOpts(max_=28669)) bar1.render_notebook()

在这里插入图片描述

猫眼电影票房场均人次前10分析

data_sum = data.groupby('电影名称')['场均人次'].sum().sort_values(ascending=False)
data_sum[:10]

在这里插入图片描述

bar3 = Bar() 
bar3.add_xaxis(data_sum[:10].index.tolist())
bar3.add_yaxis('', data_sum[:10].values.tolist())
bar3.set_global_opts(title_opts=opts.TitleOpts(title='猫眼电影票房场均人次前10分析'),visualmap_opts=opts.VisualMapOpts(max_=900)) 
bar3.render_notebook()

在这里插入图片描述

猫眼电影票票房占比分析

data_pf= data.groupby('电影名称')['票房占比'].sum().sort_values(ascending=False)
data_pfzb=data_pf.tail(24)
data_pfzb.head(10)

在这里插入图片描述

data_pftop10 =  [list(z) for z in zip(data_pf.index.tolist(), data_pf.values.tolist())]# 绘制饼图
pie1 = Pie()
pie1.add('', data_pftop10, radius=['35%', '60%'])
pie1.set_global_opts(title_opts=opts.TitleOpts(title='猫眼电影票票房占比分析'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))
pie1.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))
pie1.set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
pie1.render_notebook() 

在这里插入图片描述

相关文章:

Python爬取猫眼电影票房 + 数据可视化

目录 主角查看与分析 爬取可视化分析猫眼电影上座率前10分析猫眼电影票房场均人次前10分析猫眼电影票票房占比分析 主角查看与分析 爬取 对猫眼电影票房进行爬取,首先我们打开猫眼 接着我们想要进行数据抓包,就要看网站的具体内容,通过按F12…...

Spring Boot深度解析:是什么、为何使用及其优势所在

在Java企业级应用开发的漫长历史中,Spring框架以其卓越的依赖注入和面向切面编程的能力,赢得了广大开发者的青睐。然而,随着技术的不断进步和项目的日益复杂,传统的Spring应用开发流程逐渐显得繁琐和低效。为了解决这一问题&#…...

面向对象——类与对象

文章目录 类与对象构造函数、析构函数get/set方法函数&#xff1a;类内声明、类外定义static 类与对象 #include<iostream> #include<string> using namespace std; /* 类与对象 */ class Person{public:string name;// 固有属性&#xff0c;成员变量 int age;pu…...

Golang的[]interface{}为什么不能接收[]int?

在 Go 中&#xff0c;[]interface{} 和 []int 是两种不同的类型&#xff0c;虽然它们的底层数据结构都是切片&#xff0c;但是它们的元素类型不同。[]interface{} 是一个空接口切片&#xff0c;可以容纳任意类型的元素&#xff0c;而 []int 是一个整数切片&#xff0c;只能容纳…...

重启服务器或重启docker,导致emqx的Dashboard的密码重置为public

最近在项目中突然发现重启服务器,或者重启docker 修改好的emqx的Dashboard的密码重置为public 技术博客 http://idea.coderyj.com/ 1.解决办法就是固定 emqx的节点 # 拉取镜像 docker pull emqx/emqx# 创建目录&#xff0c;进行目录挂载 mkdir -p /docker/emqx/{etc,lib,data,…...

就业班 第三阶段(ansible) 2401--4.16 day2 ansible2 剧本+角色

六、Ansible playbook 简介 playbook 是 ansible 用于配置&#xff0c;部署&#xff0c;和管理被控节点的剧本。   通过 playbook 的详细描述&#xff0c;执行其中的一系列 tasks &#xff0c;可以让远端主机达到预期的状态。playbook 就像 Ansible 控制器给被控节点列出的的…...

常用的过滤网站扫描网站攻击的路径是那些,比如:/etc/passwd等

网站攻击中经常被尝试的路径主要包括利用漏洞获取敏感文件、执行系统命令或者注入恶意代码的尝试。以下是一些常见的被攻击者尝试访问的路径和文件&#xff0c;这些通常在网络入侵检测系统&#xff08;IDS&#xff09;和网络防火墙的过滤规则中被特别关注&#xff1a; 系统文件…...

考研数学|《1800》《660》《880》如何选择和搭配?(附资料分享)

直接说结论&#xff1a;基础不好先做1800、强化之前660&#xff0c;强化可选880/1000题。 首先&#xff0c;传统习题册存在的一个问题是题量较大&#xff0c;但难度波动较大。《汤家凤1800》和《张宇1000》题量庞大&#xff0c;但有些题目难度不够平衡&#xff0c;有些过于简单…...

论文笔记:Are Human-generated Demonstrations Necessary for In-context Learning?

iclr 2024 reviewer 评分 6668 1 intro 大型语言模型&#xff08;LLMs&#xff09;已显示出在上下文中学习的能力 给定几个带注释的示例作为演示&#xff0c;LLMs 能够为新的测试输入生成输出然而&#xff0c;现行的上下文学习&#xff08;ICL&#xff09;范式仍存在以下明显…...

C语言 | Leetcode C语言题解之第28题找出字符串中第一个匹配项的下标

题目&#xff1a; 题解&#xff1a; int strStr(char* haystack, char* needle) {int n strlen(haystack), m strlen(needle);if (m 0) {return 0;}int pi[m];pi[0] 0;for (int i 1, j 0; i < m; i) {while (j > 0 && needle[i] ! needle[j]) {j pi[j - …...

「Python大数据」数据采集-某东产品数据评论获取

前言 本文主要介绍通过python实现数据采集、脚本开发、办公自动化。数据内容范围:星级评分是1-3分、获取数据页面是前50页。 友情提示 法律分析:下列三种情况,爬虫有可能违法,严重的甚至构成犯罪: 爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法…...

ORACLE错误提示概述

OceanBase分布式数据库-海量数据 笔笔算数 保存起来方便自己查看错误代码。 ORA-00001: 违反唯一约束条件 (.) ORA-00017: 请求会话以设置跟踪事件 ORA-00018: 超出最大会话数 ORA-00019: 超出最大会话许可数 ORA-00020: 超出最大进程数 () ORA-00021: 会话附属于其它某些进程…...

2024年4月13日美团春招实习试题【第一题:好子矩阵】-题目+题解+在线评测【模拟】

2024年4月13日美团春招实习试题【第一题:好子矩阵】-题目题解在线评测【模拟】 题目描述&#xff1a;输入描述输出描述样例 解题思路一&#xff1a;模拟解题思路二&#xff1a;思路二解题思路三&#xff1a;直接判断 题目描述&#xff1a; 塔子哥定义一个矩阵是”好矩阵”&…...

ssm057学生公寓管理中心系统的设计与实现+jsp

学生公寓管理中心系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本学生公寓管理中心系统就是在这样的大环境下诞生&#xff0c;其可以帮助管…...

循环神经网络(RNN):概念、挑战与应用

循环神经网络&#xff08;RNN&#xff09;&#xff1a;概念、挑战与应用 1 引言 1.1 简要回顾 RNN 在深度学习中的位置与重要性 在深度学习的壮丽图景中&#xff0c;循环神经网络&#xff08;Recurrent Neural Networks&#xff0c;RNN&#xff09;占据着不可或缺的地位。自从…...

UML 介绍

前言 UML 简介。 文章目录 前言一、简介1、事务2、关系1&#xff09;依赖2&#xff09;关联聚合组合 3&#xff09;泛化4&#xff09;实现 二、类图三、对象图四、用例图五、交互图1、序列图&#xff08;顺序图&#xff09;2、通信图 六、状态图七、活动图八、构件图&#xff0…...

Pytorch——训练时,冻结网络部分参数的方法

一、原理&#xff1a; 要固定训练网络的哪几层&#xff0c;只需要找到这几层参数(parameter)&#xff0c;然后将其 .requires_grad 属性设置为 False 即可。 二、代码&#xff1a; # 根据参数层的 name 来进行冻结 unfreeze_layers ["text_id"] # 用列表 # 设置冻…...

制冷铜管焊接介绍

铜管是制冷装置的重要原材料&#xff0c;它主要有两种用途&#xff1a;①制作换热器。②制作连接管道和管件。常用的焊料类型有铜磷焊料、银铜焊料、铜锌焊料等。在焊接时要根据管道材料的特点&#xff0c;正确的选择焊料及熟练的操作&#xff0c;以确保焊接的质量。 1.1对同类…...

spring06:mybatis-spring(Spring整合MyBatis)

spring06&#xff1a;mybatis-spring&#xff08;Spring整合MyBatis&#xff09; 文章目录 spring06&#xff1a;mybatis-spring&#xff08;Spring整合MyBatis&#xff09;前言&#xff1a;什么是 MyBatis-Spring&#xff1f;MyBatis-Spring 会帮助你将 MyBatis 代码无缝地整合…...

如何使用自定义Promptbooks优化您的安全工作流程

在当今的数字化时代&#xff0c;安全工作流程的优化变得前所未有的重要。安全团队需要快速、有效地响应安全事件&#xff0c;以保护组织的数据和资产。Microsoft Copilot for Security提供了一种强大的工具——自定义Promptbooks&#xff0c;它可以帮助安全专家通过自动化和定制…...

2026中小企业OA软件排行榜TOP10(精简版)

2026年&#xff0c;中小企业数字化转型进入深水区&#xff0c;OA软件作为办公协同核心工具&#xff0c;是企业提升效率、规范流程、降本增效的关键支撑。随着SaaS模式普及、AI技术深度应用及信创政策落地&#xff0c;OA市场呈现“头部生态下沉、专业工具崛起、性价比为王”的格…...

MTKClient实战指南:联发科设备刷机与逆向工程全面解决方案

MTKClient实战指南&#xff1a;联发科设备刷机与逆向工程全面解决方案 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient MTKClient是一款专为联发科芯片设备设计的开源逆向工程与刷机工具&am…...

党建知识竞赛系统推荐:满足各级党组织需求的智能化工具

&#x1f6a9; 党建知识竞赛系统推荐&#xff1a;满足各级党组织需求的智能化工具创新党员教育形式 提升学习实效 推动智慧党建&#x1f3af; 一、核心价值与功能需求在新时代加强党的建设背景下&#xff0c;如何创新党员教育形式、提升学习实效&#xff0c;是各级党组织面临…...

SQLite Having 子句详解

SQLite Having 子句详解 SQLite 是一款轻量级的数据库管理系统,广泛应用于移动应用、桌面应用以及各种嵌入式系统。在 SQLite 中,HAVING 子句是一个非常重要的特性,它用于对 GROUP BY 子句的查询结果进行过滤。本文将详细介绍 SQLite 的 HAVING 子句,包括其用法、语法以及…...

AI应用着陆页模板:快速构建专业产品门户的实战指南

1. 项目概述&#xff1a;一个面向AI应用落地的着陆页模板 最近在折腾AI应用开发的朋友&#xff0c;估计都遇到过同一个问题&#xff1a;模型和算法好不容易调好了&#xff0c;后端API也搭起来了&#xff0c;但一到“怎么让用户用起来”这一步&#xff0c;就卡壳了。尤其是那个…...

共享屏幕怎么弄 共享屏幕用什么工具好

共享屏幕怎么弄&#xff1f;不管是异地办公同步方案、远程协助操作设备&#xff0c;还是和朋友分享游戏画面&#xff0c;都离不开共享屏幕的需求。共享屏幕怎么弄才不麻烦、不卡顿&#xff1f;其实答案很简单&#xff0c;无界趣连2.0就能轻松搞定&#xff0c;不用复杂设置&…...

2026年Hermes Agent/OpenClaw怎么部署?阿里云自动化部署及Token Plan配置

2026年Hermes Agent/OpenClaw怎么部署&#xff1f;阿里云自动化部署及Token Plan配置。OpenClaw是开源的个人AI助手&#xff0c;Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token P…...

ASML如何用“先买单后上菜”模式改写半导体设备研发规则

1. 从“被放鸽子”到“先买单后上菜”&#xff1a;ASML的450毫米晶圆博弈论在半导体这个以“摩尔定律”为信仰的行业里&#xff0c;每一次技术节点的跃进都伴随着天文数字的投入和巨大的商业风险。对于设备商而言&#xff0c;最怕的不是技术难题&#xff0c;而是倾尽所有研发出…...

从“能用”到“愿用”:Lovable Serverless平台的6大心理学设计法则(基于87家头部企业DevOps调研数据)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;从“能用”到“愿用”&#xff1a;Lovable Serverless平台的认知跃迁 Serverless 并非仅关于函数执行与自动扩缩——真正的分水岭在于开发者是否**主动选择、持续信任并乐于传播**该平台。当运维负担归…...

“枯笔”“泼墨”“留白”在Midjourney中根本不存在?——资深数字书画师拆解6个被长期误用的东方美学关键词

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;东方美学与AI绘图的本质断层 气韵生动与像素采样的不可通约性 东方绘画传统以“气韵生动”为最高准则&#xff0c;强调笔意流转、留白呼吸、时间性观照与心手相忘的即兴生成。而当前主流AI绘图模型&am…...