当前位置: 首页 > news >正文

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType, StringType, StructType
import pyspark.sql.functions as Fif __name__ == '__main__':# 0.构建执行环境入口对象SparkSessionspark = SparkSession.builder.\appName('movie_demo').\master('local[*]').\getOrCreate()sc = spark.sparkContext# 1.读取文件schema = StructType().add('user_id', StringType(), nullable=True). \add('movie_id', IntegerType(), nullable=True).\add('rank', IntegerType(), nullable=True).\add('ts', StringType(), nullable=True)df = spark.read.format('csv').\option('sep', '\t').\option('header', False).\option('encoding', 'utf-8').\schema(schema=schema).\load('../input/u.data')# TODO 1:用户平均分df.groupBy('user_id').\avg('rank').\withColumnRenamed('avg(rank)', 'avg_rank').\withColumn('avg_rank', F.round('avg_rank', 2)).\orderBy('avg_rank', ascending=False).\show()# TODO 2:电影的平均分查询df.createTempView('movie')spark.sql('''SELECT movie_id, ROUND(AVG(rank),2) as avg_rank FROM movie GROUP BY movie_id ORDER BY avg_rank DESC''').show()# TODO 3:查询大于平均分的电影数量print('大于平均分电影数量为:', df.where(df['rank'] > df.select(F.avg('rank')).first()['avg(rank)']).count())# TODO 4:查询高分电影中(>3)打分次数最多的用户,此人打分的平均分# 找出打分次数最多的人user_id = df.where('rank>3').\groupBy('user_id').\count(). \withColumnRenamed('count', 'cnt').\orderBy('cnt', ascennding=False).\limit(1).\first()['user_id']# 算平均分df.filter(df['user_id'] == user_id).\select(F.round(F.avg('rank'), 2)).show()# TODO 5: 查询每个用户的平均分打分,最低打分,最高打分df.groupBy('user_id').\agg(F.round(F.avg('rank'), 2).alias('avg_rank'),F.min('rank').alias('min_rank'),F.max('rank').alias('max_rank')).show()# TODO 6:查询评分超过100次的电影的平均分 排名TOP10df.groupBy('movie_id').\agg(F.round(F.count('movie_id'),2).alias('cnt'),F.round(F.avg('rank'),2).alias('avg_rank')).\where('cnt > 100').\orderBy('avg_rank', ascending=False).\limit(10).\show()'''
1.agg:它是GroupedData对象的API,作用是:在里面可以写多个聚合
2.alias:它是Column对象的API,可以针对一个列进行改名
3.withColumnRenamed:它是DataFrame的API,可以对DF中的列进行改名,一次改一个列,改多个列可以链式调用
4.orderBy:DataFrame的API,进行排序,参数1是被排序的列,参数2是 升序(True)或降序(False)
5.first:DataFrame的API,取出DF的第一行数据,返回值结果是Row对象
## Row对象:就是一个数组,可以通过row['列名']来取出当前行中,某一列具体数值,返回值不再是DF 或者GroupedData 或者Column 而是具体的值(字符串、数字等)
'''

1.

2.

3.

4.

5.

6.

相关文章:

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…...

vue如何使用冻结对象提升代码效率及其原理解析

先给大家伙整个实际工作中一定会碰到的问题 如下vue dome ,它的代码非常简单功能也1非常简单,就是一个按钮,点击后会显示有多少条数据 来看看源码, html部分就是一个按钮绑定了一个loadData事件,然后在p标签内展示了这个myData这个数据的长度 <template><div id&quo…...

基于深度学习网络的手势识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; warning off; addpath(genpath(pwd)); rng(default)load gnet.mat[Pr…...

[论文笔记] 多语言模型中的负干扰研究结果和元学习算法

On Negative Interference in Multilingual Models: Findings and A Meta-Learning Treatment 多语言模型中的负干扰:研究结果和元学习解决办法 概述: 训练语料库大小(训练数据大小和 负干扰 无关)。 语言亲缘关系/语系 和 负干扰 有关。添加相似的语言并不能减轻负面干扰。…...

【OpenVINO】行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human-下篇

行人摔倒检测 — 基于 OpenVINO C# API 部署PP-Human 4. 配置 PP-Human_Fall_Detection 项目4.1 环境配置4.2 创建 AlxBoard_deploy_yolov8 项目4.3 添加项目源码4.4 添加 OpenVINO C# API4.5 添加 OpenCvSharp 5. 测试 PP-Human_Fall_Detection 项目5.1 创建视频读取器5.2 行人…...

运行报错(三)git bash报错fatal: detected dubious ownership in repository at

报错现象 在运行git 命令时&#xff0c;出现报错 “fatal: detected dubious ownership in repository at” 报错原因 文件夹的所有者和现在的用户不一致 栗子&#xff1a; 文件夹的所有者是root&#xff0c;而当前用户是admin 解决方案 方法一、 将文件夹的所有者替换成ad…...

nvm 的安装及使用

文章目录 一、nvm是什么&#xff1f;二、下载nvm三、在cmd控制台进行操作1、nvm 查询版本号2、查询可以下载的node版本3、安装指定版本4、查看已经安装的node版本5、切换node版本(如果失败那就用管理员身份打开cmd进行切换) 一、nvm是什么&#xff1f; nvm是一个node的版本管理…...

xcode Simulator 安装

xcode Simulator 安装 参考文档 xcode又又又升级了&#xff0c;升级完成之后不下载最新的 iOS 17 Simulator就不能编译运行了&#xff0c;只能静静的等他下载。但是离谱的是这个居然没有断点续下&#xff0c;每次都要重新下载&#xff0c;眼睁睁的看着下载了4个G然后断掉了从…...

【Maven教程】(八):使用 Nexus 创建私服 ~

Maven 使用 Nexus 创建私服 1️⃣ Nexus简介2️⃣ 安装 Nexus2.1 下载 Nexus2.2 Bundle 方式安装 Nexus2.3 WAR 方式安装 Nexus2.4 登录 Nexus 3️⃣ Nexus 的仓库与仓库组3.1 Nexus 内置的仓库3.2 Nexus 仓库分类的概念3.3 创建 Nexus 宿主仓库3.4 创建 Nexus 代理仓库3.5 创…...

螺旋矩阵[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给你一个m行n列的矩阵matrix&#xff0c;请按照顺时针螺旋顺序&#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5] 示例 2&#xf…...

babel6使用ES2020最新js语法

babel6使用ES2020最新js语法 Babel 6 原本是不支持 ES2020 语法&#xff0c;因为它是在 Babel 7 中引入的。如果您想使用 ES2020 语法&#xff0c;您需要将 Babel 6 升级到 Babel 7 或更高版本(推荐),当然也可以在bebel6中安装支持某个语法的plugin,比如你想使用 ES2020 中的可…...

【iOS】简单的网络请求

应iOS小组要求&#xff0c;仿写知乎日报需要实现网络请求并解析JSON格式数据&#xff0c;这篇文章仅对基本的网络请求和iOS中的JSON解析作以记录&#xff0c;还涉及到RunLoop的一点小插曲&#xff0c;具体请求过程和原理以后会详细学习&#xff01;&#x1f64f; 基本网络流程简…...

Vulnhub系列靶机---mhz_cxf: c1f

靶机文档&#xff1a;&#xff1a;mhz_cxf: c1f 下载地址&#xff1a;Download (Mirror): 网卡配置 靶机开机后按住shift&#xff0c;出现界面如图&#xff0c;按e键进入安全模式&#xff1a; 找到ro&#xff0c;删除该行后边内容&#xff0c;并将ro 。。。修改为&#xff1a…...

SDRAM与DRAM

SDRAM&#xff08;同步动态随机存取内存&#xff09;和DRAM&#xff08;动态随机存取内存&#xff09;都是RAM的一种类型&#xff0c;但是它们工作的方式有所不同。 DRAM&#xff1a;DRAM是最基础的动态随机存取内存&#xff0c;它的工作方式是总线在内存中读取或写入数据的速度…...

数据库基础(一)【MySQL】

文章目录 安装 MySQL修改密码连接和退出数据库服务器使用 systemctl 管理服务器进程配置数据库从文件角度看待数据库查看连接情况 安装 MySQL 这是在 Linux 中安装 MySQL 的教程&#xff1a;Linux 下 MySQL 安装。本系列测试用的 MySQL 版本是 5.7&#xff0c;机器是 centOS7.…...

C++ -- 位运算与常用库函数(ACWING语法基础)

位运算 & 与 | 或 ~ 非 ^ 异或 >> 右移 << 左移 常用操作&#xff1a; 求x的第k位数字 x >> k & 1lowbit(x) x & -x&#xff0c;返回x的最后一位1 常用库函数、 reverse 翻转 翻转一个vector&#xff1a; reverse(a.begin(), a.end(…...

老卫带你学---leetcode刷题(557. 反转字符串中的单词 III)

557. 反转字符串中的单词 III 问题&#xff1a; 给定一个字符串 s &#xff0c;你需要反转字符串中每个单词的字符顺序&#xff0c;同时仍保留空格和单词的初始顺序。 示例 1&#xff1a;输入&#xff1a;s "Lets take LeetCode contest" 输出&#xff1a;"…...

IEEE754 标准存储浮点数

1. IEEE754 标准简介 IEEE754 标准是一种用于浮点数表示和运算的标准&#xff0c;由国际电工委员会&#xff08;IEEE&#xff09;制定。它定义了浮点数的编码格式、舍入规则以及基本的算术运算规则&#xff0c;旨在提供一种可移植性和一致性的方式来表示和处理浮点数 IEEE754 …...

CSS 两栏布局

目录 CSS两栏布局&#xff08;左列定宽&#xff0c;右列自适应宽&#xff09; 方法一&#xff1a;浮动margin 方法二&#xff1a;定位margin 方法三&#xff1a;浮动BFC 方法四&#xff1a;Flex布局 方法五&#xff1a;able布局 CSS两栏布局&#xff08;左列不定宽&#…...

RHCSA常用命令总结

RHCSA回顾 1.Linux学习环境的安装部署 VMware虚拟机rhel9.x 磁盘容量&#xff1a;20GB cpu:1颗2核心 内存&#xff1a;2G 网卡&#xff1a;NAT 新CD/DVD设置镜像源文件 取消显示器的3d支持 &#xff08;1&#xff09;安装RHEL9 (2)组件&#xff1a;带有GUI的服务器 (3)分区…...

QueryExcel:解锁3大核心功能的多Excel文件极速查询指南

QueryExcel&#xff1a;解锁3大核心功能的多Excel文件极速查询指南 【免费下载链接】QueryExcel 多Excel文件内容查询工具。 项目地址: https://gitcode.com/gh_mirrors/qu/QueryExcel 直击痛点&#xff1a;数据查询的效率困境 场景一&#xff1a;财务报表核对 月底需从…...

零售AI实战:Ostrakon-VL-8B应用案例,智能分析商品种类、数量与陈列效果

零售AI实战&#xff1a;Ostrakon-VL-8B应用案例&#xff0c;智能分析商品种类、数量与陈列效果 1. 零售视觉分析的挑战与机遇 在零售行业&#xff0c;商品陈列和库存管理是影响销售的关键因素。传统的人工巡检方式存在效率低、成本高、主观性强等问题。以一个中型超市为例&am…...

智能监控新选择:基于实时口罩检测-通用模型的自动告警系统搭建

智能监控新选择&#xff1a;基于实时口罩检测-通用模型的自动告警系统搭建 1. 引言&#xff1a;智能防疫监控的迫切需求 在公共场所管理中&#xff0c;确保人员佩戴口罩是防疫工作的重要环节。传统的人工检查方式存在效率低、成本高、易遗漏等问题。基于计算机视觉的智能监控…...

实测雪女-斗罗大陆-造相Z-Turbo:简单几步,让文字描述变成精美动漫图

实测雪女-斗罗大陆-造相Z-Turbo&#xff1a;简单几步&#xff0c;让文字描述变成精美动漫图 1. 模型介绍与准备工作 1.1 什么是雪女-斗罗大陆-造相Z-Turbo 雪女-斗罗大陆-造相Z-Turbo是一款基于Xinference部署的文生图模型服务&#xff0c;专门用于生成斗罗大陆中雪女角色的…...

解决VSCode配置gcc编译环境中的常见问题:以MinGW安装失败为例

解决VSCode配置gcc编译环境中的常见问题&#xff1a;以MinGW安装失败为例 在开发C/C项目时&#xff0c;VSCode配合gcc编译器是一个轻量高效的组合方案。但许多开发者在配置过程中&#xff0c;特别是在Windows环境下安装MinGW时&#xff0c;常常会遇到各种"拦路虎"。…...

从唤醒到合成:基于讯飞、VOSK与DeepSeek的纯离线语音助手全链路实践

1. 纯离线语音助手的技术价值与应用场景 在智能设备普及的今天&#xff0c;语音交互已经成为人机交互的重要方式。但大多数语音助手都需要依赖云端服务&#xff0c;这意味着用户的语音数据需要上传到服务器进行处理。而基于讯飞唤醒、VOSK语音识别和DeepSeek大模型的纯离线方案…...

OpenPAI存储管理完全手册:支持NFS、SMB等多种存储方案

OpenPAI存储管理完全手册&#xff1a;支持NFS、SMB等多种存储方案 【免费下载链接】pai Resource scheduling and cluster management for AI 项目地址: https://gitcode.com/gh_mirrors/pa/pai OpenPAI作为开源AI平台&#xff0c;提供了完整的存储管理解决方案&#xf…...

MDK5.39编译报错Error:#268?手把手教你切换C99模式解决变量声明问题

MDK5.39编译报错Error:#268的深度解析与C99模式实战指南 当你在Windows 11环境下使用MDK5.39进行ARM嵌入式开发时&#xff0c;突然遇到"Error:#268: declaration may not appear after executable statement in block"这样的编译错误&#xff0c;确实会让人感到困惑。…...

H5游戏整合平台源码:70款游戏一键搭建,支持流量主变现的完整解决方案

一、平台概述与核心优势这套H5游戏整合平台源码是一套全面、实用且零门槛的一站式解决方案。它专为站长、开发者、创业团队及游戏爱好者打造&#xff0c;无需分散搜罗各类零散源码&#xff0c;一次获取即可拥有70余款经典H5网页小游戏。所有源码均基于原生H5技术开发&#xff0…...

重新安装微信新版本后才发现历史记录文件夹名称不匹配!解决方法

重新 安装/恢复 电脑&#xff0c;安装微信最新版本 记录文件夹变更为&#xff1a;xwechat_files 旧的格式&#xff1a;WeChat Files 找很多方法&#xff0c;以及腾讯官方的说明&#xff0c;无效、费解&#xff0c;来点干货&#xff0c;成功解决经验&#xff1a; &#xff08;1&…...