Spark SQL概述、数据帧与数据集
文章目录
- 一、准备工作
- 1、准备数据文件
- 2、启动Spark Shell
- 二、加载数据为Dataset
- 1、读文件得数据集
- 三、给数据集添加元数据信息
- 1、定义学生样例类
- 2、导入隐式转换
- 3、将数据集转换成学生数据集
- 4、对学生数据集进行操作
- (1)显示数据集内容
- (2)打印数据集模式
- (3)对数据集进行投影操作
- (4)对数据集进行过滤操作
- (5)对数据集进行统计操作
- (6)对数据集进行排序操作
- (7)重命名数据集字段
- 四、将数据集转为数据帧
- 1、将数据集转为数据帧
- 2、对学生数据帧进行操作
- (1)显示数据帧内容
- (2)显示数据帧模式信息
- (3)对数据帧进行投影操作
- (4)对数据帧进行过滤操作
- (5)对数据帧进行统计操作
- (6)对数据帧进行排序操作
- (7)重命名数据帧字段
- 五、基于数据帧进行SQL查询
- 1、基于数据帧创建临时视图
- 2、使用spark对象执行SQL查询
- (1)查询全部表记录
- (2)显示数据表结构
- (3)对表进行投影操作
- (4)对表进行选择操作
- (5)对表进行统计操作
- (6)对表进行排序操作
- (7)重命名数据表字段
一、准备工作
1、准备数据文件
1,郑秀芸,女,20
2,王志峰,男,18
3,陈燕文,女,21
4,郑国栋,男,19
5,肖雨涵,男,20
- 在/home目录里创建student.txt文件
cd /home
vim student.txt
- 将student.txt上传到HDFS的/student/input目录
hdfs dfs -mkdir -p /student/input
hdfs dfs -put student.txt /student/input
2、启动Spark Shell
- 启动Spark Shell,执行命令:
spark-shell --master spark://master:7077

二、加载数据为Dataset
1、读文件得数据集
- 调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容,并加载为一个Dataset
- 执行命令:
val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt")

三、给数据集添加元数据信息
1、定义学生样例类
- 定义一个样例类Student,用于存放数据描述信息(Schema)
- 执行命令:
case class Student(id: Int, name: String, gender: String, age: Int)

2、导入隐式转换
- 执行命令:
import spark.implicits._(_表示implicits包里所有的类,类似于Java里的*)

3、将数据集转换成学生数据集
- 执行命令:paste进入粘贴模式,然后执行如下命令
val studentDS = ds.map(line => {val fields = line.split(",")val id = fields(0).toIntval name = fields(1)val gender = fields(2)val age = fields(3).toIntStudent(id, name, gender, age)}
)

4、对学生数据集进行操作
(1)显示数据集内容
- 执行命令:
studentDS.show

(2)打印数据集模式
- 执行命令:
studentDS.printSchema

(3)对数据集进行投影操作
- 显示学生的姓名和年龄字段,执行命令:
studentDS.select("name", "age").show

- 对应的SQL语句:
select name, age from student
(4)对数据集进行过滤操作
- 显示女生记录,执行命令:
studentDS.filter("gender == '女'").show

- 显示年龄在[19, 20]之间的记录
- 执行命令:
val ds1 = studentDS.filter("age >= 19")


- 两个数据集求交集

- 可以有更简单的处理方式,执行命令:
studentDS.filter("age >= 19 and age <= 20").show

(5)对数据集进行统计操作
- 求20岁以上的女生人数

- 分组统计男女生总年龄,执行命令:
studentDS.groupBy("gender").sum("age").show

- 分组统计男女生平均年龄:执行命令:
studentDS.groupBy("gender").sum("age").show

- 分组统计男女生最大年龄,执行命令:
studentDS.groupBy("gender").max("age").show

- 分组统计男女生最小年龄,执行命令:
studentDS.groupBy("gender").min("age").show

(6)对数据集进行排序操作
- 按年龄升序排列,执行命令:
studentDS.sort("age").show()

- 按年龄降序排列,执行命令:
studentDS.sort(studentDS("age").desc).show

- 先按性别升序排列,再按年龄降序排列,执行命令:
studentDS.sort(studentDS("gender"), studentDS("age").desc).show()

- 对应的SQL语句:
select * from student order by gender, age desc;
(7)重命名数据集字段
- 执行命令:
studentDS.select(studentDS("id").as("学号"), studentDS("name").as("姓名"), studentDS("gender").as("性别"), studentDS("age").as("年龄")).show

四、将数据集转为数据帧
1、将数据集转为数据帧
- 将学生数据集转为学生数据帧,执行命令:
val studentDF = studentDS.toDF()

2、对学生数据帧进行操作
(1)显示数据帧内容
- 显示学生数据帧内容,执行命令:
studentDF.show

(2)显示数据帧模式信息
- 打印学生数据帧模式信息,执行命令:
studentDF.printSchema

(3)对数据帧进行投影操作
- 显示学生数据帧姓名与年龄字段,年龄加1,执行命令:
studentDF.select(studentDF("name"), studentDF("age") + 1).show

(4)对数据帧进行过滤操作
- 查询年龄在19岁以上的记录,执行命令:
studentDF.filter(studentDF("age") > 19).show

- 查询20岁以上的女生记录,执行命令:
studentDF.filter("age > 20 and gender == '女'").show()

(5)对数据帧进行统计操作
- 统计学生数据帧总记录数,执行命令:
studentDF.count

- 分组统计男女生总年龄,执行命令:
studentDF.groupBy("gender").sum("age").show

- 分组统计男女生平均年龄,执行命令:
studentDF.groupBy("gender").avg("age").show

- 分组统计男女生最大年龄,执行命令:
studentDF.groupBy("gender").max("age").show

- 分组统计男女生最小年龄,执行命令:
studentDF.groupBy("gender").min("age").show

- 分组统计男女生人数,执行命令:
studentDF.groupBy("gender").count.show

(6)对数据帧进行排序操作
- 对年龄升序排列,执行命令:
studentDF.sort("age").show

- 对年龄降序排列,执行命令:
studentDF.sort(studentDF("age").desc).show

- 先按性别升序,再按年龄降序,- 执行命令:
studentDF.sort(studentDF("gender"), studentDF("age").desc).show

(7)重命名数据帧字段
- 执行命令:
studentDF.select(studentDF("id").as("学号"), studentDF("name").as("姓名"), studentDF("gender").as("性别"), studentDF("age").as("年龄")).show

五、基于数据帧进行SQL查询
1、基于数据帧创建临时视图
- 执行命令:
studentDF.createOrReplaceTempView("student")

2、使用spark对象执行SQL查询
(1)查询全部表记录
- 执行命令:
spark.sql("select * from student").show

(2)显示数据表结构
- 执行命令:
spark.sql("describe student").show

(3)对表进行投影操作
- 执行命令:
spark.sql("select name, age + 1 from student").show

(4)对表进行选择操作
- 查询年龄在19岁以上的记录,执行命令:
spark.sql("select * from student where age > 19").show

- 查询20岁以上的女生记录,执行命令:
spark.sql("select * from student where age > 20 and gender = '女'").show()

(5)对表进行统计操作
- 查询学生表总记录数,执行命令:
spark.sql("select count(*) count from student").show

- 分组统计男女生总年龄,执行命令:
spark.sql("select gender, sum(age) from student group by gender").show

- 分组统计男女生平均年龄,执行命令:
spark.sql("select gender, avg(age) from student group by gender").show

- 分组统计男女生最大年龄,执行命令:
spark.sql("select gender, max(age) from student group by gender").show

- 分组统计男女生最小年龄,执行命令:
spark.sql("select gender, min(age) from student group by gender").show

- 分组统计男女生人数,执行命令:
spark.sql("select gender, count(*) count from student group by gender").show

(6)对表进行排序操作
- 按年龄升序排列,执行命令:
spark.sql("select * from student order by age").show

- 按年龄降序排列,执行命令:
spark.sql("select * from student order by age desc").show

- 先按性别升序,再按年龄降序,执行命令:
spark.sql("select * from student order by gender asc, age desc").show

(7)重命名数据表字段
- 执行命令:
spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()

相关文章:
Spark SQL概述、数据帧与数据集
文章目录 一、准备工作1、准备数据文件2、启动Spark Shell 二、加载数据为Dataset1、读文件得数据集 三、给数据集添加元数据信息1、定义学生样例类2、导入隐式转换3、将数据集转换成学生数据集4、对学生数据集进行操作(1)显示数据集内容(2&a…...
c# cad 二次开发 类库 CAD表格的操作,给CAD添加一个表格
c# cad 二次开发 类库 CAD表格的操作,给CAD添加一个表格 using Autodesk.AutoCAD.ApplicationServices; using Autodesk.AutoCAD.Colors; using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoCAD.EditorInput; using Autodesk.AutoCAD.Geometry; using A…...
单点登录的两种实现方式,分别有啥优缺点?
单点登录(Single Sign-On,简称SSO)是指在多个应用系统中,用户只需要登录一次,就可以访问所有已授权的系统资源的一种身份认证技术。SSO可以提升用户体验,减少用户密码管理工作量,并加强安全管理…...
opencv_c++学习(二十七)
一、单目相机模型 上图为针孔相机成像原理,蓝色坐标中的O即为镜头光心。成像原理与小孔成像相同。 单目相机映射关系如下: 将上式进行变换,就可以从三位空间映射到2维平面的公式。 相机的畸变公式如下: 二、模型投影函数 vo…...
探查chatGPT插件:Outschool,resume,webhooks
引言 在我们的日常工作和学习中,插件扮演着重要的角色。它们可以帮助我们提高效率,简化复杂的任务。在这篇文章中,我将介绍三个非常有用的插件:Outschool,resume,和webhooks,并通过具体的例子来…...
【学习笔记】Unity基础(七)【uGUI基础、利用render Texture实现小地图功能】
目录 一 Canvas1.1 三种Render Space渲染空间 screen1.2 canvas scaler画布缩放器1.3sprite1.4 sprite packer1.5 unity目录1.6 RuleTile Tilemap1.7 sprite packer1.8 sorting layer 二 rect transform2.1 pivot 中轴 中心点2.2 anchor 锚点2.3 uGUI源代码 三 EventSystem3.1 …...
yolov5配置错误记录
这里是直接没有找到数据集,说明是路径错误。经过设置yaml后, # Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..] path: ../autodl-tmp/datasets/neu # dataset root dir tr…...
全平台数据 (数据库) 管理工具 DataCap 1.10.0 发布
当前版本涉及几个主要更新。 DataCap 已发布 发布版本发布时间1.10.02023-05-30 General 修复服务启动默认连接 mongo修复了 sql 模板的 h2 db update_time 和 create_time改进 H2 元数据管理获取类型改进 mysql 元数据管理获取类型固定元数据管理数据页默认为 1重构数据渲染…...
使用Mybatis接口开发
文章目录 目录 前言 公司项目用到了mybatis开发接口,虽然很简单,但是mybatis不是特别熟悉,这里学习一下 一、Mybatis接口绑定的两种方式 1.接口绑定实现方式 就是在接口的方法上加上Select,updateInsertDelete等注解 select注解介绍: 简便,能快速去操作sql,它只需要在mapper…...
数据采集技术的实现原理有哪些?
数据采集技术是指通过各种手段和技术手段,从互联网、移动设备、传感器等各种数据源中获取数据,并将其存储、处理和分析,以便为业务决策和应用提供支持。本文将介绍数据采集技术的实现原理,包括数据采集的基本流程、数据采集技术的…...
2023年数学建模随机森林:基于多个决策树的集成学习方法
2023年9月数学建模国赛期间提供ABCDE题思路加Matlab代码,专栏链接(赛前一个月恢复源码199,欢迎大家订阅):http://t.csdn.cn/Um9Zd 目录 目录 1. 什么是随机森林? 2. 随机森林的优缺点 3. 随机森林的构建过程...
OpenAI发布最新研究让大模型数学推理直接达到SOTA
🦉 AI新闻 🚀 OpenAI发布最新研究:基于过程奖励的监督方法,让大模型数学推理直接达到SOTA 摘要:OpenAI最新研究基于GPT-4微调,采用过程监督和结果监督两种监督方法,奖励每个正确推理步骤的过程…...
快速检测 GlassFish 任意文件读取漏洞的 Python 脚本
部分数据来源:ChatGPT 引言 当下,互联网安全问题正愈发严重,黑客利用各种漏洞进行攻击的频率也在持续增加。在2015年10月,一位名为“路人甲”的安全研究员在乌云上公开了一个名为“应用服务器glassfish存在通用任意文件读取漏洞”的漏洞(编号:wooyun-2010-0144595),该…...
Docker镜像更新通知器DIUN
什么是 DIUN ? Docker Image Update Notifier 是一个用 Go 编写的 CLI 应用程序,可作为单个可执行文件和 Docker 映像交付,用于当 Docker 映像在 Docker registry中更新时接收通知。 和老苏之前介绍过的 watchtower 不同,DIUN 只是通知&…...
插件框架PF4J-从理论到实践
PF4J:Plugin Framework for Java 目录 是什么? 不是什么? 特点 组件 主要类 流程概述 spring-pf4j 思考 功能模块化 我对pf4j的封装和使用demo GitHub - chlInGithub/pf4jDemo: pf4j demo 是什么? 开源轻量级的插件框架。通过插件…...
怎么将pdf文件免费转为扫描件
推荐两个工具,也算是给自己记一下 1、手机:扫描全能王APP 太好使了,可以直接拍照并转换为扫描件 不开会员的话会出现水印,因为我都是自己用或者交作业就没开 支持读取相册,一次一张、多张都可以 如果不想要水印也…...
vue+nodejs校园二手物品交易市场网站_xa1i4
。为满足如今日益复杂的管理需求,各类管理系统程序也在不断改进。本课题所设计的校园二手交易市场,使用vue框架,Mysql数据库、nodejs语言进行开发,它的优点代码不能从浏览器查看,保密性非常好,比其他的管理…...
Barra模型因子的构建及应用系列六之Book-to-Price因子
一、摘要 在前期的Barra模型系列文章中,我们构建了Size因子、Beta因子、Momentum因子、Residual Volatility因子和NonLinear Size因子,并分别创建了对应的单因子策略,其中Size因子和NonLinear Siz因子具有很强的收益能力。本节文章将在该系列…...
【c语言习题】使用链表解决约瑟夫问题
创作不易,本篇文章如果帮助到了你,还请点赞 关注支持一下♡>𖥦<)!! 主页专栏有更多知识,如有疑问欢迎大家指正讨论,共同进步! 🔥c语言系列专栏:c语言之路重点知识整合 &#x…...
JVM之类的初始化与类加载机制
类的初始化 clinit 初始化阶段就是执行类构造器方法clinit的过程。此方法不需定义,是javac编译器自动收集类中的所有类变量的赋值动作和静态代码块中的语句合并而来。构造器方法中指令按语句在源文件中出现的顺序执行。clinit不同于类的构造器。(关联:…...
从自动驾驶到AR眼镜:聊聊PSMNet这个双目立体匹配的‘老将’现在还能怎么用
PSMNet在2024年的技术重生:从经典立体匹配到轻量化落地的实战指南 六年前,当PSMNet在CVPR 2018上首次亮相时,其金字塔池化模块和堆叠沙漏3D CNN架构刷新了KITTI榜单的精度记录。如今,在Transformer大行其道的时代,这个…...
OpCore-Simplify:从3天手动调试到3步智能配置,黑苹果配置的自动化革命
OpCore-Simplify:从3天手动调试到3步智能配置,黑苹果配置的自动化革命 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 想象一下…...
光伏产业发展带动紧固件需求增长 市场趋势与应用分析 上海紧固件专业展
2026第十六届上海紧固件专业展(Fastener Expo Shanghai 2026)将于6月24日至26日在上海国家会展中心举行。随着新能源产业持续升温,光伏行业的快速发展正在显著带动紧固件市场需求增长,成为行业关注的重要方向。在全球能源转型的大…...
别再踩坑了!Django Ckeditor配置全指南:从基础使用到高级定制(2023最新版)
Django Ckeditor实战手册:2023年高效配置与深度定制技巧 如果你正在为Django项目寻找一个功能强大且可定制的富文本编辑器,Ckeditor无疑是最佳选择之一。但配置过程中那些令人头疼的兼容性问题、图片上传失败、工具栏自定义困难,确实让不少开…...
SEO自动化工具如何提高网站排名_SEO自动化工具如何进行数据报告
<h2>SEO自动化工具如何提高网站排名</h2> <p>在当今互联网时代,网站的排名直接关系到其流量和业务增长。SEO自动化工具如何在提高网站排名方面发挥作用呢?本文将从多个角度展开讨论,帮助你理解这些工具如何提升网站在搜索引…...
Python MCP服务部署卡在step3?揭秘92%开发者忽略的config.toml权限校验机制(配置失效终极诊断指南)
第一章:Python MCP服务部署卡在step3的典型现象与问题定位当执行 Python MCP(Model Control Platform)服务自动化部署脚本时,step3(即服务容器化构建与镜像推送阶段)常出现长时间无响应、日志停滞于 Buildi…...
为什么小数据集上神经网络会突然‘开窍‘?揭秘Grokking现象背后的LU机制
为什么小数据集上神经网络会突然"开窍"?揭秘Grokking现象背后的LU机制 在机器学习实践中,我们常常观察到一种反直觉的现象:当神经网络在小规模算法数据集上训练时,测试准确率会在长时间停滞于随机猜测水平后突然跃升至接…...
中山专用展示柜灯具,打造完美商品展示效果
在灯具销售领域,商品展示效果的好坏直接影响着销售业绩。一个好的展示柜不仅能保护灯具,更能通过巧妙的设计和布局,将灯具的优点充分展现出来,吸引顾客的目光。而中山作为中国著名的灯饰之都,其专用展示柜灯具更是有着…...
银行客户流失预警:用SMOTE与集成学习模型(如EasyEnsemble)应对数据不平衡挑战
银行客户流失预警:用SMOTE与集成学习模型应对数据不平衡挑战 在金融行业,客户流失预警一直是银行风控体系中的核心环节。当银行面临客户流失(少数类)远少于未流失客户(多数类)的情况时,传统的机…...
WooCommerce 高级报告与统计 – 订单、产品与客户报告 WordPress插件SQL注入[ CVE-2026-24993 ]
基本信息 项目详情漏洞编号CVE-2026-24993插件名称Advanced Reporting & Statistics for WooCommerce受影响版本< 4.1.3补丁版本4.1.4CVSS 3.17.5(高危)漏洞类型SQL注入(SQL Injection)利用难度低(无需认证&am…...
