当前位置：首页 > news >正文

Spark SQL概述、数据帧与数据集

news 2026/2/9 10:53:28

文章目录

- - 一、准备工作
  - - 1、准备数据文件
    - 2、启动Spark Shell
  - 二、加载数据为Dataset
  - - 1、读文件得数据集
  - 三、给数据集添加元数据信息
  - - 1、定义学生样例类
    - 2、导入隐式转换
    - 3、将数据集转换成学生数据集
    - 4、对学生数据集进行操作
    - - （1）显示数据集内容
      - （2）打印数据集模式
      - （3）对数据集进行投影操作
      - （4）对数据集进行过滤操作
      - （5）对数据集进行统计操作
      - （6）对数据集进行排序操作
      - （7）重命名数据集字段
  - 四、将数据集转为数据帧
  - - 1、将数据集转为数据帧
    - 2、对学生数据帧进行操作
    - - （1）显示数据帧内容
      - （2）显示数据帧模式信息
      - （3）对数据帧进行投影操作
      - （4）对数据帧进行过滤操作
      - （5）对数据帧进行统计操作
      - （6）对数据帧进行排序操作
      - （7）重命名数据帧字段
  - 五、基于数据帧进行SQL查询
  - - 1、基于数据帧创建临时视图
    - 2、使用spark对象执行SQL查询
    - - （1）查询全部表记录
      - （2）显示数据表结构
      - （3）对表进行投影操作
      - （4）对表进行选择操作
      - （5）对表进行统计操作
      - （6）对表进行排序操作
      - （7）重命名数据表字段

一、准备工作

1、准备数据文件

1,郑秀芸,女,20
2,王志峰,男,18
3,陈燕文,女,21
4,郑国栋,男,19
5,肖雨涵,男,20

在/home目录里创建student.txt文件

cd /home
vim student.txt

将student.txt上传到HDFS的/student/input目录

hdfs dfs -mkdir -p /student/input
hdfs dfs -put student.txt /student/input

2、启动Spark Shell

启动Spark Shell，执行命令：spark-shell --master spark://master:7077

在这里插入图片描述

二、加载数据为Dataset

1、读文件得数据集

调用SparkSession对象的read.textFile()可以读取指定路径中的文件内容，并加载为一个Dataset
执行命令：val ds = spark.read.textFile("hdfs://master:9000/student/input/student.txt")

三、给数据集添加元数据信息

1、定义学生样例类

定义一个样例类Student，用于存放数据描述信息（Schema）
执行命令：case class Student(id: Int, name: String, gender: String, age: Int)

2、导入隐式转换

执行命令：import spark.implicits._ （_表示implicits包里所有的类，类似于Java里的*）

3、将数据集转换成学生数据集

执行命令:paste进入粘贴模式，然后执行如下命令

val studentDS = ds.map(line => {val fields = line.split(",")val id = fields(0).toIntval name = fields(1)val gender = fields(2)val age = fields(3).toIntStudent(id, name, gender, age)}
)

在这里插入图片描述

4、对学生数据集进行操作

（1）显示数据集内容

执行命令：studentDS.show

（2）打印数据集模式

执行命令：studentDS.printSchema

（3）对数据集进行投影操作

显示学生的姓名和年龄字段，执行命令：studentDS.select("name", "age").show
对应的SQL语句：select name, age from student

（4）对数据集进行过滤操作

显示女生记录，执行命令：studentDS.filter("gender == '女'").show
显示年龄在[19, 20]之间的记录
执行命令：val ds1 = studentDS.filter("age >= 19")
两个数据集求交集
可以有更简单的处理方式，执行命令：studentDS.filter("age >= 19 and age <= 20").show

（5）对数据集进行统计操作

求20岁以上的女生人数
分组统计男女生总年龄，执行命令：studentDS.groupBy("gender").sum("age").show
分组统计男女生平均年龄：执行命令：studentDS.groupBy("gender").sum("age").show
分组统计男女生最大年龄，执行命令：studentDS.groupBy("gender").max("age").show
分组统计男女生最小年龄，执行命令：studentDS.groupBy("gender").min("age").show

（6）对数据集进行排序操作

按年龄升序排列，执行命令：studentDS.sort("age").show()
按年龄降序排列，执行命令：studentDS.sort(studentDS("age").desc).show
先按性别升序排列，再按年龄降序排列，执行命令：studentDS.sort(studentDS("gender"), studentDS("age").desc).show()
对应的SQL语句：select * from student order by gender, age desc;

（7）重命名数据集字段

执行命令：studentDS.select(studentDS("id").as("学号"), studentDS("name").as("姓名"), studentDS("gender").as("性别"), studentDS("age").as("年龄")).show

四、将数据集转为数据帧

1、将数据集转为数据帧

将学生数据集转为学生数据帧，执行命令：val studentDF = studentDS.toDF()

2、对学生数据帧进行操作

（1）显示数据帧内容

显示学生数据帧内容，执行命令：studentDF.show

（2）显示数据帧模式信息

打印学生数据帧模式信息，执行命令：studentDF.printSchema

（3）对数据帧进行投影操作

显示学生数据帧姓名与年龄字段，年龄加1，执行命令：studentDF.select(studentDF("name"), studentDF("age") + 1).show

（4）对数据帧进行过滤操作

查询年龄在19岁以上的记录，执行命令：studentDF.filter(studentDF("age") > 19).show
查询20岁以上的女生记录，执行命令：studentDF.filter("age > 20 and gender == '女'").show()

（5）对数据帧进行统计操作

统计学生数据帧总记录数，执行命令：studentDF.count
分组统计男女生总年龄，执行命令：studentDF.groupBy("gender").sum("age").show
分组统计男女生平均年龄，执行命令：studentDF.groupBy("gender").avg("age").show
分组统计男女生最大年龄，执行命令：studentDF.groupBy("gender").max("age").show
分组统计男女生最小年龄，执行命令：studentDF.groupBy("gender").min("age").show
分组统计男女生人数，执行命令：studentDF.groupBy("gender").count.show

（6）对数据帧进行排序操作

对年龄升序排列，执行命令：studentDF.sort("age").show
对年龄降序排列，执行命令：studentDF.sort(studentDF("age").desc).show
先按性别升序，再按年龄降序，- 执行命令：studentDF.sort(studentDF("gender"), studentDF("age").desc).show

（7）重命名数据帧字段

执行命令：studentDF.select(studentDF("id").as("学号"), studentDF("name").as("姓名"), studentDF("gender").as("性别"), studentDF("age").as("年龄")).show

五、基于数据帧进行SQL查询

1、基于数据帧创建临时视图

执行命令：studentDF.createOrReplaceTempView("student")

2、使用spark对象执行SQL查询

（1）查询全部表记录

执行命令：spark.sql("select * from student").show

（2）显示数据表结构

执行命令：spark.sql("describe student").show

（3）对表进行投影操作

执行命令：spark.sql("select name, age + 1 from student").show

（4）对表进行选择操作

查询年龄在19岁以上的记录，执行命令：spark.sql("select * from student where age > 19").show
查询20岁以上的女生记录，执行命令：spark.sql("select * from student where age > 20 and gender = '女'").show()

（5）对表进行统计操作

查询学生表总记录数，执行命令：spark.sql("select count(*) count from student").show
分组统计男女生总年龄，执行命令：spark.sql("select gender, sum(age) from student group by gender").show
分组统计男女生平均年龄，执行命令：spark.sql("select gender, avg(age) from student group by gender").show
分组统计男女生最大年龄，执行命令：spark.sql("select gender, max(age) from student group by gender").show

在这里插入图片描述

分组统计男女生最小年龄，执行命令：spark.sql("select gender, min(age) from student group by gender").show
分组统计男女生人数，执行命令：spark.sql("select gender, count(*) count from student group by gender").show

（6）对表进行排序操作

按年龄升序排列，执行命令：spark.sql("select * from student order by age").show
按年龄降序排列，执行命令：spark.sql("select * from student order by age desc").show
先按性别升序，再按年龄降序，执行命令：spark.sql("select * from student order by gender asc, age desc").show

（7）重命名数据表字段

执行命令：spark.sql("select id stu_id, name stu_name, gender stu_gender, age stu_age from student").show()

Spark SQL概述、数据帧与数据集

文章目录一、准备工作1、准备数据文件2、启动Spark Shell 二、加载数据为Dataset1、读文件得数据集三、给数据集添加元数据信息1、定义学生样例类2、导入隐式转换3、将数据集转换成学生数据集4、对学生数据集进行操作（1）显示数据集内容（2&a…...

编程日记 2023/6/6 21:24:20

c# cad 二次开发类库 CAD表格的操作，给CAD添加一个表格

c# cad 二次开发类库 CAD表格的操作，给CAD添加一个表格 using Autodesk.AutoCAD.ApplicationServices; using Autodesk.AutoCAD.Colors; using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoCAD.EditorInput; using Autodesk.AutoCAD.Geometry; using A…...

编程日记 2023/6/6 21:19:19

单点登录的两种实现方式，分别有啥优缺点？

单点登录（Single Sign-On，简称SSO）是指在多个应用系统中，用户只需要登录一次，就可以访问所有已授权的系统资源的一种身份认证技术。SSO可以提升用户体验，减少用户密码管理工作量，并加强安全管理…...

编程日记 2023/6/6 21:14:18

opencv_c++学习（二十七）

一、单目相机模型上图为针孔相机成像原理，蓝色坐标中的O即为镜头光心。成像原理与小孔成像相同。单目相机映射关系如下： 将上式进行变换，就可以从三位空间映射到2维平面的公式。相机的畸变公式如下： 二、模型投影函数 vo…...

编程日记 2023/6/6 21:09:16

探查chatGPT插件：Outschool，resume，webhooks

引言在我们的日常工作和学习中，插件扮演着重要的角色。它们可以帮助我们提高效率，简化复杂的任务。在这篇文章中，我将介绍三个非常有用的插件：Outschool，resume，和webhooks，并通过具体的例子来…...

编程日记 2023/6/6 21:04:15

【学习笔记】Unity基础（七）【uGUI基础、利用render Texture实现小地图功能】

目录一 Canvas1.1 三种Render Space渲染空间 screen1.2 canvas scaler画布缩放器1.3sprite1.4 sprite packer1.5 unity目录1.6 RuleTile Tilemap1.7 sprite packer1.8 sorting layer 二 rect transform2.1 pivot 中轴中心点2.2 anchor 锚点2.3 uGUI源代码三 EventSystem3.1 …...

编程日记 2023/6/6 20:59:14

yolov5配置错误记录

这里是直接没有找到数据集，说明是路径错误。经过设置yaml后， # Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..] path: ../autodl-tmp/datasets/neu # dataset root dir tr…...

编程日记 2023/6/6 20:54:13

全平台数据 (数据库) 管理工具 DataCap 1.10.0 发布

当前版本涉及几个主要更新。 DataCap 已发布发布版本发布时间1.10.02023-05-30 General 修复服务启动默认连接 mongo修复了 sql 模板的 h2 db update_time 和 create_time改进 H2 元数据管理获取类型改进 mysql 元数据管理获取类型固定元数据管理数据页默认为 1重构数据渲染…...

编程日记 2023/6/6 20:49:12

使用Mybatis接口开发

文章目录目录前言公司项目用到了mybatis开发接口,虽然很简单,但是mybatis不是特别熟悉,这里学习一下一、Mybatis接口绑定的两种方式 1.接口绑定实现方式就是在接口的方法上加上Select,updateInsertDelete等注解 select注解介绍: 简便,能快速去操作sql,它只需要在mapper…...

编程日记 2023/6/6 20:44:10

数据采集技术的实现原理有哪些？

数据采集技术是指通过各种手段和技术手段，从互联网、移动设备、传感器等各种数据源中获取数据，并将其存储、处理和分析，以便为业务决策和应用提供支持。本文将介绍数据采集技术的实现原理，包括数据采集的基本流程、数据采集技术的…...

编程日记 2023/6/6 20:39:08

2023年数学建模随机森林：基于多个决策树的集成学习方法

2023年9月数学建模国赛期间提供ABCDE题思路加Matlab代码,专栏链接(赛前一个月恢复源码199,欢迎大家订阅):http://t.csdn.cn/Um9Zd 目录目录 1. 什么是随机森林？ 2. 随机森林的优缺点 3. 随机森林的构建过程...

编程日记 2023/6/6 20:34:07

OpenAI发布最新研究让大模型数学推理直接达到SOTA

🦉 AI新闻 🚀 OpenAI发布最新研究：基于过程奖励的监督方法，让大模型数学推理直接达到SOTA 摘要：OpenAI最新研究基于GPT-4微调，采用过程监督和结果监督两种监督方法，奖励每个正确推理步骤的过程…...

编程日记 2023/6/6 20:29:06

快速检测 GlassFish 任意文件读取漏洞的 Python 脚本

部分数据来源：ChatGPT 引言当下，互联网安全问题正愈发严重，黑客利用各种漏洞进行攻击的频率也在持续增加。在2015年10月，一位名为“路人甲”的安全研究员在乌云上公开了一个名为“应用服务器glassfish存在通用任意文件读取漏洞”的漏洞（编号：wooyun-2010-0144595），该…...

编程日记 2023/6/6 20:24:05

Docker镜像更新通知器DIUN

什么是 DIUN ? Docker Image Update Notifier 是一个用 Go 编写的 CLI 应用程序，可作为单个可执行文件和 Docker 映像交付，用于当 Docker 映像在 Docker registry中更新时接收通知。和老苏之前介绍过的 watchtower 不同，DIUN 只是通知&…...

编程日记 2023/6/6 20:19:04

插件框架PF4J-从理论到实践

PF4J:Plugin Framework for Java 目录是什么？ 不是什么？ 特点组件主要类流程概述 spring-pf4j 思考功能模块化我对pf4j的封装和使用demo GitHub - chlInGithub/pf4jDemo: pf4j demo 是什么？ 开源轻量级的插件框架。通过插件…...

编程日记 2023/6/6 20:14:03

怎么将pdf文件免费转为扫描件

推荐两个工具，也算是给自己记一下 1、手机：扫描全能王APP 太好使了，可以直接拍照并转换为扫描件不开会员的话会出现水印，因为我都是自己用或者交作业就没开支持读取相册，一次一张、多张都可以如果不想要水印也…...

编程日记 2023/6/6 20:09:00

vue+nodejs校园二手物品交易市场网站_xa1i4

。为满足如今日益复杂的管理需求，各类管理系统程序也在不断改进。本课题所设计的校园二手交易市场，使用vue框架，Mysql数据库、nodejs语言进行开发，它的优点代码不能从浏览器查看，保密性非常好，比其他的管理…...

编程日记 2023/6/6 20:03:59

Barra模型因子的构建及应用系列六之Book-to-Price因子

一、摘要在前期的Barra模型系列文章中，我们构建了Size因子、Beta因子、Momentum因子、Residual Volatility因子和NonLinear Size因子，并分别创建了对应的单因子策略，其中Size因子和NonLinear Siz因子具有很强的收益能力。本节文章将在该系列…...

编程日记 2023/6/6 19:58:57

【c语言习题】使用链表解决约瑟夫问题

创作不易，本篇文章如果帮助到了你，还请点赞关注支持一下♡>𖥦<)!! 主页专栏有更多知识，如有疑问欢迎大家指正讨论，共同进步！ 🔥c语言系列专栏：c语言之路重点知识整合 &#x…...

编程日记 2023/6/6 19:53:57

JVM之类的初始化与类加载机制

类的初始化 clinit 初始化阶段就是执行类构造器方法clinit的过程。此方法不需定义，是javac编译器自动收集类中的所有类变量的赋值动作和静态代码块中的语句合并而来。构造器方法中指令按语句在源文件中出现的顺序执行。clinit不同于类的构造器。(关联：…...

编程日记 2023/6/6 19:48:56

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外，K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案，全安装在K8S群集中。具体可参…...

编程新知 2025/8/23 5:51:08

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

反射获取方法和属性

Java反射获取方法在Java中，反射（Reflection）是一种强大的机制，允许程序在运行时访问和操作类的内部属性和方法。通过反射，可以动态地创建对象、调用方法、改变属性值，这在很多Java框架中如Spring和Hiberna…...

编程新知 2025/11/9 2:57:17

NLP学习路线图（二十三）：长短期记忆网络（LSTM）

在自然语言处理（NLP）领域，我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感，还是实现语言的翻译，都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心，而循环神经网络（RNN）曾被视为…...

编程新知 2026/2/1 7:05:28

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA：通过低成本全身远程操作学习双手移动操作传统模仿学习（Imitation Learning）缺点：聚焦与桌面操作，缺乏通用任务所需的移动性和灵活性本论文优点：（1）在ALOHA…...

编程新知 2026/1/27 14:18:20

视觉slam十四讲实践部分记录——ch2、ch3

ch2 一、使用g++编译.cpp为可执行文件并运行(P30) g++ helloSLAM.cpp ./a.out运行二、使用cmake编译 mkdir build cd build cmake .. makeCMakeCache.txt 文件仍然指向旧的目录。这表明在源代码目录中可能还存在旧的 CMakeCache.txt 文件，或者在构建过程中仍然引用了旧的路…...

编程新知 2026/2/6 15:56:54

QT3D学习笔记——圆台、圆锥

类名作用Qt3DWindow3D渲染窗口容器QEntity场景中的实体（对象或容器）QCamera控制观察视角QPointLight点光源QConeMesh圆锥几何网格QTransform控制实体的位置/旋转/缩放QPhongMaterialPhong光照材质（定义颜色、反光等）QFirstPersonC…...

编程新知 2026/1/29 5:26:37

DBLP数据库是什么？

DBLP（Digital Bibliography & Library Project）Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高，数据库文献更新速度很快，很好地反映了国际计算机科学学术研…...

编程新知 2026/2/4 20:54:56

【Veristand】Veristand环境安装教程-Linux RT / Windows

首先声明，此教程是针对Simulink编译模型并导入Veristand中编写的，同时需要注意的是老用户编译可能用的是Veristand Model Framework，那个是历史版本，且NI不会再维护，新版本编译支持为VeriStand Model Generation Suppo…...

编程新知 2026/2/5 20:04:55

文章目录

一、准备工作

1、准备数据文件

2、启动Spark Shell

二、加载数据为Dataset

1、读文件得数据集

三、给数据集添加元数据信息

1、定义学生样例类

2、导入隐式转换

3、将数据集转换成学生数据集

4、对学生数据集进行操作

（1）显示数据集内容

（2）打印数据集模式

（3）对数据集进行投影操作

（4）对数据集进行过滤操作

（5）对数据集进行统计操作

（6）对数据集进行排序操作

（7）重命名数据集字段

四、将数据集转为数据帧

1、将数据集转为数据帧

2、对学生数据帧进行操作

（1）显示数据帧内容

（2）显示数据帧模式信息

（3）对数据帧进行投影操作

（4）对数据帧进行过滤操作

（5）对数据帧进行统计操作

（6）对数据帧进行排序操作

（7）重命名数据帧字段

五、基于数据帧进行SQL查询

1、基于数据帧创建临时视图

2、使用spark对象执行SQL查询

（1）查询全部表记录

（2）显示数据表结构

（3）对表进行投影操作

（4）对表进行选择操作

（5）对表进行统计操作

（6）对表进行排序操作

（7）重命名数据表字段

相关文章：