当前位置：首页 > news >正文

Spark编程实验三：Spark SQL编程

news 2025/8/25 3:48:46

一、目的与要求

二、实验内容

三、实验步骤

1、Spark SQL基本操作

2、编程实现将RDD转换为DataFrame

3、编程实现利用DataFrame读写MySQL的数据

四、结果分析与实验体会

一、目的与要求

1、通过实验掌握Spark SQL的基本编程方法；
2、熟悉RDD到DataFrame的转化方法；
3、熟悉利用Spark SQL管理来自不同数据源的数据。

二、实验内容

1、Spark SQL基本操作

将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。

{ "id":1 , "name":"Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

{ "id":5 , "name":"Damon" }

为employee.json创建DataFrame，并写出Python语句完成下列操作：
（1）查询所有数据；
（2）查询所有数据，并去除重复的数据；
（3）查询所有数据，打印时去除id字段；
（4）筛选出age>30的记录；
（5）将数据按age分组；
（6）将数据按name升序排列；
（7）取出前3行数据；
（8）查询所有记录的name列，并为其取别名为username；
（9）查询年龄age的平均值；
（10）查询年龄age的最小值。

2、编程实现将RDD转换为DataFrame

源文件内容如下（包含id,name,age）：

1,Ella,36

2,Bob,29

3,Jack,29

请将数据复制保存到Linux系统中，命名为employee.txt，实现从RDD转换得到DataFrame，并按“id:1,name:Ella,age:36”的格式打印出DataFrame的所有数据。请写出程序代码。

3、编程实现利用DataFrame读写MySQL的数据

（1）在MySQL数据库中新建数据库sparktest，再创建表employee，包含如表所示的两行数据。

（2）配置Spark通过JDBC连接数据库MySQL，编程实现利用DataFrame插入如表所示的三行数据到MySQL中，最后打印出age的最大值和age的总和。

三、实验步骤

1、Spark SQL基本操作

将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。

{ "id":1 , "name":"Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

{ "id":5 , "name":"Damon" }

为employee.json创建DataFrame，并写出Python语句完成下列操作：

>>> spark=SparkSession.builder.getOrCreate()
>>> df = spark.read.json("file:///home/zhc/mycode/sparksql/employee.json")

（1）查询所有数据；

>>> df.show()

（2）查询所有数据，并去除重复的数据；

>>> df.distinct().show()

（3）查询所有数据，打印时去除id字段；

>>> df.drop("id").show()

（4）筛选出age>30的记录；

>>> df.filter(df.age > 30).show()

（5）将数据按age分组；

>>> df.groupBy("age").count().show()

（6）将数据按name升序排列；

>>> df.sort(df.name.asc()).show()

（7）取出前3行数据；

>>> df.take(3)

（8）查询所有记录的name列，并为其取别名为username；

>>> df.select(df.name.alias("username")).show()

（9）查询年龄age的平均值；

>>> df.agg({"age": "mean"}).show()

（10）查询年龄age的最小值。

>>> df.agg({"age": "min"}).show()

2、编程实现将RDD转换为DataFrame

源文件内容如下（包含id,name,age）：

1,Ella,36

2,Bob,29

3,Jack,29

首先，在“/home/zhc/mycode/sparksql”目录下创建文件employee.txt

[root@bigdata sparksql]# vi employee.txt

然后，在该目录下新建一个py文件命名为rddtodf.py，然后写入如下py程序：

[root@bigdata sparksql]# vi rddtodf.py

#/home/zhc/mycode/sparksql/rddtodf.py
from pyspark.conf import SparkConf
from pyspark.sql.session import SparkSession
from pyspark import SparkContext
from pyspark.sql.types import Row
from pyspark.sql import SQLContext
if __name__ == "__main__":sc = SparkContext("local","Simple App")spark=SparkSession(sc)peopleRDD = spark.sparkContext.textFile("file:home/zhc/mycode/sparksql/employee.txt")rowRDD = peopleRDD.map(lambda line : line.split(",")).map(lambda attributes : Row(int(attributes[0]),attributes[1],int(attributes[2]))).toDF()rowRDD.createOrReplaceTempView("employee")personsDF = spark.sql("select * from employee")personsDF.rdd.map(lambda t : "id:"+str(t[0])+","+"Name:"+t[1]+","+"age:"+str(t[2])).foreach(print)

最后，运行该程序：

[root@bigdata sparksql]# python3 rddtodf.py

3、编程实现利用DataFrame读写MySQL的数据

（1）在MySQL数据库中新建数据库sparktest，再创建表employee，包含如表所示的两行数据。

（2）配置Spark通过JDBC连接数据库MySQL，编程实现利用DataFrame插入如表所示的三行数据到MySQL中，最后打印出age的最大值和age的总和。

首先，启动mysql服务并进入到mysql数据库中：

[root@bigdata sparksql]# systemctl start mysqld.service
[root@bigdata sparksql]# mysql -u root -p

然后开始接下来的操作。

（1）在MySQL数据库中新建数据库sparktest，再创建表employee，包含如表所示的两行数据。

mysql> create database sparktest;
mysql> use sparktest;
mysql> create table employee (id int(4), name char(20), gender char(4), age int(4));
mysql> insert into employee values(1,'Alice','F',22);
mysql> insert into employee values(2,'John','M',25);

（2）配置Spark通过JDBC连接数据库MySQL，编程实现利用DataFrame插入如表所示的三行数据到MySQL中，最后打印出age的最大值和age的总和。

首先，在“/home/zhc/mycode/sparksql”目录下面新建一个py程序并命名为mysqltest.py。

[root@bigdata sparksql]# vi mysqltest.py

接着，写入如下py程序：

#/home/zhc/mycode/sparksql/mysqltest.py
from pyspark.sql import Row
from pyspark.sql.types import *
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
spark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()
#下面设置模式信息
schema = StructType([StructField("id",IntegerType(),True),StructField("name", StringType(), True),StructField("gender", StringType(), True),StructField("age",IntegerType(), True)])
employeeRDD = spark.sparkContext.parallelize(["3 Mary F 26","4 Tom M 23","5 zhanghc M 21"]).map(lambda x:x.split(" "))
#下面创建Row对象，每个Row对象都是rowRDD中的一行
rowRDD = employeeRDD.map(lambda p:Row(int(p[0].strip()), p[1].strip(), p[2].strip(), int(p[3].strip())))
#建立起Row对象和模式之间的对应关系，也就是把数据和模式对应起来
employeeDF = spark.createDataFrame(rowRDD, schema)
#写入数据库
prop = {}
prop['user'] = 'root'
prop['password'] = 'MYsql123!'
prop['driver'] = "com.mysql.jdbc.Driver"
employeeDF.write.jdbc("jdbc:mysql://localhost:3306/sparktest?useSSL=false",'employee','append', prop)
employeeDF.collect()
employeeDF.agg({"age": "max"}).show()
employeeDF.agg({"age": "sum"}).show()

然后，直接运行该py程序即可得到结果：

[root@bigdata sparksql]# python3 mysqltest.py

最后，到MySQL Shell中，即可查看employee表中的所有信息。

mysql> select * from employee;

四、结果分析与实验体会

        Spark SQL是Apache Spark中用于处理结构化数据的模块。它提供了一种类似于SQL的编程接口，可以用于查询和分析数据。通过实验掌握了Spark SQL的基本编程方法，SparkSession支持从不同的数据源加载数据，并把数据转换成DataFrame，并且支持把DataFrame转换成SQLContext自身中的表，然后使用SQL语句来操作数据。
        在使用Spark SQL之前，需要创建一个SparkSession对象。可以使用SparkSession的read方法加载数据。可以使用DataFrame的createOrReplaceTempView方法将DataFrame注册为一个临时视图。可以使用SparkSession的sql方法执行SQL查询。除了使用SQL查询外，还可以使用DataFrame的API进行数据操作和转换。可以使用DataFrame的write方法将数据写入外部存储。在使用完SparkSession后，应该调用其close方法来关闭SparkSession。
        最后，还掌握了RDD到DataFrame的转化方法，并可以利用Spark SQL管理来自不同数据源的数据。

Spark编程实验三：Spark SQL编程

一、目的与要求

二、实验内容

三、实验步骤

1、Spark SQL基本操作

2、编程实现将RDD转换为DataFrame

3、编程实现利用DataFrame读写MySQL的数据

四、结果分析与实验体会

相关文章：

Spark编程实验三：Spark SQL编程

文献研读｜Prompt窃取与保护综述

cfa一级考生复习经验分享系列（十四）

vue本地缓存搜索记录（最多4条）

Linux创建Macvlan网络

从企业级负载均衡到云原生，深入解读F5

什么是redis雪崩

[足式机器人]Part2 Dr. CAN学习笔记-Ch00 - 数学知识基础

Jmeter、postman、python 三大主流技术如何操作数据库？

IRIS、Cache系统类汉化

【三维生成】稀疏重建、Image-to-3D方法（汇总）

Java基础知识：单元测试和调试技巧

[c]扫雷

数据结构-十大排序算法

Apache RocketMQ，构建云原生统一消息引擎

（四） ClickHouse 中使用 `MaterializedMySQL` 引擎单独同步 MySQL 数据库中的特定表（例如 `aaa` 和 `bbb`）

TikTok真题第4天 | 1366. 通过投票对团队排名、1029.两地调度、562.矩阵中最长的连续1线段

时序预测 | Matlab实现SSA-CNN-LSTM麻雀算法优化卷积长短期记忆神经网络时间序列预测

负载均衡——Ribbon

7.微服务设计原则

C++：std::is_convertible

VB.net复制Ntag213卡写入UID

python/java环境配置

ESP32读取DHT11温湿度数据

MODBUS TCP转CANopen 技术赋能高效协同作业

Matlab | matlab常用命令总结

JDK 17 新特性

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

C++.OpenGL （14/64）多光源（Multiple Lights）

安宝特案例丨Vuzix AR智能眼镜集成专业软件，助力卢森堡医院药房转型，赢得辉瑞创新奖