当前位置：首页 > news >正文

2023_Spark_实验十四：SparkSQL入门操作

news 2025/10/21 14:08:07

1、将emp.csv、dept.csv文件上传到分布式环境，再用

hdfs dfs -put dept.csv /input/

hdfs dfs -put emp.csv /input/

将本地文件put到hdfs文件系统的input目录下

2、或者调用本地文件也可以。区别：sc.textFile("file:///D:\\temp\\emp.csv")


import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.types._import spark.implicits._case classEmp(empno:Int,ename:String,job:String,mgr:String,hiredate:String,sal:Int,comm:String,deptno:Int)val lines =sc.textFile("hdfs://Master:9000/input/emp.csv").map(_.split(","))val allEmp = lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt))val allEmpDF = allEmp.toDFallEmpDF.show

StructType 是个case class,一般用于构建schema.
因为是case class,所以使用的时候可以不用new关键字

构造函数

可以传入Seq,List,Array,都是可以的~
还可以用无参的构造器,因为它有一个无参的构造器.

例子

private val schema: StructType = StructType(List(StructField("name", DataTypes.StringType),StructField("age", DataTypes.IntegerType)))

也可以是

private val schema: StructType = StructType(Array(StructField("name", DataTypes.StringType),StructField("age", DataTypes.IntegerType)))

还可以调用无参构造器,这么写

private val schema = (new StructType).add(StructField("name", DataTypes.StringType)).add(StructField("age", DataTypes.IntegerType))

这个无参的构造器,调用了一个有参构造器.this里面是个方法,这个方法的返回值是Array类型,实际上就是无参构造器调用了主构造器

def this() = this(Array.empty[StructField])case class StructType(fields: Array[StructField]) extends DataType with Seq[StructField] {}


import org.apache.spark.sql.types._val myschema =StructType(List(StructField("empno",DataTypes.IntegerType),StructField("ename",DataTypes.StringType),StructField("job",DataTypes.StringType),StructField("mgr",DataTypes.StringType),StructField("hiredate",DataTypes.StringType),StructField("sal",DataTypes.IntegerType),StructField("comm",DataTypes.StringType),StructField("deptno",DataTypes.IntegerType)))val empcsvRDD = sc.textFile("hdfs://Master:9000/input/emp.csv").map(_.split(","))import org.apache.spark.sql.Rowval rowRDD=empcsvRDD.map(line => Row (line(0).toInt,line(1),line(2),line(3),line(4),line(5).toInt,line(6),line(7).toInt))val df = spark.createDataFrame(rowRDD,myschema)

将people.json文件上传到分布式环境

hdfs  dfs -put people.json /inputhdfs  dfs -put emp.json /input

//读json文件

val df = spark.read.json("hdfs://Master:9000/input/emp.json")df.show

df.select ("ename").show

df.select($"ename").show

df.select($"ename",$"sal",$"sal"+100).show

df.filter($"sal">2000).show

df.groupBy($"deptno").count.show

df.createOrReplaceTempView("emp")

spark.sql("select * from emp").show

spark.sql("select * from emp where deptno=10").show

spark.sql("select deptno,sum(sal) from emp group by deptno").show


//1 创建一个普通的 view 和一个全局的 viewdf.createOrReplaceTempView("emp1")df.createGlobalTempView("emp2")//2 在当前会话中执行查询，均可查询出结果spark.sql("select * from emp1").showspark.sql("select * from global_temp.emp2").show//3 开启一个新的会话，执行同样的查询spark.newSession.sql("select * from emp1").show //运行出错spark.newSession.sql("select * from global_temp.emp2").show

//7、创建 Datasets//创建 DataSet，方式一：使用序列//1、定义 case classcase class MyData(a:Int,b:String)//2、生成序列，并创建 DataSetval ds = Seq(MyData(1,"Tom"),MyData(2,"Mary")).toDS//3、查看结果ds.showds.collect


//创建 DataSet，方式二：使用 JSON 数据//1、定义 case classcase class Person(name: String, gender: String)//2、通过 JSON 数据生成 DataFrameval df = spark.read.json(sc.parallelize("""{"gender": "Male", "name": "Tom"}""":: Nil))//3、将 DataFrame 转成 DataSetdf.as[Person].showdf.as[Person].collect


//创建 DataSet，方式三：使用 HDFS 数据val linesDS = spark.read.text("hdfs://Master:9000/input/word.txt").as[String]val words = linesDS.flatMap(_.split(" ")).filter(_.length > 3)words.showwords.collect


val result = linesDS.flatMap(_.split(" ")).map((_,1)).groupByKey(x => x._1).countresult.showresult.orderBy($"value").show

1、将emp.json文件上传到分布式环境，再用

hdfs dfs -put emp.json /input/

将本地文件put到hdfs文件系统的input目录下


//8、Datasets 的操作案例//1.使用 emp.json 生成 DataFrameval empDF = spark.read.json("hdfs://Master:9000/input/emp.json")//查询工资大于 3000 的员工empDF.where($"sal" >= 3000).show//创建 case classcase classEmp(empno:Long,ename:String,job:String,hiredate:String,mgr:String,sal:Long,comm:String,deptno:Long)//生成 DataSets，并查询数据val empDS = empDF.as[Emp]//查询工资大于 3000 的员工empDS.filter(_.sal > 3000).show//查看 10 号部门的员工empDS.filter(_.deptno == 10).show//多表查询//1、创建部门表val deptRDD=sc.textFile("hdfs://Master:9000/input/dept.csv").map(_.split(","))case class Dept(deptno:Int,dname:String,loc:String)val deptDS = deptRDD.map(x=>Dept(x(0).toInt,x(1),x(2))).toDS//2、创建员工表case classEmp(empno:Int,ename:String,job:String,mgr:String,hiredate:String,sal:Int,comm:String,deptno:Int)val empRDD = sc.textFile("hdfs://Master:9000/input/emp.csv").map(_.split(","))val empDS = empRDD.map(x =>Emp(x(0).toInt,x(1),x(2),x(3),x(4),x(5).toInt,x(6),x(7).toInt)).toDS//3、执行多表查询：等值链接val result = deptDS.join(empDS,"deptno")//另一种写法：注意有三个等号val result = deptDS.joinWith(empDS,deptDS("deptno")===empDS("deptno"))//查看执行计划：result.explain

2023_Spark_实验十四：SparkSQL入门操作

1、将emp.csv、dept.csv文件上传到分布式环境，再用 hdfs dfs -put dept.csv /input/ hdfs dfs -put emp.csv /input/ 将本地文件put到hdfs文件系统的input目录下 2、或者调用本地文件也可以。区别：sc.textFile("file:///D:\\temp\\emp.csv&qu…...

编程日记 2023/10/19 13:14:29

如何将几个模型合并成一个

1、什么时候需要合并模型？ 组装和装配：当你需要将多个零件或组件组装成一个整体时，可以合并它们成为一个模型。例如，在制造业中，当需要设计和展示一个完整的机械装置或产品时，可以将各个零部件合并成一个模…...

编程日记 2023/10/19 13:12:26

异常气体识别与飘移

Olfactory Target/Background Odor Detection via Self-expression Model 解决非目标气体检测摘要：提出了SeELM模型（自表达ELM模型） 分为两步：1.对获得的数据集进行建模，计算出自我表达系数矩阵，2.对于异…...

编程日记 2023/10/19 13:10:24

分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测

分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测目录分类预测 | Matlab实现WOA-BiLSTM鲸鱼算法优化双向长短期记忆神经网络的数据多输入分类预测分类效果基本描述程序设计参考资料分类效果基本描述 1.Matlab实现WOA-BiLSTM鲸鱼算法…...

编程日记 2023/10/19 13:09:23

35 机器学习（三）：混淆矩阵|朴素贝叶斯|决策树|随机森林

文章目录分类模型的评估混淆矩阵精确率和召回率接口介绍其他的补充朴素贝叶斯基础原理介绍拉普拉斯平滑下面给出应用的例子朴素贝叶斯的思辨决策树基础使用基本原理信息熵信息增益信息增益率Gini指数剪枝api介绍随机森林------集成学习初识基本使用api介绍分类模型的评估…...

编程日记 2023/10/19 13:08:22

ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+

该错误提示表示您的 OpenSSL 版本过低，无法兼容 urllib3 v2.0。解决此问题的方法是升级您的 OpenSSL 版本至 1.1.1 或以上。具体操作如下： 方法一： 检查您的 OpenSSL 版本，使用以下命令： openssl version 如果您的…...

编程日记 2023/10/19 13:07:21

webrtc gcc算法(1)

老的webrtc gcc算法,大概流程： 这两个拥塞控制算法分别是在发送端和接收端实现的， 接收端的拥塞控制算法所计算出的估计带宽， 会通过RTCP的remb反馈到发送端， 发送端综合两个控制算法的结果得到一个最终的发送码率，并以…...

编程日记 2023/10/19 13:06:19

2022年亚太杯APMCM数学建模大赛C题全球变暖与否全过程文档及程序

2022年亚太杯APMCM数学建模大赛 C题全球变暖与否原题再现： 加拿大的49.6C创造了地球北纬50以上地区的气温新纪录，一周内数百人死于高温；美国加利福尼亚州死亡谷是54.4C，这是有史以来地球上记录的最高温度；科威特53…...

编程日记 2023/10/19 13:05:18

苹果开发者 Xcode发布TestFlight全流程

打包前注意事项使用Xcode导出安装包之前，必须先确认账户的所有合约是否全部同意，如果有不同意的，在出包的时候会弹出报错这是什么意思这意味着您有一些需要在应用商店连接上验证的协议(protocol)/契约(Contract)。解决方案连接到应用商店…...

编程日记 2023/10/19 13:04:17

Spring Security—Servlet 应用架构

目录一、Filter（过滤器）回顾二、DelegatingFilterProxy 三、FilterChainProxy 四、SecurityFilterChain 五、Security Filter 六、打印出 Security Filter 七、添加自定义 Filter 到 Filter Chain 八、处理 Security 异常九、保存认证之间的…...

编程日记 2023/10/19 13:03:17

排序优化：如何实现一个通用的、高性能的排序函数？

文章来源于极客时间前google工程师−王争专栏。几乎所有的编程语言都会提供排序函数，比如java中的Collections.sort()。在平时的开发中，我们都是直接使用，这些排序函数是如何实现的？底层都利用了哪种排序算法呢？ 问题…...

编程日记 2023/10/19 13:02:16

车载开发学习——CAN总线

CAN总线又称为汽车总线，全程为“控制器局域网（Controller Area Network）”，即区域网络控制器，它将区域内的单一控制单元以某种形式连接在一起，形成一个系统。在这个系统内，大家以一种大家都认可…...

编程日记 2023/10/19 13:01:15

2023年知名国产数据库厂家汇总

随着信创国产化的崛起，大家纷纷在寻找可替代的国产数据库厂家。这里小编就给大家汇总了一些国内知名数据库厂家，仅供参考哦！ 2023年知名国产数据库厂家汇总 1、人大金仓 2、瀚高 3、高斯 4、阿里云 5、华为云 6、浪潮 7、达梦 8、南大…...

编程日记 2023/10/19 13:00:14

【ARM Coresight SoC-400/SoC-600 专栏导读】

文章目录 1. ARM Coresight SoC-400/SoC-600 专栏导读目录1.1 Coresight 专题1.1.1 Performance Profiling1.1.2 ARM Coresight DS-5 系列 1. ARM Coresight SoC-400/SoC-600 专栏导读目录本专栏全面介绍 ARM Coresight 系统及SoC-400, SoC-600 中的各个组件。 1.1 Coresigh…...

编程日记 2023/10/19 12:59:13

在Go中创建自定义错误

引言 Go提供了两种在标准库中创建错误的方法，[errors.New和fmt.Errorf]，当与用户交流更复杂的错误信息时，或在调试时与未来的自己交流时，有时这两种机制不足以充分捕获和报告所发生的情况。为了传达更复杂的错误信息并实现更多的…...

编程日记 2023/10/19 12:58:11

Vue.js2+Cesium1.103.0 十三、通过经纬度查询 GeoServer 发布的 wms 服务下的 feature 对象的相关信息

Vue.js2Cesium1.103.0 十三、通过经纬度查询 GeoServer 发布的 wms 服务下的 feature 对象的相关信息 Demo <template><divid"cesium-container"style"width: 100%; height: 100%;"><div style"position: absolute;z-index: 999;bott…...

编程日记 2023/10/19 12:57:10

使用STM32怎么喂狗（IWDG）

STM32F1 的独立看门狗（以下简称 IWDG）。 STM32F1内部自带了两个看门狗，一个是独立看门狗 IWDG，另一个是窗口看门狗 WWDG， 本章只介绍独立看门狗 IWDG，窗口看门狗 WWDG 会在后面章节介绍。本章要实现的功能…...

编程日记 2023/10/19 12:56:09

GEE：计算和打印GEE程序的执行时间

作者：CSDN @ _养乐多_ 本文记录了计算和打印程序的执行时间的Google Earth Engine （GEE）代码，并举例说明。大家在执行GEE代码的时候，有时候为了对比两个不同的脚本，不知道代码执行花费了多少时间。本文记录了打印代码执行时间的函数，并举了一个应用案例说明。可以知道…...

编程日记 2023/10/19 12:54:07

GDPU 数据结构天码行空5

一、实验目的 1．掌握队列的顺序存储结构 2．掌握队列先进先出运算原则在解决实际问题中的应用二、实验内容仿照教材顺序循环队列的例子，设计一个只使用队头指针和计数器的顺序循环队列抽象数据类型。其中操作包括：初始化、入队…...

编程日记 2023/10/19 12:53:06

SQLAlchemy学习-12.查询之 order_by 按desc 降序排序

前言 sqlalchemy的query默认是按id升序进行排序的，当我们需要按某个字段降序排序，就需要用到 order_by。 order_by 排序默认情况下 sqlalchemy 的 query 默认是按 id 升序进行排序的 res session.query(Project).all() print(res) # [<Project…...

编程日记 2023/10/19 12:52:04

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2025/10/19 9:06:57

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分： 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析： CTR…...

编程新知 2025/9/14 19:44:52

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2025/10/15 8:43:39

IGP（Interior Gateway Protocol，内部网关协议）

IGP（Interior Gateway Protocol，内部网关协议） 是一种用于在一个自治系统（AS）内部传递路由信息的路由协议，主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...

编程新知 2025/10/12 11:54:26

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2025/10/11 20:00:15

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/8/17 17:11:47

Robots.txt 文件

什么是robots.txt？ robots.txt 是一个位于网站根目录下的文本文件（如：https://example.com/robots.txt），它用于指导网络爬虫（如搜索引擎的蜘蛛程序）如何抓取该网站的内容。这个文件遵循 Robots…...

编程新知 2025/9/9 5:38:23

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/10/18 0:50:34

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录一、目的二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结一、目的当前市场上有很多目标检测智能识别的相关算法，当前调用一个医疗行业的AI识别算法后返回…...

编程新知 2025/10/18 15:59:41

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

在大数据时代，海量数据的采集与处理成为企业和研究机构获取信息的关键环节。Scrapy-Redis作为一种经典的分布式爬虫架构，在处理大规模数据抓取任务时展现出强大的能力。然而，随着业务规模的不断扩大和数据抓取需求的日益复杂，传统…...

编程新知 2025/10/18 16:30:22

相关文章：