当前位置：首页 > news >正文

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

news 2026/5/11 19:44:07

1. UDF函数（用户自定义函数）

一般指的是用户自己定义的单行函数。一进一出，函数接受的是一行中的一个或者多个字段值，返回一个值。比如MySQL中的，日期相关的dateDiff函数，字符串相关的substring函数。

先准备数据：

1.1 导入必要的包

首先，确保导入必要的Spark包：

import org.apache.spark.sql.SparkSession

1.2 创建SparkSession

创建一个SparkSession对象，这是与Spark交互的入口。

1.3 定义UDF并注册到SparkSQL

定义一个Scala函数，并将其注册为UDF。示例

1.4 使用UDF在SQL查询中：

调用udf的register方法，第一个参数是udf函数的函数名，第二个参数是要注册为UDF的函数。

session.udf.register("all_income",(sal:Int,bonus:Int)=>{sal*12 + bonus})

1.5 代码：

尽量使用SparkSQL的sql形式的写法，api写法太麻烦了。

object TestUDF{def main(args: Array[String]): Unit = {val session = SparkSession.builder().master("local[*]").appName("testUDF").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("D:\\software\\Spark\\SparkProgram1\\atguigu-classes\\data\\a.txt").map(t => {val strs = t.split(" ")(strs(0), strs(1), strs(2).toInt, strs(3).toInt)}).toDF("id", "name", "salary", "bonus")session.udf.register("all_income",(sal:Int,bonus:Int)=>{sal*12 + bonus})import org.apache.spark.sql.functions
//    df.withColumn("all",functions.callUDF("all_income",$"salary",$"bonus"))
//      .select("id","name","all")
//      .show()df.createTempView("salary")session.sql("""|select id,name,all_income(salary,bonus) all from salary|""".stripMargin).show()}
}

输出：

2. UDAF（用户自定义的聚合函数）

指的是用户自定义的聚合函数，多进一出，比如MySQL中的，count函数，avg函数。

以学生信息为主进行统计，所有人员的年龄的总和

或者每个性别的年龄的平均值

计算所有人的年龄之和：

package com.atguigu.bigdata.testimport org.apache.spark.sql.{Encoder, Encoders, SparkSession, functions}
import org.apache.spark.sql.expressions.Aggregator/*** ClassName : TestUDAF* Package : com.atguigu.bigdata.test* Description** @Author HeXua* @Create 2024/11/29 19:09*         Version 1.0*/
object TestUDAF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().appName("test udaf").master("local[*]").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("D:\\software\\Spark\\SparkProgram1\\atguigu-classes\\data\\a.txt").map(t => {val strs = t.split(" ")(strs(0), strs(1), strs(2).toInt, strs(3))}).toDF("id", "name", "age", "gender")import org.apache.spark.sql.functions._// 注册udaf函数session.udf.register("mysum",udaf(new MySum))df.createTempView("student")session.sql("""|select mysum(age) from student|""".stripMargin).show()}
}
// udaf的类继承Aggregator抽象类
class MySum extends Aggregator[Int,Int,Int]{//初始化def zero: Int = 0//聚合逻辑def reduce(b: Int, a: Int): Int = a+b//整体聚合def merge(b1: Int, b2: Int): Int = b1+b2//最终返回值def finish(reduction: Int): Int = reduction//累加值的类型def bufferEncoder: Encoder[Int] = Encoders.scalaInt//输出结果的类型def outputEncoder: Encoder[Int] = Encoders.scalaInt
}

定义用户自定义聚合函数时，继承Aggregator类需要指定三个泛型参数。这三个泛型参数分别代表不同的概念。

泛型参数解释：

1. 输入类型（IN）

这是聚合函数的输入类型，即每次调用reduce方法时传入的单个元素的类型。例如你要计算一组整数的平均值，输入类型就是int。

2. 缓冲区类型（BUFFER）

这是聚合函数的中间状态类型，也称为缓冲区类型。

例如你要计算一组整数的平均值，缓冲区可能包含两个字段：总和和计数，因为iBUF可能是一个元组。

3. 输出类型(OUT)

这是聚合函数的最终输出类型，即finish方法返回的类型。例如你要计算平均值，最终输出类型是Double。

方法解释：

zero：初始化缓冲区的值，对于平均值计算，初始化和计数都是0。

reduce：更新缓冲区，每次传入一个新的输入值时，更新总和和计数。

finish：计算最终结果，根据缓冲区中的总和和计数，计算平均值。

bufferEncoder：定义缓冲区类型的编码器，用于序列化和反序列化缓冲区。

outputEncoder：定义最终输出类型的编码器，用于序列化和反序列化输出结果。

计算每个性别的年龄的平均值：

case class AggragateVo(var cnt:Int,var sum:Int)
object MyAvg extends Aggregator[Int,AggragateVo,Double]{override def zero: AggragateVo = AggragateVo(0,0)override def reduce(b: AggragateVo, a: Int): AggragateVo = {b.cnt += 1b.sum += ab}override def merge(b1: AggragateVo, b2: AggragateVo): AggragateVo = {b1.cnt += b2.cntb1.sum += b2.sumb1}override def finish(reduction: AggragateVo): Double = {reduction.sum.toDouble /reduction.cnt}override def bufferEncoder: Encoder[AggragateVo] = Encoders.productoverride def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}

3. UDTF（用户自定义炸裂函数）

拆分函数，进入的是一行内容出现的结果是多行内容。

spark中并不直接支持UDTF函数。但可以使用hive中的炸裂函数达到效果。

import org.apache.spark.sql.SparkSessionobject TestUDTF {def main(args: Array[String]): Unit = {val session = SparkSession.builder().appName("test udtf").master("local[*]").getOrCreate()import session.implicits._val df = session.sparkContext.textFile("file:///headless/workspace/spark/data/m.txt").map(t => {val strs = t.split(",")(strs(0), strs(1), strs(2))}).toDF("id", "name", "actors")//explode map arraydf.createTempView("movies")session.sql("""|select id,name,actor  from movies lateral view explode(split(actors,'\\|')) t as actor|""".stripMargin).createTempView("movies1")session.sql("""|select count(1),actor from movies1 group by actor|""".stripMargin).show()}
}

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

1. UDF函数（用户自定义函数） 一般指的是用户自己定义的单行函数。一进一出，函数接受的是一行中的一个或者多个字段值，返回一个值。比如MySQL中的，日期相关的dateDiff函数，字符串相关的substring函数。先…...

编程日记 2024/12/1 16:52:27

#Java-JDK7、8的时间相关类，包装类

1. JDK7-Date类我们先来看时间的相关知识点世界标准时间: 格林尼治时间/格林威治时间(Greenwich Mean Time)简称GMT。目前世界标准时间(UTC)已经替换为:原子钟中国标准时间: 世界标准时间8小时时间单位换算: 1秒1000毫秒 1毫秒1000微秒 1微秒1000纳秒 Date类 Date类…...

编程日记 2024/12/1 16:51:26

tc 命令

Windows Network Shaper目前只能在win10及以下版本使用，在github上有源码。 iperf 是一个网络性能测试工具，可以测试网络带宽和延迟。 webrtc M96版本的GCC sudo tc qdisc del dev eth1 root //关闭限速 sudo tc qdisc add dev eth1 root handle 1: ht…...

编程日记 2024/12/1 16:50:23

基于Java Springboot 协同过滤算法音乐推荐系统

一、作品包含源码数据库设计文档万字全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue2、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA 数据库&#x…...

编程日记 2024/12/1 16:49:21

MyBatis框架-关联映射

MyBatis关联映射-一对一 1.1 实体关系实体–数据实体，实体关系指的就是数据与数据之间的关系例如：订单和商品，用户和角色实体关系分为以下四种： **一对一关联：**用户表和用户详情表数据表关系： 主键关…...

编程日记 2024/12/1 16:48:19

Web开发技术栈选择指南

互联网时代的蓬勃发展，让越来越多人投身软件开发领域。面对前端和后端的选择，很多初学者往往陷入迷茫。让我们一起深入了解这两个领域的特点，帮助你做出最适合自己的选择。在互联网发展的早期，前端开发主要负责页面布局和简单的…...

编程日记 2024/12/1 16:47:19

工具类的魔力：深入理解 Java 的 String、Math 和 Arrays

Java 提供了许多实用的工具类，帮助开发者简化代码，提升效率。这些工具类包含了各种常见的操作，比如字符串处理、数学计算、数组操作等。掌握这些工具类的高效使用方法，不仅能让你写出更简洁、优雅的代码，还能在性能上有…...

编程日记 2024/12/1 16:45:15

Linux下一次性关闭多个同名进程

要一次性关闭多个同名的 Python 进程，例如： 你可以使用以下几种方法。在执行这些操作之前，请务必确认这些进程确实是你希望终止的，以避免意外关闭其他重要的进程。方法一：使用 pkill 命令 pkill 是一个用于根据名称…...

编程日记 2024/12/1 16:44:13

1 virtual box 桥接的虚拟系统无 ipv4 地址 https://blog.csdn.net/qq_44847649/article/details/122582954 原因是 wlan 无线网卡没开共享给 virtual box host only (之前用过 vmware 也类似) 2 无法两台 windows10 物理机无法相互 ping 通 https://blog.csdn.net/qq_35…...

编程日记 2024/12/1 16:41:10

MATLAB —— 机械臂工作空间，可达性分析

系列文章目录前言本示例展示了如何使用可操作性指数对不同类型的机械手进行工作空间分析。工作空间分析是一种有用的工具，可用于确定机器人工作空间中最容易改变末端效应器位置和方向的区域。本示例的重点是利用不同的可操控性指数类型来分析各种机械手的工作空间。了解工作…...

编程日记 2024/12/1 16:38:08

18：（标准库）DMA二：DMA+串口收发数据

DMA串口收发数据 1、DMA串口发送数据2、DMA中断串口接收定长数据包3、串口空闲中断DMA接收不定长数据包4、串口空闲中断DMA接收不定长数据包DMA发送数据包 1、DMA串口发送数据当串口的波特率大于115200时，可以通过DMA1进行数据搬运，以防止数据的丢失。如…...

编程日记 2024/12/1 16:37:07

【C++】算术操作符与数据类型溢出详解

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯C 算术操作符详解基本算术操作符整数除法与取模行为类型转换在算术运算中的作用自增与自减操作符 💯数值溢出：当值超出类型范围时数据类型的取值范围…...

编程日记 2024/12/1 16:35:05

柔性芯片：实现万物互联的催化剂

物联网 (IoT) 市场已经非常成熟，麦肯锡预测，物联网将再创高峰，到 2030 年将达到 12.5 万亿美元的估值。然而，万物互联 (IoE) 的愿景尚未实现，即由数十亿台智能互联设备组成，提供大规模洞察和效率。究竟是…...

编程日记 2024/12/1 16:34:04

FFmpeg 简介与编译

1. ffmpeg 简介： FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移…...

编程日记 2024/12/1 16:33:02

低代码与微服务融合在医疗集团中的补充应用探究

摘要本论文深入探讨了低代码与微服务融合在医疗系统集群中的应用。分析了其优势，包括提高开发效率、降低技术门槛、灵活适应需求变化和易于维护扩展等；阐述了面临的挑战，如数据安全与隐私保护、技术应用复杂性等；并展望了其在医…...

编程日记 2024/12/1 16:28:55

速盾：高防cdn的搜索引擎回源是什么？

高防CDN（Content Delivery Network）是一种用于加速网站访问速度和增加安全性的服务，它通过将静态和动态内容缓存在全球分布的服务器上，从而将用户请求的响应时间降至最低，并提供有效的防御攻击的能力。在实际使用过程中…...

编程日记 2024/12/1 16:25:51

减少电路和配电系统谐波的五种方法

K 级变压器 ANSI 标准 C57.110-1986 定义了 K 系数来评估电路消耗多少谐波电流并确定该谐波电流的热效应。根据电路 K 系数，变压器按 K 等级制造。值得注意的是，K 级变压器不会减少谐波。K 等级表示变压器承受谐波有害影响的相对能力。K级变压器增加了铁…...

编程日记 2024/12/1 16:24:50

基于Java Springboot Vue3图书管理系统

一、作品包含源码数据库设计文档万字全套环境和工具资源部署教程二、项目技术前端技术：Html、Css、Js、Vue3、Element-ui 数据库：MySQL 后端技术：Java、Spring Boot、MyBatis 三、运行环境开发工具：IDEA 数据库&#x…...

编程日记 2024/12/1 16:23:50

vue-cli项目质量约束配置

同步发布于我的网站 🚀 package.json scriptslint-stageddevDependencies git-hooksno-eslintdevDependencies - scssdevDependencies - lessengines pre-commit.eslintrc.js.stylelintrc scssless vue.config.jsREADME.md package.json scripts "scripts&…...

编程日记 2024/12/1 16:21:48

第七课 Unity编辑器创建的资源优化_UI篇（UGUI）

上期我们学习了简单的Scene优化，接下来我们继续编辑器创建资源的UGUI优化 UI篇（UGUI） 优化UGUI应从哪些方面入手？ 可以从CPU和GPU两方面考虑，CPU方面，避免触发或减少Canvas的Rebuild和Rebatch&#xff0c…...

编程日记 2024/12/1 16:19:46

从ABL项目看激光武器发展：技术挑战、工程突破与未来转型

1. 项目背景与核心争议十几年前，当美国国防部（DoD）最终决定为YAL-1机载激光试验台（ABL）项目画上句号时，在军事与航空航天工程圈子里引发的讨论，远比一份简单的项目终止公告要复杂得多。这个项目…...

编程新知 2026/5/11 16:34:00

46页可编辑PPT | 企业数字化转型总体规划与实践汇报方案

很多企业在数字化转型过程中会遇到一些共同的痛点。比如，数据孤岛问题，不同部门的数据互不相通，导致信息共享困难；业务流程繁琐，效率低下，难以快速响应市场变化；技术更新换代快，现有…...

编程新知 2026/5/11 15:09:08

告别重启！IDEA里用JRebel插件实现Java代码秒级热更新（附最新激活与配置避坑指南）

告别重启！IDEA里用JRebel插件实现Java代码秒级热更新（附最新激活与配置避坑指南） 作为一名长期与Java打交道的开发者，你是否经历过这样的痛苦循环：修改一行代码 → 保存 → 等待漫长的Tomcat重启 → 验证修改 → 发现…...

编程新知 2026/5/11 15:06:57

深度解析：如何用League Akari实现英雄联盟对局效率提升300%的实战指南

深度解析：如何用League Akari实现英雄联盟对局效率提升300%的实战指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为每次英…...

编程新知 2026/5/11 15:02:48

120MHz Cortex-M3+150DMIPS+ART加速器：STM32F205RBT6的性能参数解析

STM32F205RBT6：120MHz Cortex-M3工业互联MCU的技术解析在工业控制、电机驱动以及物联网网关等嵌入式应用中，微控制器往往需要同时兼顾高算力、实时响应与丰富的工业通信接口。STM32F205RBT6是意法半导体基于ARM Cortex-M3内核的高性能系列产品&#xff0…...

编程新知 2026/5/11 13:02:36

英雄联盟智能工具箱：5个核心功能如何彻底改变你的游戏体验

英雄联盟智能工具箱：5个核心功能如何彻底改变你的游戏体验【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为繁琐的游戏操作而…...

编程新知 2026/5/11 12:38:53

娱乐圈天降紫微星承载使命，海棠山铁哥扛起原创影视复兴大旗

一、乱世先声每一个时代的乱象，都需要一位天命者终结。每一次行业的沉沦，都需要一束紫微星光破暗。当下影视行业，早已偏离创作初心，走入本末倒置的绝境。翻拍泛滥成灾IP套皮横行情怀反复透支流水线作品扎堆资本只求快速变现&am…...

编程新知 2026/5/11 11:27:57

Python AutoCAD自动化开发指南：如何用5行代码替代8小时重复绘图工作

Python AutoCAD自动化开发指南：如何用5行代码替代8小时重复绘图工作【免费下载链接】pyautocad AutoCAD Automation for Python ⛺ 项目地址: https://gitcode.com/gh_mirrors/py/pyautocad 你是否曾因AutoCAD中重复的绘图任务而加班到深夜？是否…...

编程新知 2026/5/11 11:06:47

3个简单步骤彻底解决Dell G15笔记本散热问题：开源温度控制中心完全指南

3个简单步骤彻底解决Dell G15笔记本散热问题：开源温度控制中心完全指南【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 你是否正在为Dell G15笔记本…...

编程新知 2026/5/11 10:02:56

性能测试指标选不对，报告全白费！从一次线上故障复盘TPS、RT与吞吐量的关系

性能指标迷局：当高QPS掩盖了系统瓶颈的真相那天凌晨三点，我被一阵急促的电话铃声惊醒。电商大促系统监控面板上QPS曲线依然漂亮，但业务方反馈用户下单延迟高达15秒——这个看似矛盾的场景，揭开了性能指标认知中最危险的陷阱。我…...

编程新知 2026/5/11 8:20:19

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

1. UDF函数（用户自定义函数）

1.1 导入必要的包

1.2 创建SparkSession

1.3 定义UDF并注册到SparkSQL

1.4 使用UDF在SQL查询中：

1.5 代码：

2. UDAF（用户自定义的聚合函数）

3. UDTF（用户自定义炸裂函数）

相关文章：

【大数据学习 | Spark-SQL】定义UDF和DUAF，UDTF函数

#Java-JDK7、8的时间相关类，包装类

tc 命令

基于Java Springboot 协同过滤算法音乐推荐系统

MyBatis框架-关联映射

Web开发技术栈选择指南

工具类的魔力：深入理解 Java 的 String、Math 和 Arrays

Linux下一次性关闭多个同名进程

记录一些虚拟机桥接网络，windows网络遇到的小问题

MATLAB —— 机械臂工作空间，可达性分析

18：（标准库）DMA二：DMA+串口收发数据

【C++】算术操作符与数据类型溢出详解

柔性芯片：实现万物互联的催化剂

FFmpeg 简介与编译

低代码与微服务融合在医疗集团中的补充应用探究

速盾：高防cdn的搜索引擎回源是什么？

减少电路和配电系统谐波的五种方法

基于Java Springboot Vue3图书管理系统

vue-cli项目质量约束配置

第七课 Unity编辑器创建的资源优化_UI篇（UGUI）

从ABL项目看激光武器发展：技术挑战、工程突破与未来转型

46页可编辑PPT | 企业数字化转型总体规划与实践汇报方案

告别重启！IDEA里用JRebel插件实现Java代码秒级热更新（附最新激活与配置避坑指南）

深度解析：如何用League Akari实现英雄联盟对局效率提升300%的实战指南

120MHz Cortex-M3+150DMIPS+ART加速器：STM32F205RBT6的性能参数解析

英雄联盟智能工具箱：5个核心功能如何彻底改变你的游戏体验

娱乐圈天降紫微星承载使命，海棠山铁哥扛起原创影视复兴大旗

Python AutoCAD自动化开发指南：如何用5行代码替代8小时重复绘图工作

3个简单步骤彻底解决Dell G15笔记本散热问题：开源温度控制中心完全指南

性能测试指标选不对，报告全白费！从一次线上故障复盘TPS、RT与吞吐量的关系