当前位置：首页 > news >正文

Spark数据源的读取与写入、自定义函数

news 2025/11/10 20:53:52

1. 数据源的读取与写入

1.1 数据读取

读文件
- read.json
- read.csv
  - csv文件由两个部分组成：头部数据（也就是字段数据）、行数据。
- read.orc
读数据库
- read.jdbc(jdbc连接地址,table=‘表名’,properties={‘user’=用户名,‘password’=密码,‘driver’=‘驱动信息’})
  数据库创建测试数据:

create database itcast charset=utf8;create table itcast.tb_user(id int,name varchar(20),age int,gender varchar(20)
);insert into  itcast.tb_user values (1,'张三',20,'男');

表查看：
在这里插入图片描述
读取数据库数据：

# 读取数据源，将数据转为DF
from pyspark.sql import SparkSessionss = SparkSession.builder.getOrCreate()# read读取数据库数据
# 使用jdbc方法通过jdbc读取数据库数据，在读取数据库之前，需要现将数据库连接驱动放入spark的jars目录下
#
df = ss.read.jdbc('jdbc:mysql://192.168.88.100:3306/itcast',table='tb_user',properties={'user':'root','password':'123456','driver':'com.mysql.jdbc.Driver'})
df.show()

运行结果：
在这里插入图片描述

1.2 数据写入

因为数据是在df中存储，所以使用DataFrame进行数据写入

使用DataFrame的的write方法

写入文件有个模式,覆盖和追加两种方式，用mode参数指定
覆盖 overwrite
追加 append

写入文件
- write.json
- write.csv
- write.orc
写入数据库
- write.jdbc(jdbc连接地址,table=‘表名’,properties={‘user’=用户名,‘password’=密码,‘driver’=‘驱动信息’},mode=‘写入方式’)

# 数据写入
from pyspark.sql import SparkSession,Row
ss = SparkSession.builder.getOrCreate()df = ss.createDataFrame([Row(id=1,name='张三',age=20),Row(id=2,name='李四',age=20),Row(id=3,name='王五',age=20)],schema='id int,name string,age int'
)# 将df数据写入hdfs文件中  mode='overwrite' 覆盖写入   append 追加写入
df.write.json('hdfs://node1:8020/data_json',mode='overwrite')# 写入数据库
# create table itcast.tb_stu(
#     id int,
#     name varchar(20),
#     age int
# );
# 在jdbc连接中指定编码字符集为utf-8
df.write.jdbc('jdbc:mysql://192.168.88.100:3306/itcast?characterEncoding=utf8',table='tb_stu',mode='overwrite',properties={'user':'root','password':'123456','driver':'com.mysql.jdbc.Driver'})

运行结果：
在这里插入图片描述

2. 自定义函数

在这里插入图片描述

2.1 函数分类

udf
- 自定义
- 一进一出
udaf
- 聚合
- 自定义
- 多进一出
udtf
- 爆炸
- 一进多出

2.2 UDF函数

对每一行数据依次进行计算，返回每一行的结果。

#UDF函数
from pyspark.sql import SparkSession,functions as F
from pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()#读取文件数据转为df
df = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',')df.show()#自定义字符串长度计算函数
def len_func(field):if field is None:return 0else:data = len(field)return data
#将自定义的函数注册到spark中使用
len_func = ss.udf.register('len_func', len_func,returnType=IntegerType())#在spark中使用
df2 = df.select('id','name','gender',len_func('name'))
df2.show()#sql语句中使用
df.createTempView('stu')
df3= ss.sql('select *,len_func(name) from stu')
df3.show()

2.3 UDAF函数

多进一出主要是聚合
使用pandas中的series实现，可以读取一列数据存储在pandas的series中进行数据的聚合。

#UDAF函数
from pyspark.sql import SparkSession,functions as F
from pyspark.sql.types import *
import pandas as pdss = SparkSession.builder.getOrCreate()#读取文件数据转为df
df = ss.read.csv('hdfs://node1:8020/data/students.csv', header=True,sep=',',schema = 'id int,name string,age int,gender string,cls string')df.show()#对某个字段的整列数据进行计算，自定义udaf函数
# 第一步，装饰器注册
@F.pandas_udf(returnType=IntegerType())
def sub(field:pd.Series) -> int:n=field[0] #取出第一个值作为初始值for i in field[1::]:n-=ireturn n
#第二步，register方法注册
sub = ss.udf.register('sub', sub)df2 = df.select(sub('age'))
df2.show()

Spark数据源的读取与写入、自定义函数

1. 数据源的读取与写入 1.1 数据读取读文件 read.jsonread.csv csv文件由两个部分组成：头部数据（也就是字段数据）、行数据。 read.orc 读数据库 read.jdbc(jdbc连接地址,table‘表名’,properties{‘user’用户名,‘password’密码,‘driv…...

编程日记 2024/10/22 14:53:33

LeetCode 每日一题 2024/10/14-2024/10/20

记录了初步解题思路以及本地实现代码；并不一定为最优也希望大家能一起探讨一起进步目录 10/14 887. 鸡蛋掉落10/15 3200. 三角形的最大高度10/16 3194. 最小元素和最大元素的最小平均值10/17 3193. 统计逆序对的数目10/18 3191. 使二进制数组全部等于 1 的最少操…...

编程日记 2024/10/22 14:49:28

接口测试（六）jmeter——参数化（配置元件 --＞用户定义的变量）

一、jmeter——参数化（配置元件 --> 用户定义的变量） 注：示例仅供参考 1. 参数化格式：${变量名} 2. 配置元件：用户定义的变量 3. 添加【用户定义的变量】，【线程组】–>【添加】–>【配置元件】–…...

编程日记 2024/10/22 14:47:25

【学习笔记】网络流

背景马上ICPC了，很惊奇的发现自己没整理网络流的板子。最大流 dinic 这里选用的是二分图最大匹配的板子：飞行员配对方案问题 #include<bits/stdc.h> #define int long long using namespace std; const int N1e67,inf1e18; struct E {int to…...

编程日记 2024/10/22 14:46:24

【鸡翅Club】项目启动

一、项目背景这是一个 C端的社区项目，有博客、交流，面试学习，练题等模块。项目的背景主要是我们想要通过面试题的分类，难度，打标，来评估员工的技术能力。同时在我们公司招聘季的时候，极大的…...

编程日记 2024/10/22 14:45:22

python+大数据+基于热门视频的数据分析研究【内含源码+文档+部署教程】

博主介绍：✌全网粉丝10W,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业毕业设计项目实战6年之久，选择我们就是选择放心、选择安心毕业✌ 🍅由于篇幅限制，想要获取完整文章或者源码，或者代做&am…...

编程日记 2024/10/22 14:44:21

【电子电力】基于PMU相量测量单元的电力系统状态评估

摘要相量测量单元（PMU）作为一种精确且快速的实时监控设备，在电力系统状态评估中发挥了重要作用。本文研究了在没有PMU和部署PMU情况下，电力系统的电压角度和电压幅值估计误差的差异。通过比较实验结果，发现PMU的应用…...

编程日记 2024/10/22 14:43:20

ubuntu修改默认开机模式(图形/终端)

将 Ubuntu 16 系统设置为开机进入终端模式： 打开终端。编辑 Grub 配置文件：sudo nano /etc/default/grub。找到 GRUB_CMDLINE_LINUX_DEFAULT 行，将其修改为 GRUB_CMDLINE_LINUX_DEFAULT"text"。保存并退出编辑器（Ctrl …...

编程日记 2024/10/22 14:41:16

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV‘24

现有的方法通过利用视觉-语言模型（VLMs）（如CLIP）强大的开放词汇识别能力来增强开放词汇目标检测，然而出现了两个主要挑战：（1）概念表示不足，CLIP文本空间中的类别名称缺乏…...

编程日记 2024/10/22 14:40:15

AI大模型是否有助于攻克重大疾病？

AI大模型在攻克重大疾病方面展现出了巨大的潜力，特别是在疾病预测、药物研发、个性化医疗等领域有着广泛应用。具体来说，AI大模型能够帮助以下几方面： 1、疾病预测与诊断：AI大模型通过分析海量的医学数据，可以提高重大…...

编程日记 2024/10/22 14:37:09

【渗透测试】-红日靶场-获取web服务器权限

拓扑图： 前置环境配置： Win 7 默认密码：hongrisec201 内网ip:192.168.52.143 打开虚拟网络编辑器添加网络->VMent1->仅主机模式->子网ip:192.168.145.0 添加网卡： 虚拟机->设置-> 添加->网络适配器保存&a…...

编程日记 2024/10/22 14:33:00

python 深度学习项目调试图像分割 segment-anything

起因， 目的: 项目来源: https://github.com/facebookresearch/segment-anything项目目的: 图像分割。提前图片中的某个目标。facebook 出品， 居然有 47.3k star! 思考一些问题我可以用这个项目来做什么?给一个图片， 进行分割&#xff0…...

编程日记 2024/10/22 14:31:59

【GO实战课】第六讲：电子商务网站（6）：支付和订单处理

1. 简介本课程将探讨电子商务网站的支付和订单处理功能，以及使用GO语言实现。在本课程中，我们将介绍如何设计一个可扩展、可靠和高性能的支付和订单处理系统，并演示如何使用GO语言编写相关代码。本课程的目标是帮助学生理解电子商务网站的支付和订单处理功能，并提供一个…...

编程日记 2024/10/22 14:26:54

专题十三_记忆化搜索_算法专题详细总结

目录 1. 斐波那契数（easy） 那么这里就画出它的决策树 ： 解法一：递归暴搜解法二：记忆化搜索解法三：动态规划 1.暴力解法（暴搜） 2.对优化解法的优化：把已经计算过的…...

编程日记 2024/10/22 14:25:53

已发布金融国家标准目录（截止2024年3月）

已发布金融国家标准目录2024年3月序号标准编号标准名称...

编程日记 2024/10/22 14:24:51

【论文#快速算法】Fast Intermode Decision in H.264/AVC Video Coding

目录摘要1.前言2.帧间模式决策概览2.1 H.264/AVC中的帧间模式决策2.2 发现和动机 3.同质性和平稳性的确定3.1 同质性区域的确定3.2 稳定性区域的决定3.3 整体算法 4.实验结果4.1 IPPP序列的测试4.2 IBBP序列测试 5.结论《Fast Intermode Decision in H.264/AVC Video Coding》…...

编程日记 2024/10/22 14:22:47

Git核心概念图例与最常用内容操作(reset、diff、restore、stash、reflog、cherry-pick)

文章目录简介前置概念.git目录objects目录refs目录HEAD文件 resetreflog 与 reset --hardrevert(撤销指定提交)stashdiff工作区与暂存区差异暂存区与HEAD差异工作区与HEAD差异其他比较 restore、checkout(代码撤回)merge、rebase、cherry-pick 简介本文将介绍Git几个核心概念…...

编程日记 2024/10/22 14:21:40

【人工智能在医疗企业个人中的应用】

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2024/10/22 14:19:36

IPv4头部和IPv6头部

IPv4和IPv6是互联网协议（IP）中的两个主要版本，它们在数据包头部（Header）结构上存在显著差异。以下是IPv4头部和IPv6头部的主要结构和区别： IPv4头部结构 IPv4（Internet Protocol Version 4&…...

编程日记 2024/10/22 14:18:35

从零开始手把手带你训练LLM保姆级教程，草履虫都能学会！零基础看完这篇就足够了~

导读 ChatGPT面世以来，各种大模型相继出现。那么大模型到底是如何训练的呢，在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程，包括模型预训练（Pretrain）、Tokenizer 训练、指令微调&#xff0…...

编程日记 2024/10/22 14:17:33

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/11/8 20:21:22

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用，操作系统：Ubuntu24.04，Neofj版本：2025.04.0。 Apt安装 Neofj可以进行官网安装：Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法最新版…...

编程新知 2025/11/9 6:34:57

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2025/11/8 2:33:18

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成，核心是利用 HTTP 协议的 Range 请求头指定下载范围： 实现原理 Range 请求头：向服务器请求文件的特定字节范围（如 Range: bytes1024-） 本地文件记录：保存已…...

编程新知 2025/9/17 19:16:20

Mac软件卸载指南，简单易懂！

刚和Adobe分手，它却总在Library里给你写"回忆录"？卸载的Final Cut Pro像电子幽灵般阴魂不散？总是会有残留文件，别慌！这份Mac软件卸载指南，将用最硬核的方式教你"数字分手术"&#xff0…...

编程新知 2025/11/8 6:47:46

Spring AI 入门：Java 开发者的生成式 AI 实践之路

一、Spring AI 简介在人工智能技术快速迭代的今天，Spring AI 作为 Spring 生态系统的新生力量，正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务（如 OpenAI、Anthropic）的无缝对接&…...

编程新知 2025/10/27 21:06:53

思维导图 1-3 章 4-7章 8-11 章参考资料源码： https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

编程新知 2025/11/8 9:16:25

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

1.获取 authorizationCode： 2.利用 authorizationCode 获取 accessToken：文档中心 3.获取手机：文档中心 4.获取昵称头像：文档中心首先创建 request 若要获取手机号，scope必填 phone，permissions 必填 …...

编程新知 2025/9/17 2:39:21

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/11/7 19:35:54

Spark数据源的读取与写入、自定义函数

1. 数据源的读取与写入

1.1 数据读取

1.2 数据写入

2. 自定义函数

2.1 函数分类

2.2 UDF函数

2.3 UDAF函数

相关文章：

Spark数据源的读取与写入、自定义函数

LeetCode 每日一题 2024/10/14-2024/10/20

接口测试（六）jmeter——参数化（配置元件 --＞用户定义的变量）

【学习笔记】网络流

【鸡翅Club】项目启动

python+大数据+基于热门视频的数据分析研究【内含源码+文档+部署教程】

【电子电力】基于PMU相量测量单元的电力系统状态评估

ubuntu修改默认开机模式(图形/终端)

LaMI-DETR：基于GPT丰富优化的开放词汇目标检测 | ECCV‘24

AI大模型是否有助于攻克重大疾病？

【渗透测试】-红日靶场-获取web服务器权限

python 深度学习项目调试图像分割 segment-anything

【GO实战课】第六讲：电子商务网站（6）：支付和订单处理

专题十三_记忆化搜索_算法专题详细总结

已发布金融国家标准目录（截止2024年3月）

【论文#快速算法】Fast Intermode Decision in H.264/AVC Video Coding

Git核心概念图例与最常用内容操作(reset、diff、restore、stash、reflog、cherry-pick)

【人工智能在医疗企业个人中的应用】

IPv4头部和IPv6头部

从零开始手把手带你训练LLM保姆级教程，草履虫都能学会！零基础看完这篇就足够了~

第19节 Node.js Express 框架

大数据学习栈记——Neo4j的安装与使用

FFmpeg 低延迟同屏方案

STM32F4基本定时器使用和原理详解

OkHttp 中实现断点续传 demo

Mac软件卸载指南，简单易懂！

Spring AI 入门：Java 开发者的生成式 AI 实践之路

《基于Apache Flink的流处理》笔记

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

蓝桥杯3498 01串的熵