当前位置：首页 > news >正文

pyspark之Structured Streaming file文件案例1

news 2026/5/20 21:39:28

# generate_file.py
# 生成数据生成500个文件,每个文件1000条数据
# 生成数据格式：eventtime name province action ()时间用户名省份动作)
import os
import time
import shutil
import time

FIRST_NAME = ['Zhao', 'Qian', 'Sun', 'Li', 'Zhou', 'Wu', 'Zheng', 'Wang']
SECOND_NAME = ['San', 'Si', 'Wu', 'Chen', 'Yang', 'Min', 'Jie', 'Qi']
PROVINCE = ['BeiJing', 'ShanDong', 'ShangHai', 'HeNan', 'HaErBin']
ACTION = ['login', 'logout', 'purchase']

PATH = "/opt/software/tmp/"
DATA_PATH = "/opt/software/tmp/data/"
# 初始化环境
def test_Setup():
if os.path.exists(DATA_PATH):
shutil.rmtree(DATA_PATH)
os.mkdir(DATA_PATH)

# 清理数据，恢复测试环境
def test_TearDown():
shutile.rmtree(DATA_PATH)

# 数据保存文件
def writeAndMove(filename,content):
with open(PATH+filename,'wt',encoding='utf-8') as f:
f.write(content)
shutil.move(PATH+filename,DATA_PATH+filename)

if __name__ == '__main__':

test_Setup()

for i in range(500):
filename = "user_action_{}.log".format(i)
"""
验证spark输出模式，complete和update,增加代码，第一个文件i=0时，设置PROVINCE = "TAIWAN"
"""
if i == 0:
province= ['TaiWan']
else:
province = PROVINCE
content = ""
for _ in range(1000):
content += "{} {} {} {}\n".format(str(int(time.time())),random.choice(FIRST_NAME)+random.choice(SECOND_NAME),random.choice(province),random.choice(ACTION))
writeAndMove(filename,content)
time.sleep(10)

# spark_file_test.py
# 读取DATA文件夹下面文件，按照省份统计数据，主要考虑window情况，按照window情况测试，同时针对 outputMode和输出console和mysql进行考虑，其中保存到mysql时添加batch字段

from pyspark.sql import SparkSession,DataFrame
from pyspark.sql.functions import split,lit,from_unixtime

DATA_PATH = "/opt/software/tmp/data/"

if __name__ == '__main__':
spark = SparkSession.builder.getOrCreate()
lines = spark.readStream.format("text").option("seq","\n").load(DATA_PATH)
# 分隔符为空格
userinfo = lines.select(split(lines.value," ").alias("info"))
# 第一个为eventtime 第二个为name 第三个为province 第四个为action
# userinfo['info'][0]等同于userinfo['info'].getIterm(0)
user = userinfo.select(from_unixtime(userinfo['info'][0]).alias('eventtime'),
userinfo['info'][1].alias('name'),userinfo['info'][2].alias('province'),
userinfo['info'][3].alias('action'))
"""
测试1：数据直接输出到控制台，由于没有采用聚合，输出模式选择update
user.writeStream.outputMode("update").format("console").trigger(processingTime="8 seconds").start().awaitTermination()
"""
"""
测试2：数据存储到数据库，新建数据库表，可以通过printSchema()查看数据类型情况
def insert_into_mysql_batch(df:DataFrame,batch):
if df.count()>0:
# 此处将batch添加到df中，采用lit函数
data = df.withColumn("batch",lit(batch))
data.write.format("jdbc"). \
option("driver","com.mysql.jdbc.Driver"). \
option("url","jdbc:mysql://localhost:3306/spark").option("user","root").\
option("password","root").option("dbtable","user_log").\
option("batchsize",1000).mode("append").save()
else:
pass
user.writeStream.outputMode("update").foreachBatch((insert_into_mysql_batch)).trigger(processingTime="20 seconds").start().awaitTermination()
"""
"""
测试3：数据按照省份统计后，输出到控制台，分析complete和update输出模式区别,针对该问题，调整输入，province="TaiWan"只会输入1次，即如果输出方式complete,则每batch都会输出，update的话，只会出现在一个batch
userProvinceCounts = user.groupBy("province").count()
userProvinceCounts = userProvinceCounts.select(userProvinceCounts['province'],userProvinceCounts["count"].alias('sl'))
# 测试输出模式complete:complete将总计算结果都进行输出
"""
batch 0
TaiWan 1000
batch 1
TaiWan 1000
其他省份 sl
batch 2
TaiWan 1000
其他省份 sl
""" userProvinceCounts.writeStream.outputMode("complete").format("console").trigger(processingTime="20 seconds").start().awaitTermination()
# 测试输出模式update:update只输出相比上个批次变动的内容(新增或修改)
batch 0
TaiWan 1000
batch 1 中没有TaiWan输出
userProvinceCounts.writeStream.outputMode("complete").format("console").trigger(processingTime="20 seconds").start().awaitTermination()
"""

pyspark之Structured Streaming file文件案例1

相关文章：

pyspark之Structured Streaming file文件案例1

虚幻UE 特效-Niagara特效实战-雨天

k8s 集群搭建的一些坑

SpringMVC传递数据给前台

国标GB28181安防视频监控EasyCVR级联后上级平台视频加载慢的原因排查

React16源码: React中的HostComponent HostText的源码实现

Unity3D代码混淆方案详解

安科瑞应急疏散照明系统在歌舞娱乐等场所的应用

Go语言协程使用

JAVA如何创建对象

《WebKit 技术内幕》之五（2）： HTML解释器和DOM 模型

Spring Boot多环境配置

常用的目标跟踪有哪些

python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-帖子详情页实现

11、Kafka ------ Kafka 核心API 及生产者API 讲解

MySQL 8.3 发布, 它带来哪些新变化？

【数据结构】详谈队列的顺序存储及C语言实现

为什么 HTTPS 协议能保障数据传输的安全性？

使用 Node 创建 Web 服务器

leetcode 151反转字符串如何原地去除多余空格

大疆L1点云与ContextCapture融合实战：从Sbet轨迹到三维实景模型的完整数据流

告别Minecraft模组英文界面：MASA全家桶汉化包完全指南

CANN/asc-devkit SoftMax接口

Zynq UltraScale+ MPSoC SoM选型与开发实战：从异构计算到嵌入式系统设计

掌握FreeRDP的5个核心场景：从基础连接到企业级部署实战指南

基于8ms平台的嵌入式GUI开发实践：智能家居86盒UI设计与实现

第八章：AI产品的技术尽调——如何评估AI供应商

如何在macOS上轻松运行Windows应用：Whisky终极指南

5分钟快速上手WuWa-Mod：解锁《鸣潮》游戏无限潜能的终极指南

5种文本切块策略大解析：从字符到语义，打造高效检索系统！