当前位置：首页 > news >正文

SpringBoot操作spark处理hdfs文件

news 2026/2/10 21:04:02

SpringBoot操作spark处理hdfs文件

1、导入依赖

<!--        spark依赖--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.2.2</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.2.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-mllib --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_2.12</artifactId><version>3.2.2</version></dependency>

2、配置spark信息

建立一个配置文件，配置spark信息

import org.apache.spark.SparkConf;
import org.apache.spark.sql.SparkSession;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;//将文件交于spring管理
@Configuration
public class SparkConfig {//使用yml中的配置@Value("${spark.master}")private String sparkMaster;@Value("${spark.appName}")private String sparkAppName;@Value("${hdfs.user}")private String hdfsUser;@Value("${hdfs.path}")private String hdfsPath;@Beanpublic SparkConf sparkConf() {SparkConf conf = new SparkConf();conf.setMaster(sparkMaster);conf.setAppName(sparkAppName);// 添加HDFS配置conf.set("fs.defaultFS", hdfsPath);conf.set("spark.hadoop.hdfs.user",hdfsUser);return conf;}@Beanpublic SparkSession sparkSession() {return SparkSession.builder().config(sparkConf()).getOrCreate();}
}

3、controller和service

controller类

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import xyz.zzj.traffic_main_code.service.SparkService;@RestController
@RequestMapping("/spark")
public class SparkController {@Autowiredprivate SparkService sparkService;@GetMapping("/run")public String runSparkJob() {//读取Hadoop HDFS文件String filePath = "hdfs://192.168.44.128:9000/subwayData.csv";sparkService.executeHadoopSparkJob(filePath);return "Spark job executed successfully!";}
}

处理地铁数据的service

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.types.DataTypes;import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.stereotype.Service;
import xyz.zzj.traffic_main_code.service.SparkReadHdfs;import java.io.IOException;
import java.net.URI;
import static org.apache.spark.sql.functions.*;@Service
public class SparkReadHdfsImpl implements SparkReadHdfs {private final SparkSession spark;@Value("${hdfs.user}")private String hdfsUser;@Value("${hdfs.path}")private String hdfsPath;@Autowiredpublic SparkReadHdfsImpl(SparkSession spark) {this.spark = spark;}/*** 读取HDFS上的CSV文件并上传到HDFS* @param filePath*/@Overridepublic void sparkSubway(String filePath) {try {// 设置Hadoop配置JavaSparkContext jsc = JavaSparkContext.fromSparkContext(spark.sparkContext());Configuration hadoopConf = jsc.hadoopConfiguration();hadoopConf.set("fs.defaultFS", hdfsPath);hadoopConf.set("hadoop.user.name", hdfsUser);// 读取HDFS上的文件Dataset<Row> df = spark.read().option("header", "true") // 指定第一行是列名.option("inferSchema", "true") // 自动推断列的数据类型.csv(filePath);// 显示DataFrame的所有数据
//            df.show(Integer.MAX_VALUE, false);// 对DataFrame进行清洗和转换操作// 检查缺失值df.select("number", "people", "dateTime").na().drop().show();// 对数据进行类型转换Dataset<Row> df2 = df.select(col("number").cast(DataTypes.IntegerType),col("people").cast(DataTypes.IntegerType),to_date(col("dateTime"), "yyyy年MM月dd日").alias("dateTime"));// 去重Dataset<Row> df3 = df2.dropDuplicates();// 数据过滤，确保people列没有负数Dataset<Row> df4 = df3.filter(col("people").geq(0));
//            df4.show();// 数据聚合，按dateTime分组，统计每天的总客流量Dataset<Row> df6 = df4.groupBy("dateTime").agg(sum("people").alias("total_people"));
//            df6.show();sparkForSubway(df6,"/time_subwayData.csv");//数据聚合，获取每天人数最多的地铁numberDataset<Row> df7 = df4.groupBy("dateTime").agg(max("people").alias("max_people"));sparkForSubway(df7,"/everyday_max_subwayData.csv");//数据聚合，计算每天的客流强度：每天总people除以632840Dataset<Row> df8 = df4.groupBy("dateTime").agg(sum("people").divide(632.84).alias("strength"));sparkForSubway(df8,"/everyday_strength_subwayData.csv");} catch (Exception e) {e.printStackTrace();}}private static void sparkForSubway(Dataset<Row> df6, String hdfsPath) throws IOException {// 保存处理后的数据到HDFSdf6.coalesce(1).write().mode("overwrite").option("header", "true").csv("hdfs://192.168.44.128:9000/time_subwayData");// 创建Hadoop配置Configuration conf = new Configuration();// 获取FileSystem实例FileSystem fs = FileSystem.get(URI.create("hdfs://192.168.44.128:9000"), conf);// 定义临时目录和目标文件路径Path tempDir = new Path("/time_subwayData");FileStatus[] files = fs.listStatus(tempDir);// 检查目标文件是否存在，如果存在则删除Path targetFile1 = new Path(hdfsPath);if (fs.exists(targetFile1)) {fs.delete(targetFile1, true); // true 表示递归删除}for (FileStatus file : files) {if (file.isFile() && file.getPath().getName().startsWith("part-")) {Path targetFile = new Path(hdfsPath);fs.rename(file.getPath(), targetFile);}}// 删除临时目录fs.delete(tempDir, true);}}

4、运行

项目运行完后，打开浏览器
- spark处理地铁数据
  - http://localhost:8686/spark/dispose
观察spark和hdfs
- http://192.168.44.128:8099/
- http://192.168.44.128:9870/explorer.html#/

SpringBoot操作spark处理hdfs文件

SpringBoot操作spark处理hdfs文件 1、导入依赖 <dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.2.2</version></dependency><depend…...

编程日记 2025/1/9 21:28:55

消息队列架构、选型、专有名词解释

私人博客传送门消息队列专有名词解释 | 魔筝炼药师 MQ选型 | 魔筝炼药师 MQ架构 | 魔筝炼药师 MQ顺序消息 | 魔筝炼药师...

编程日记 2025/1/9 21:22:49

用OpenCV实现UVC视频分屏

分屏 OpencvUVC代码验证后话用OpenCV实现UVC摄像头的视频分屏。 Opencv opencv里有很多视频图像的处理功能。 UVC Usb 视频类，免驱动的。视频流格式有MJPG和YUY2。MJPG是RGB三色通道的。要对三通道进行分屏显示。代码 import cv2 import numpy as np video …...

编程日记 2025/1/9 21:19:47

Allure 集成 pytest

Allure 是一个强大的测试报告工具，与 pytest 集成可以生成详细的测试报告，包括测试步骤、测试数据、截图、错误堆栈等。 1. 安装 Allure 和相关依赖安装 pytest-allure-adaptor 插件： pip install allure-pytest确保本地已安装 Allure 工具。…...

编程日记 2025/1/9 21:18:45

【Python】构建智能语音助手：使用Python实现语音识别与合成的全面指南

随着人工智能技术的迅猛发展，语音助手已成为人们日常生活中不可或缺的一部分。从智能手机到智能家居设备，语音交互提供了便捷高效的人机交互方式。本文旨在全面介绍如何利用Python编程语言及其强大的库——SpeechRecognition和gTTS，构建一个基…...

编程日记 2025/1/9 21:16:42

在 Arthas 中调用 Spring Bean 方法

获取 Spring 应用上下文使用工具类如果你的项目中有一个工具类实现了 ApplicationContextAware 接口，如 cn.shutdown.pf.utils.SpringContextUtils，可以使用该类获取 ApplicationContext： Component public final class SpringContextUt…...

编程日记 2025/1/9 21:15:41

Nginx入门笔记

Nginx入门笔记一、Nginx基本概念二、代理1、正向代理2、反向代理三、准备工作1、CentOS 7安装nginx（1）. 安装必要的依赖（2）下载nginx（3）编译安装（4）编译并安装 Nginx(5)启动nginx …...

编程日记 2025/1/9 21:13:39

【单片机】实现一个简单的ADC滤波器

实现一个 ADC的滤波器，PT1 滤波器（也称为一阶低通滤波器），用于对输入信号进行滤波处理。 typedef struct PT1FilterSettings PT1FilterSettings; struct PT1FilterSettings {//! last Filter output valueuint32_t filtValOld;//…...

编程日记 2025/1/9 21:07:28

开源 vGPU 方案 HAMi 解析

开源 vGPU 方案 HAMi 一、k8s 环境下 GPU 资源管理的现状与问题 （一）资源感知与绑定在 k8s 中，资源与节点紧密绑定。对于 GPU 资源，我们依赖 NVIDIA 提供的 device-plugin 来进行感知，并将其上报到 kube-apiserver…...

编程日记 2025/1/9 21:06:26

备考蓝桥杯：顺序表详解（静态顺序表，vector用法）

目录 1.顺序表的概念 2.静态顺序表的实现总代码 3.stl库动态顺序表vector 测试代码 1.顺序表的概念要理解顺序表，我们要先了解一下什么是线性表线性表是n个具有相同特征的数据元素的序列这就是一个线性表 a1是表头 a4是表尾 a2是a3的前驱 a3是a2的后继空…...

编程日记 2025/1/9 21:01:15

OA系统如何做好DDOS防护

OA系统如何做好DDOS防护？在数字化办公蔚然成风的当下，OA（办公自动化）系统作为企业内部管理与协作的神经中枢，其安全性和稳定性直接关系到企业的日常运营效率、信息流通效率以及长远发展。OA系统不仅承载着企业内部的日…...

编程日记 2025/1/9 20:59:13

使用 Python 的 pyttsx3 库进行文本转语音

1. 什么是 pyttsx3？ 1.1 pyttsx3 是一个 Python 库，它可以将文本转换为语音。与其他文本转语音库（如 gTTS）不同，pyttsx3 不依赖于网络服务，它使用本地的 TTS（Text-to-Speech）引擎&a…...

编程日记 2025/1/9 20:52:06

如何在Windows上编译OpenCV4.7.0

前言参考：Win10 下编译 OpenCV 4.7.0详细全过程，包含xfeatures2d 这里在其基础上还出现了一些问题，仅供参考。正文一、环境 1、win10 2、cmake-gui 3、opencv4.7.0 4、VS2019 二、编译过程 1、下载需要的文件： 通…...

编程日记 2025/1/9 20:46:01

【玩转全栈】----Django连接MySQL

阅前先赞，养好习惯！ 目录 1、ORM框架介绍选择建议 2、安装mysqlclient 3、创建数据库 4、修改settings，连接数据库 5、对数据库进行操作创建表删除表添加数据删除数据修改（更新）数据： 获取数据 1、OR…...

编程日记 2025/1/9 20:45:00

25/1/4 算法笔记＜强化学习＞生成对抗模仿学习

基于生成对抗网络的模仿学习，假设存在一个专家智能体，其策略可以看成最优策略，我们就可以通过直接模仿这个专家在环境中交互的动作数据来训练一个策略，并不需要用到环境提供的奖励信息。生成对抗模仿学习GAIL实质上就是模仿了专家…...

编程日记 2025/1/9 20:41:57

Flink维表方案选型

Iceberg Iceberg 采用全量预加载数据的方式将维度表数据全部加载到内存中进行关联，虽然可以避免频繁访问外部数据库，但对计算节点的内存消耗很高，不能适用于数量很大的维度表。除此之外，当 Iceberg 维表数据更新后，可…...

编程日记 2025/1/9 20:37:52

Oracle Database 23ai 新特性： UPDATE 和 DELETE 语句的直接联接

Oracle Database 23c 引入了一系列令人振奋的新特性，其中一项尤为引人注目的是对 UPDATE 和 DELETE 语句支持直接联接（Direct Join）。这一新功能极大地简化了复杂数据操作的实现，提升了性能，并为数据库开发者提供了更强…...

编程日记 2025/1/9 20:35:45

机器学习之随机森林算法实现和特征重要性排名可视化

随机森林算法实现和特征重要性排名可视化目录随机森林算法实现和特征重要性排名可视化1 随机森林算法1.1 概念1.2 主要特点1.3 优缺点1.4 步骤1.5 函数及参数1.5.1 函数导入1.5.2 参数 1.6 特征重要性排名 2 实际代码测试 1 随机森林算法 1.1 概念是一种基于树模型的集成学…...

编程日记 2025/1/9 20:34:41

网络安全图谱以及溯源算法

本文提出了一种网络攻击溯源框架，以及一种网络安全知识图谱，该图由六个部分组成，G <H，V，A，E，L，S，R>。 1|11.知识图网络知识图由六个部分组成&#xff0c…...

编程日记 2025/1/9 20:33:39

单片机-外部中断

中断是指 CPU 在处理某一事件 A 时，发生了另一事件 B，请求 CPU 迅速去处理(中断发生)；CPU 暂时停止当前的工作(中断响应)， 转去处理事件 B(中断服务)；待 CPU 将事件 B 处理完毕后，再回到原来事件 A 被中断的…...

编程日记 2025/1/9 20:32:38

大数据学习栈记——Neo4j的安装与使用

本文介绍图数据库Neofj的安装与使用，操作系统：Ubuntu24.04，Neofj版本：2025.04.0。 Apt安装 Neofj可以进行官网安装：Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法最新版…...

编程新知 2026/2/8 4:37:08

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台，覆盖应用全生命周期测试需求，主要提供五大核心能力： 测试类型检测目标关键指标功能体验基…...

编程新知 2026/1/28 8:17:53

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

可靠性灵活性：电力载波技术在楼宇自控中的核心价值在智能楼宇的自动化控制中，电力载波技术（PLC）凭借其独特的优势，正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据，无需额外布…...

编程新知 2025/9/27 2:43:26

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2026/2/6 2:05:50

2023赣州旅游投资集团

单选题 1.“不登高山，不知天之高也；不临深溪，不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的参考答案: C 本题解…...

编程新知 2025/11/8 16:42:13

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

Java编程之桥接模式

定义桥接模式（Bridge Pattern）属于结构型设计模式，它的核心意图是将抽象部分与实现部分分离，使它们可以独立地变化。这种模式通过组合关系来替代继承关系，从而降低了抽象和实现这两个可变维度之间的耦合度。用例子…...

编程新知 2026/1/23 10:28:48

在Mathematica中实现Newton-Raphson迭代的收敛时间算法（一般三次多项式）

考察一般的三次多项式，以r为参数： p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]； 此多项式的根为： 尽管看起来这个多项式是特殊的，其实一般的三次多项式都是可以通过线性变换化为这个形式…...

编程新知 2026/1/30 3:24:00

Golang——7、包与接口详解

包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...

编程新知 2026/2/2 16:55:46

uniapp 小程序学习（一）

利用Hbuilder 创建项目运行到内置浏览器看效果下载微信小程序安装到Hbuilder 下载地址 ：开发者工具默认安装设置服务端口号在Hbuilder中设置微信小程序配置找到运行设置，将微信开发者工具放入到Hbuilder中， 打开后出现如下 bug 解…...

编程新知 2026/2/5 4:29:00

SpringBoot操作spark处理hdfs文件

1、导入依赖

2、配置spark信息

3、controller和service

4、运行

相关文章：