当前位置：首页 > news >正文

【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

news 2025/11/4 22:16:51

基于spark3.4.2+iceberg1.6.1搭建本地调试环境

文章目录

基于spark3.4.2+iceberg1.6.1搭建本地调试环境
- 环境准备
- 使用maven构建sparksql
- 编辑SparkSQL简单任务
- 附录A iceberg术语
- 参考

环境准备

IntelliJ IDEA 2024.1.2 (Ultimate Edition)
JDK 1.8
Spark 3.4.2
Iceberg 1.6.1

在这里插入图片描述

使用maven构建sparksql

pom文件

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.donny.demo</groupId><artifactId>iceberg-demo</artifactId><version>1.0-SNAPSHOT</version><packaging>jar</packaging><name>iceberg-demo</name><url>http://maven.apache.org</url><properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>3.4.2</spark.version><iceberg.version>1.6.1</iceberg.version><parquet.version>1.13.1</parquet.version><avro.version>1.11.3</avro.version><parquet.hadoop.bundle.version>1.8.1</parquet.hadoop.bundle.version></properties><dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>${spark.version}</version><exclusions><exclusion><groupId>org.apache.avro</groupId><artifactId>avro</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>${spark.version}</version><exclusions><exclusion><groupId>org.apache.parquet</groupId><artifactId>parquet-column</artifactId></exclusion><exclusion><groupId>org.apache.parquet</groupId><artifactId>parquet-hadoop-bundle</artifactId></exclusion><exclusion><groupId>org.apache.parquet</groupId><artifactId>parquet-hadoop</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-core</artifactId><version>${iceberg.version}</version></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-3.4_2.12</artifactId><version>${iceberg.version}</version></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-extensions-3.4_2.12</artifactId><version>${iceberg.version}</version><exclusions><exclusion><groupId>org.antlr</groupId><artifactId>antlr4</artifactId></exclusion><exclusion><groupId>org.antlr</groupId><artifactId>antlr4-runtime</artifactId></exclusion></exclusions></dependency><dependency><groupId>org.apache.parquet</groupId><artifactId>parquet-column</artifactId><version>${parquet.version}</version></dependency><dependency><groupId>org.apache.parquet</groupId><artifactId>parquet-hadoop</artifactId><version>${parquet.version}</version></dependency><dependency><groupId>org.apache.parquet</groupId><artifactId>parquet-hadoop-bundle</artifactId><version>${parquet.hadoop.bundle.version}</version></dependency><dependency><groupId>org.apache.avro</groupId><artifactId>avro</artifactId><version>${avro.version}</version></dependency><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>3.8.1</version><scope>test</scope></dependency></dependencies>
</project>

在 idea 中直接使用iceberg 生成好的 runtime jar，无法attach 不上 iceberg 的源码，为了解决这个问题把maven 依赖改成上面的pom文件上的iceberg依赖。

<dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-runtime-3.4_2.12</artifactId><version>1.6.1</version>
</dependency>

编辑SparkSQL简单任务

指定了 catalog 类型为 hadoop。可以方便简单的本地调试。
创建非分区的iceberg原生表
插入数据
查询数据（展示数据）

package com.donny.demo;import org.apache.iceberg.expressions.Expressions;
import org.apache.iceberg.spark.Spark3Util;
import org.apache.iceberg.spark.actions.SparkActions;
import org.apache.spark.api.java.function.FilterFunction;
import org.apache.spark.sql.AnalysisException;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
import org.apache.spark.sql.catalog.Table;import java.util.Objects;/*** @author 1792998761@qq.com* @version 1.0* @since 2024年09月26日*/
public class IcebergSparkDemo {public static void main(String[] args) throws AnalysisException {SparkSession spark = SparkSession.builder().master("local").appName("Iceberg spark example").config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions").config("spark.sql.catalog.local", "org.apache.iceberg.spark.SparkCatalog").config("spark.sql.catalog.local.type", "hadoop") //指定catalog 类型.config("spark.sql.catalog.local.warehouse", "iceberg_warehouse").getOrCreate();spark.sql("create database iceberg_db");spark.sql("CREATE TABLE local.iceberg_db.table (id bigint, data string) USING iceberg ");spark.sql("INSERT INTO local.iceberg_db.table VALUES (1, 'a'), (2, 'b'), (3, 'c')");Dataset<Row> result = spark.sql("select * from local.iceberg_db.table order by data");result.show();spark.close();}
}

附录A iceberg术语

Schema – 表中的字段名称和类型
Partition spec – 定义如何从数据字段导出分区值。
Partition tuple – 分区元组是存储在每个数据文件中的分区数据的元组或结构体。
Snapshot – 表在某个时间点的状态，包括所有数据文件的集合。
Snapshot log – 快照日志是记录表当前快照随时间变化情况的元数据日志。该日志是一个时间戳和ID对的列表:当前快照发生变化的时间和当前快照发生变化的ID。
Manifest list – 列出清单文件的文件；每个快照一个。
Manifest – 列出数据或删除文件的文件；快照的子集。
Data file – 包含表行的文件。
Delete file – 对表格中按位置或数据值删除的行进行编码的文件。

参考

Iceberg 源码阅读(一) 搭建本地调试环境

【Spark 实战】基于spark3.4.2+iceberg1.6.1搭建本地调试环境

基于spark3.4.2iceberg1.6.1搭建本地调试环境文章目录基于spark3.4.2iceberg1.6.1搭建本地调试环境环境准备使用maven构建sparksql编辑SparkSQL简单任务附录A iceberg术语参考环境准备 IntelliJ IDEA 2024.1.2 (Ultimate Edition)JDK 1.8Spark 3.4.2Iceberg 1.6.1 使用mave…...

编程日记 2024/10/1 4:26:26

TCP连接建立中不携带数据的报文段为何不消耗序号解析

在TCP协议中，序号的使用是为了确保数据能够按照正确的顺序被接收端重组和确认。每个TCP报文段都有一个序号字段，用于标识该报文段中数据的起始位置相对于整个数据流的偏移量。初始序号和三次握手在TCP连接的建立过程中，三次握手是确保双方…...

编程日记 2024/10/1 4:25:25

JS设计模式之状态模式：优雅地管理应用中产生的不同状态

一. 前言在过去，我们经常使用条件语句（if-else 语句）来处理应用程序中的不同状态。然而，这种方式往往会让代码变得冗长、难以维护，并可能引入潜在的 bug。而状态模式则提供了一种更加结构化和可扩展的方法来处理状态…...

编程日记 2024/10/1 4:23:23

C语言系列4——指针与数组（1）

我们开始C语言的指针与数组这部分开始进阶了，得反复学习在开始正题之前，写说一下我们都知道当写一个函数的时候需要进行传参，当实参传递给形参的时候，形参是有独立空间的，那么数组传参又是怎么样的呢，我…...

编程日记 2024/10/1 4:18:17

JS网页设计案例

下面是一个简单的 JavaScript 网页设计案例，展示了如何使用 HTML、CSS 和 JavaScript 创建一个动态的网页。案例：简单的待办事项列表 1. HTML 部分 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8…...

编程日记 2024/10/1 4:14:13

4.2.1 通过DTS传递物理中断号给Linux

点击查看系列文章》 Interrupt Pipeline系列文章大纲-CSDN博客 4.2.1 通过DTS传递物理中断号给Linux 参考《GICv3_Software_Overview_Official_Release_B》，下表描述了GIC V3支持的INTID(硬件中断号)的范围。 SGI (Software Generated Interrupt)：软…...

编程日记 2024/10/1 4:12:10

常用性能优化方法

在一个Java项目中进行性能优化是至关重要的。性能优化能够提高项目的效率和响应速度，提升用户体验，并且可以节省服务器资源和成本。首先，性能优化可以确保项目的高效运行。当项目在运行时，性能问题可能会导致应用程序变慢、响应时…...

编程日记 2024/10/1 4:07:06

上海我店：创新模式引领本地生活新风尚

近年来，一个名为“上海我店”的新兴平台在网络空间中迅速崛起，其公布的业绩令人瞩目——在短短三年内，交易流水已跨越百亿大关，并在最近一个月内迎来了近百万的新增注册用户。这一强劲的增长势头，无疑吸引了众多商家和…...

编程日记 2024/10/1 4:04:04

【微服务】前端微服务qiankun 2.x主子应用通信代码片段

主应用代码主应用工程里面源代码新建qiankun/index.js，通信代码如下： import { initGlobalState } from "qiankun"; import store from /store// 主应用与微应用数据通信 const state {subappClassName: // 设置子应用打包根的class类名 …...

编程日记 2024/10/1 4:03:03

高级java每日一道面试题-2024年9月30日-算法篇-LRU是什么?如何实现?

如果有遗漏,评论区告诉我进行补充面试官: LRU是什么?如何实现? 我回答: LRU（Least Recently Used）是一种常用的缓存淘汰策略，用于在缓存满时决定哪些数据应该被移除。LRU算法的基本思想是：当缓存达到其容量上限时&#xff0…...

编程日记 2024/10/1 4:02:02

CSS选择器的全面解析与实战应用

CSS选择器的全面解析与实战应用一、基本选择器1.1 通配符选择器（*）2.标签选择器（div）1.3 类名选择器（.class）4. id选择器（#id） 二、属性选择器（attr）三、伪…...

编程日记 2024/10/1 4:01:01

vue3自动暴露element-plus组件的ref

自动暴露子组件的方法，注意在TS下，需要自己声明类型，我这里全用any代替了 <template><el-button click"getFocus">获得焦点</el-button><com ref"comRef" /> </template><script setup…...

编程日记 2024/10/1 4:00:00

龙芯+FreeRTOS+LVGL实战笔记（新）——10蜂鸣器嘀嘀嘀

本专栏是笔者另一个专栏《龙芯+RT-Thread+LVGL实战笔记》的姊妹篇，主要的区别在于实时操作系统的不同，章节的安排和任务的推进保持一致，并对源码做了完善与优化，各位可以先到本人主页下去浏览另一专栏的博客列表（目前已撰写36篇，图1所示），再决定是否订阅。此外，也可以…...

编程日记 2024/10/1 3:58:58

微信小程序-数据模型与动态赋值

首先新建一个小程序项目. 这边有创建基础项目的流程:从0新建一个微信小程序实现一个简单跳转_小白开发小程序源代码-CSDN博客一共两步: 1.建立页面的数据模型和默认赋值: 默认赋值: 2.接收输入框的新文案,动态替换上面的文案展示 //文件 testUI.js增加方法:onInputChan…...

编程日记 2024/10/1 3:56:56

【Redis】Linux下安装配置及通过C++访问Redis

文章目录一、Linux Centos 7.0版本下的安装及配置二、通过C访问Redis 一、Linux Centos 7.0版本下的安装及配置通过源来安装，此次安装的版本为 redis 5.0 的，要通过其他源进行安装，首先安装 scl 源 yum install centos-release-scl-rh再安…...

编程日记 2024/10/1 3:55:55

Python 入门教程（4）数据类型 | 4.7、元组

文章目录一、元组1、定义2、创建3、访问元组元素4、遍历元组5、前言： 在Python编程中，元组（tuple）是一种内置的数据结构，它提供了一种存储多个项目（元素）的方式，这些项目可以是不同…...

编程日记 2024/10/1 3:53:53

Temu正在吸引越来越多的亚马逊卖家，这个市场Temu蝉联下载榜首

近年来，全球电商市场竞争愈发激烈，各大平台纷纷使出浑身解数，以期在激烈的市场竞争中脱颖而出。一个来自中国的新兴电商平台——Temu，凭借其独特的市场策略和迅猛的发展势头，正在吸引越来越多的亚马逊卖家。Temu为美国…...

编程日记 2024/10/1 3:52:51

设计原则模式概览

前言架构设计是软件系统稳定的核心因素，也是程序员晋级架构师的核心因素，建议日常开发过程中针对设计进行深挖与思考核心分清楚哪些是稳定的，哪些是变化的（一定有稳定跟变化的成分）； 捋清楚哪些是类设计…...

编程日记 2024/10/1 3:50:48

高级主题：接口性能测试与压力测试

在现代软件开发中，确保接口的性能和稳定性是非常重要的。随着用户数量的增加，接口需要能够承受高并发请求，从而保证良好的用户体验。本篇文章将介绍如何使用 Python 工具 Locust 进行接口性能测试和压力测试，分析测试结果&#xf…...

编程日记 2024/10/1 3:49:47

python绘制图像

柱状图 import os# 输入想要存储图像的路径 os.chdir(D:)import matplotlib.pyplot as plt import numpy as np # 改变绘图风格 import seaborn as snssns.set(color_codesTrue)cell [gen7, xgspon, 3081GB, vettel, totalplay, other] pvalue [21, 20, 18, 13, 7, 34]width…...

编程日记 2024/10/1 3:47:42

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/9/23 20:53:38

安宝特方案丨XRSOP人员作业标准化管理平台：AR智慧点检验收套件

在选煤厂、化工厂、钢铁厂等过程生产型企业，其生产设备的运行效率和非计划停机对工业制造效益有较大影响。随着企业自动化和智能化建设的推进，需提前预防假检、错检、漏检，推动智慧生产运维系统数据的流动和现场赋能应用。同时，…...

编程新知 2025/11/1 19:15:39

AtCoder 第409场初级竞赛 A~E题解

A Conflict 【题目链接】原题链接：A - Conflict 【考点】枚举【题目大意】找到是否有两人都想要的物品。【解析】遍历两端字符串，只有在同时为 o 时输出 Yes 并结束程序，否则输出 No。【难度】 GESP三级【代码参考】 #i…...

编程新知 2025/7/23 9:09:08

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/8/19 2:57:37

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2025/11/1 7:34:32

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2025/10/27 2:41:32

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/9/24 23:08:17

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj，再用Visual Studio 2022打开。再保侟就有.sln文件了。易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

编程新知 2025/11/2 8:56:14

嵌入式学习笔记DAY33（网络编程——TCP）

一、网络架构 C/S （client/server 客户端/服务器）：由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序，负责提供用户界面和交互逻辑 ，接收用户输入，向服务器发送请求，并展示服务…...

编程新知 2025/10/25 18:25:42