当前位置：首页 > news >正文

Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作

news 2025/10/29 16:09:04

背景

本文主要是具体说说Flink中的clean操作的实现

杂说闲谈

在flink中主要是CleanFunction函数：

  @Overridepublic void open(Configuration parameters) throws Exception {super.open(parameters);this.writeClient = FlinkWriteClients.createWriteClient(conf, getRuntimeContext());this.executor = NonThrownExecutor.builder(LOG).waitForTasksFinish(true).build();String instantTime = HoodieActiveTimeline.createNewInstantTime();LOG.info(String.format("exec clean with instant time %s...", instantTime));executor.execute(() -> writeClient.clean(instantTime), "wait for cleaning finish");}@Overridepublic void notifyCheckpointComplete(long l) throws Exception {if (conf.getBoolean(FlinkOptions.CLEAN_ASYNC_ENABLED) && isCleaning) {executor.execute(() -> {try {this.writeClient.waitForCleaningFinish();} finally {// ensure to switch the isCleaning flagthis.isCleaning = false;}}, "wait for cleaning finish");}}@Overridepublic void snapshotState(FunctionSnapshotContext context) throws Exception {if (conf.getBoolean(FlinkOptions.CLEAN_ASYNC_ENABLED) && !isCleaning) {try {this.writeClient.startAsyncCleaning();this.isCleaning = true;} catch (Throwable throwable) {// catch the exception to not affect the normal checkpointingLOG.warn("Error while start async cleaning", throwable);}}}

open函数
- writeClient =FlinkWriteClients.createWriteClient(conf, getRuntimeContext())
  创建FlinkWriteClient,用于写hudi数据
- this.executor = NonThrownExecutor.builder(LOG).waitForTasksFinish(true).build();
  创建一个只有一个线程的线程池，改线程池的主要作用来异步执行hudi写操作
- executor.execute(() -> writeClient.clean(instantTime)
  异步执行hudi的清理操作,该clean函数的主要代码如下：
```
   if (!tableServicesEnabled(config)) {return null;}final Timer.Context timerContext = metrics.getCleanCtx();CleanerUtils.rollbackFailedWrites(config.getFailedWritesCleanPolicy(),HoodieTimeline.CLEAN_ACTION, () -> rollbackFailedWrites(skipLocking));HoodieTable table = createTable(config, hadoopConf);if (config.allowMultipleCleans() || !table.getActiveTimeline().getCleanerTimeline().filterInflightsAndRequested().firstInstant().isPresent()) {LOG.info("Cleaner started");// proceed only if multiple clean schedules are enabled or if there are no pending cleans.if (scheduleInline) {scheduleTableServiceInternal(cleanInstantTime, Option.empty(), TableServiceType.CLEAN);table.getMetaClient().reloadActiveTimeline();}}// Proceeds to execute any requested or inflight clean instances in the timelineHoodieCleanMetadata metadata = table.clean(context, cleanInstantTime, skipLocking);if (timerContext != null && metadata != null) {long durationMs = metrics.getDurationInMs(timerContext.stop());metrics.updateCleanMetrics(durationMs, metadata.getTotalFilesDeleted());LOG.info("Cleaned " + metadata.getTotalFilesDeleted() + " files"+ " Earliest Retained Instant :" + metadata.getEarliestCommitToRetain()+ " cleanerElapsedMs" + durationMs);}return metadata;
```
  - CleanerUtils.rollbackFailedWrites(config.getFailedWritesCleanPolicy(),HoodieTimeline.CLEAN_ACTION,() -> rollbackFailedWrites *
    根据配置hoodie.cleaner.policy.failed.writes* 默认是EAGER,也就是在写数据失败的时候，会立即进行这次写失败的数据的清理，在这种情况下，
    就不会执行rollbackFailedWrites操作，也就是回滚写失败文件的操作
  - HoodieTable table = createTable *
    创建HoodieFlinkMergeOnReadTable*类型的hudi表,用来做clean等操作
  - scheduleTableServiceInternal
    如果hoodie.clean.allow.multiple为true(默认为true)或者没有正在运行中clean操作，则会生成Clean计划
    这里最终调用的是FlinkWriteClient.scheduleCleaning方法,即CleanPlanActionExecutor.execute方法
    
    这里最重要的就是requestClean方法：
```
CleanPlanner<T, I, K, O> planner = new CleanPlanner<>(context, table, config);
Option<HoodieInstant> earliestInstant = planner.getEarliestCommitToRetain();
List<String> partitionsToClean = planner.getPartitionPathsToClean(earliestInstant)    
int cleanerParallelism = Math.min(partitionsToClean.size(), config.getCleanerParallelism());
Map<String, Pair<Boolean, List<CleanFileInfo>>> cleanOpsWithPartitionMeta = context.map(partitionsToClean, partitionPathToClean -> Pair.of(partitionPathToClean, planner.getDeletePaths(partitionPathToClean)), cleanerParallelism).stream().collect(Collectors.toMap(Pair::getKey, Pair::getValue))    
Map<String, List<HoodieCleanFileInfo>> cleanOps = cleanOpsWithPartitionMeta.entrySet().stream().collect(Collectors.toMap(Map.Entry::getKey,e -> CleanerUtils.convertToHoodieCleanFileInfoList(e.getValue().getValue())))    
List<String> partitionsToDelete = cleanOpsWithPartitionMeta.entrySet().stream().filter(entry -> entry.getValue().getKey()).map(Map.Entry::getKey).collect(Collectors.toList())    
return new HoodieCleanerPlan(earliestInstant.map(x -> new HoodieActionInstant(x.getTimestamp(), x.getAction(), x.getState().name())).orElse(null),planner.getLastCompletedCommitTimestamp(),config.getCleanerPolicy().name(), CollectionUtils.createImmutableMap(),CleanPlanner.LATEST_CLEAN_PLAN_VERSION, cleanOps, partitionsToDelete)    
```
    - planner.getEarliestCommitToRetain();
      根据保留策略，获取到最早需要保留的commit的HoodieInstant,在这里会兼顾考虑到hoodie.cleaner.commits.retained(默认是10)以及hoodie.cleaner.hours.retained默认是24小时以及hoodie.cleaner.policy策略（默认是KEEP_LATEST_COMMITS）
    - planner.getPartitionPathsToClean(earliestInstant);
      根据保留的最新commit的HoodieInstant,得到要删除的分区,这里会根据配置hoodie.cleaner.incremental.mode(默认是true)来进行增量清理,
      这个时候就会根据上一次已经clean的信息，只需要删除差量的分区数据就行
    - cleanOpsWithPartitionMeta = context
      根据上面得到的需要删除的分区信息，获取需要删除的文件信息,具体的实现可以参考CleanPlanner.getFilesToCleanKeepingLatestCommits
      这里的操作主要是先通过fileSystemView获取分区下所有的FileGroup,之后再获取每个FileGroup下的所有的FileSlice(这里的FileSlice就有版本的概念，也就是commit的版本),之后再与最新保留的commit的时间戳进行比较得到需要删除的文件信息
    - new HoodieCleanerPlan
      最后组装成HoodieCleanPlan的计划,并且在外层调用table.getActiveTimeline().saveToCleanRequested(cleanInstant, TimelineMetadataUtils.serializeCleanerPlan(cleanerPlan)); 方法把clean request的状态存储到对应的.hoodie目录下，并建立一个xxxx.clean.requested的元数据文件
  - table.getMetaClient().reloadActiveTimeline()
    重新加载timeline,便于过滤出来刚才scheduleTableServiceInternal操作生成的xxxxxxxxxxxxxx.clean.requested的元数据文件
  - table.clean(context, cleanInstantTime, skipLocking)
    真正执行clean的部分，主要是调用CleanActionExecutor.execute的方法,最终调用的是*runPendingClean(table, hoodieInstant)*方法:
```
 HoodieCleanerPlan cleanerPlan = CleanerUtils.getCleanerPlan(table.getMetaClient(), cleanInstant);return runClean(table, cleanInstant, cleanerPlan);
```
    首先是反序列化CleanPlan,然后在进行清理，主要是删除1. 如果没有满足的分区，直接删除该分区，2. 否则删除该分区下的满足条件的文件,最后返回HoodieCleanStat包含删除的文件信息等。
snapshotState方法
- 如果clean.async.enabled是true(默认是true)，并且不是正在进行clean动作，则会进行异步清理
  this.writeClient.startAsyncCleaning(); 这里最终也是调用的writeClient.clean方法。
- this.isCleaning = true;
  设置标志位，用来保证clean操作的有序性
notifyCheckpointComplete方法
- 如果clean.async.enabled是true(默认是true)，并且正在进行clean动作，则等待clean操作完成，
  并且设置清理标识位，用来和snapshotState方法进行呼应以保证clean操作的有序性

Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作

背景本文主要是具体说说Flink中的clean操作的实现杂说闲谈在flink中主要是CleanFunction函数： Overridepublic void open(Configuration parameters) throws Exception {super.open(parameters);this.writeClient FlinkWriteClients.createWriteClient(conf,…...

编程日记 2023/10/3 1:12:11

stream对list数据进行多字段去重

方法一： //根据sj和name去重 List<NursingHandover> testList list.stream().collect(Collectors.collectingAndThen(Collectors.toCollection(() -> new TreeSet<>(Comparator.comparing(o -> o.getj() ";" o.getName() ";&…...

编程日记 2023/10/3 1:11:10

一种基于体素的射线检测

效果基于体素的射线检测一个漏检的射线检测从起点一直递增指定步长即可得到一个稀疏的检测 bool Raycast(Vector3 from, Vector3 forword, float maxDistance){int loop 6666;Vector3 pos from;Debug.DrawLine(from, from forword * maxDistance, Color.red);while (loo…...

编程日记 2023/10/3 1:10:09

利用Docker安装Protostar

文章目录一、Protostar介绍二、Ubuntu下安装docker三、安装Protostar 一、Protostar介绍 Protostar是一个免费的Linux镜像演练环境，包含五个系列共23道漏洞分析和利用实战题目。 Protostar的安装有两种方式第一种是下载镜像并安装虚拟机https://github.com/Exp…...

编程日记 2023/10/3 1:09:07

go基础语法10问

1.使用值为 nil 的 slice、map会发生啥允许对值为 nil 的 slice 添加元素，但对值为 nil 的 map 添加元素，则会造成运行时 panic。 // map 错误示例 func main() {var m map[string]intm["one"] 1 // error: panic: assignment to entry i…...

编程日记 2023/10/3 1:05:03

SpringCloud + SpringGateway 解决Get请求传参为特殊字符导致400无法通过网关转发的问题

title: “SpringCloud SpringGateway 解决Get请求传参为特殊字符导致400无法通过网关转发的问题” createTime: 2021-11-24T10:27:5708:00 updateTime: 2021-11-24T10:27:5708:00 draft: false author: “Atomicyo” tags: [“tomcat”] categories: [“java”] description: …...

编程日记 2023/10/3 1:04:02

vim基本操作

功能： 命令行模式下的文本编辑器。根据文件扩展名自动判别编程语言。支持代码缩进、代码高亮等功能。使用方式：vim filename 如果已有该文件，则打开它。如果没有该文件，则打开个一个新的文件，并命名为filename 模式…...

编程日记 2023/10/3 0:57:54

Drift plus penalty 漂移加惩罚Part1——介绍和工作原理

文章目录正文Methodology 方法论Origins and applications 起源和应用How it works 它是怎样工作的The stochastic optimization problem 随机优化问题Virtual queues 虚拟队列The drift-plus-penalty expression 漂移加惩罚表达式Drift-plus-penalty algorithmApproximate sc…...

编程日记 2023/10/3 0:53:49

（四）动态阈值分割

文章目录一、基本概念二、实例解析一、基本概念基于局部阈值分割的dyn_threshold()算子，适用于一些无法用单一灰度进行分割的情况，如背景比较复杂，有的部分比前景目标亮，或者有的部分比前景目标暗；又比如前景目标包…...

编程日记 2023/10/3 0:51:47

jvm介绍

1. JVM是什么 JVM是Java Virtual Machine的缩写，即咱们经常提到的Java虚拟机。虚拟机是一种抽象化的计算机，有着自己完善的硬件架构，如处理器、堆栈等，具体有什么咱们不做了解。目前我们只需要知道想要运行Java文件，必…...

编程日记 2023/10/3 0:50:46

数据结构与算法课后题-第三章(顺序队和链队)

#include <iostream> //引入头文件 using namespace std;typedef int Elemtype;#define Maxsize 5 #define ERROR 0 #define OK 1typedef struct {Elemtype data[Maxsize];int front, rear;int tag; }SqQueue;void InitQueue(SqQueue& Q) //初始化队列 {Q.rear …...

编程日记 2023/10/3 0:49:45

SSM - Springboot - MyBatis-Plus 全栈体系（十六）

第三章 MyBatis 三、MyBatis 多表映射 2. 对一映射 2.1 需求说明根据 ID 查询订单，以及订单关联的用户的信息！ 2.2 OrderMapper 接口 public interface OrderMapper {Order selectOrderWithCustomer(Integer orderId); }2.3 OrderMapper.xml 配置…...

编程日记 2023/10/3 0:47:44

k8s--storageClass自动创建PV

文章目录一、storageClass自动创建PV1.1 安装NFS1.2 创建nfs storageClass1.3 测试自动创建pv 一、storageClass自动创建PV 这里使用NFS实现 1.1 安装NFS 安装nfs-server： sh nfs_install.sh /mnt/data03 10.60.41.0/24nfs_install.sh #!/bin/bash### How to i…...

编程日记 2023/10/3 0:43:39

7.3 调用函数

前言： 思维导图： 7.3.1 函数调用的形式我的笔记： 函数调用的形式在C语言中，调用函数是一种常见的操作，主要有以下几种调用方式： 1. 函数调用语句此时，函数调用独立存在，作为…...

编程日记 2023/10/3 0:41:38

如果使用pprof来进行性能的观测和优化

1. 分析性能瓶颈在开始优化之前，首先需要确定你的程序的性能瓶颈在哪里。使用性能分析工具（例如 Go 的内置 pprof 包）来检测程序中消耗时间和内存的地方。这可以帮助你确定需要优化的具体部分。 2. 选择适当的数据结构和算法选择正确的数…...

编程日记 2023/10/3 0:40:37

在移动固态硬盘上安装Ubuntu系统和ROS2

目录原视频准备烧录原视频 b站鱼香ros 准备 1.在某宝上买一个usb移动固态硬盘或固态U盘，至少64G 2.下载鱼香ros烧录工具下载第二个就行了，不然某网盘的速度下载全部要一天下载后，选择FishROS2OS制作工具压缩包，进行解压…...

编程日记 2023/10/3 0:39:36

【iptables 实战】02 iptables常用命令

一、iptables中基本的命令参数 -P 设置默认策略-F 清空规则链-L 查看规则链-A 在规则链的末尾加入新规则-I num 在规则链的头部加入新规则-D num 删除某一条规则-s 匹配来源地址IP/MASK，加叹号“！”表示除这个IP外-d 匹配目标地址-i 网卡名称匹配从这块…...

编程日记 2023/10/3 0:30:28

webview_flutter

查看webview内核 https://liulanmi.com/labs/core.html h5中获取设备 https://cloud.tencent.com/developer/ask/sof/105938013 https://developer.mozilla.org/zh-CN/docs/Web/API/Navigator/mediaDevices web资源部署后navigator获取不到mediaDevices实例的解决方案&…...

编程日记 2023/10/3 0:28:26

【GESP考级C++】1级样题闰年统计

GSEP 1级样题闰年统计题目描述小明刚刚学习了如何判断平年和闰年，他想知道两个年份之间（包含起始年份和终止年份）有几个闰年。你能帮帮他吗？ 输入格式输入一行，包含两个整数，分别表示起始年份和终止…...

编程日记 2023/10/3 0:26:24

CentOS密码重置

背景： 我有一个CentOS虚拟机，但是密码忘记了，偶尔记起可以重置密码，于是今天尝试记录一下，又因为我最近记性比较差，所以必须要记录一下。过程： 1、在引导菜单界面（grub&#xff…...

编程日记 2023/10/3 0:25:23

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2025/8/4 18:55:37

MongoDB学习和应用(高效的非关系型数据库)

一丶 MongoDB简介对于社交类软件的功能，我们需要对它的功能特点进行分析： 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具： mysql：关系型数据库&am…...

编程新知 2025/10/23 21:47:23

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2025/8/26 18:00:13

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2025/10/25 18:00:07

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2025/10/27 13:41:12

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录一、搜索引擎1、什么是搜索引擎？2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长，文件大。2.其次，树深，IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

编程新知 2025/10/29 5:13:45

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

目录一、SQL注入二、insert注入三、报错型注入四、updatexml函数五、源码审计六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关&#xff0…...

编程新知 2025/10/28 7:52:29

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念线程安全（Thread Safety） 线程安全是指在多线程环境下，某个函数、类或代码片段能够被多个线程同时调用时，仍能保证数据的一致性和逻辑的正确性&#xf…...

编程新知 2025/10/13 7:34:19

MySQL账号权限管理指南：安全创建账户与精细授权技巧

在MySQL数据库管理中，合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。一、为何需要创建独立账号？ 最小权限原则&#xf…...

编程新知 2025/9/5 23:36:27

背景

杂说闲谈

相关文章：