当前位置：首页 > news >正文

【Flink SQL API体验数据湖格式之paimon】

news 2026/5/25 9:55:00

前言

随着大数据技术的普及，数据仓库的部署方式也在发生着改变，之前在部署数据仓库项目时，首先想到的是选择国外哪家公司的产品，比如：数据存储会从Oracle、SqlServer中或者Mysql中选择，ETL工具会从Informatica、DataStage或者Kettle中选择，BI报表工具会从IBM cognos、Sap Bo或者帆软中选择，基本上使用的产品组合都类似，但随着数据量的激增，之前的部署方式已经越来越不能满足业务场景，例如：不同格式的数据存储，传出的数据库无法存储，而且随着数量的增多，数据库的响应速度就会下降，并且数据大都是T+1的，往往从业务需求的提交到BI报表开发都需要一段时间，等BI报表开发后，数据的时效性大大降低，无法为业务的决策及时性提供帮助，后来随着hadoop的流行，数据仓库慢慢的就演变为以hadoop为基础存储的大数据仓库，并解决了传统数仓无法承载激增数据量的问题，并且随着计算引擎的迭代更新，现在也能实现数据的实时性和事务性，本篇就以新起之秀的数据存储方式来展开介绍。

提示：以下案例仅供参考

一、paimon是什么？

paimon是一种基于LSM形式的数据湖存储格式，与hudi、iceberg定位相同，都是一种基于对hdfs文件存储管理的技术，flink与hudi和iceberg都有做过集成，但hudi和iceberg相当于spark的功能更为完善，这些数据湖格式也都更偏向于批处理，而相对于flink来说，提供的功能相较于spark来说，没有那么完善，虽然flink针对这些方面有做过努力尝试，但结果都不太理想，于是，flink基于前者的有点，自己创造一种数据湖存储格式，其基于flink table store的基础，在结合其他开源数据湖格式的特点加以改进，于是一种新的数据湖格式paimon就诞生了，本人也是最近才开始尝试这种新的数据湖格式的一些功能，下面是基于sql api编写的一个简单的例子。

二、Fink SQL API方式编程

1.创建kafka流标

我这边是以yarn-session的方式执行的，所以首先启动的session，cd $FLINK_HOME，执行bin/yarn-session -d -nm test创建一个名称为test的session会话，随后执行bin/sql-client -s yarn-session进入sql客户端，直接使用默认的catalog和database，执行下面的DDL语句，就会在default_catalog.default_database下创建一个kafka_table表

create temporary table `kafka_table`(
`distinct_id` string,
`login_id` string,
`anonymous_id` string,
`type` string,
`event` string,
`_track_id` string,
`time` string,
`_flush_time` string,
`device_id` string,
`project_id` string,
`map_id` string,
`user_id` string,
`recv_time` string) with('connector'='kafka','topic'='event_topic','properties.group.id'='testgroup','properties.bootstrap.servers'='cdp1:9092','scan.startup.mode'='latest-offset','format'='json');

2.创建paimon append表

接着执行如下DDL语句

CREATE TABLE paimon_append (
`distinct_id` string,
`login_id` string,
`anonymous_id` string,
`type` string,
`event` string,
`_track_id` string,
`time` string,
`_flush_time` string,
`device_id` string,
`project_id` string,
`map_id` string,
`user_id` string,
`recv_time` string
) PARTITIONED BY (`distinct_id`)
WITH (
'bucket' = '-1'
);

3.数据导入

SET ‘execution.checkpointing.interval’ = ‘1 min’;
INSERT INTO paimon_append SELECT * FROM kafka_table;

总结

以上就是一个消费kafka主题数据，并每隔一定的间接直接，写入到paimon表中，paimon会对小文件数据量达到一定程度后，对文件进行压缩合并，并且paimon也支持merge into、update、以及schema evolution等功能，由于时间有限，这里就不仔细展开了，有兴趣的朋友，可以亲自尝试下，版本目标已经更新到0.7，为flink的生态状态又增加了一环，目前flink cdc 、paimon的加持、能很好的解决lamda架构数据不一致，以及kappa架构数据追溯的问题，相信随着后续版本的迭代更多强大的功能也会推出。

【Flink SQL API体验数据湖格式之paimon】

前言

一、paimon是什么？

二、Fink SQL API方式编程

1.创建kafka流标

2.创建paimon append表

3.数据导入

总结

相关文章：

【Flink SQL API体验数据湖格式之paimon】

idea导入spring-framework异常：error: cannot find symbol

Unity坦克大战开发全流程——开始场景——开始界面

【SpringCloud】从实际业务问题出发去分析Eureka-Server端源码

Java 代理模式

【Java干货教程】JSON，JSONObject，JSONArray类详解

2023年高级软考系统架构师考题参考

【c语言】飞机大战（1）

关于 K8s 的一些基础概念整理

Node.js-fs、path、http模块

CentOS 安装WebLogic

Linux命令的操作练习

杰发科技AC7840——EEPROM初探

WPF 基础入门（简介）

【Unity动画系统】Animator有限状态机参数详解

php获取访客IP、UA、操作系统、浏览器等信息

基于huffman编解码的图像压缩算法matlab仿真

python+django网上购物商城系统o9m4k

面试题-性能优化

自身文档管理规范

RePKG架构深度解析：Wallpaper Engine资源逆向工程与高性能转换方案

Spring Cloud微服务里，如何用XXL-JOB搞定订单15分钟未支付自动关闭？

如何在Blender中实现专业级MMD模型动画制作：5步完整解决方案

从CentOS迁移到openEuler？手把手教你在vSphere ESXi 7.0上搭建测试环境

海外试玩推广渠道汇总

PrismLauncher-Cracked常见问题解答：解决安装与使用中的15个难题

HHEML：基于FPGA硬件加速的边缘隐私保护机器学习框架

AhMyth短信管理器：远程读取和发送短信的终极技术指南 [特殊字符]

AI Agent的节能与绿色计算：优化计算资源消耗的算法与策略

强化学习入门第一步：用Python 3.9和Gymnasium 0.28.1搭建你的第一个AI游戏测试台