FLINK SQL数据类型
Flink SQL支持非常完善的数据类型,以满足不同的数据处理需求。以下是对Flink SQL数据类型的详细归纳:
一、原子数据类型
- 字符串类型
- CHAR、CHAR(n):定长字符串,n代表字符的定长,取值范围为[1, 2147483647]。如果不指定n,则默认为1。
- VARCHAR、VARCHAR(n)、STRING:可变长字符串,n代表字符的最大长度,取值范围为[1, 2147483647]。如果不指定n,则默认为1。STRING等同于VARCHAR(2147483647)。
- 二进制字符串类型
- BINARY、BINARY(n):定长二进制字符串,n代表定长,取值范围为[1, 2147483647]。如果不指定n,则默认为1。
- VARBINARY、VARBINARY(n)、BYTES:可变长二进制字符串,n代表字符的最大长度,取值范围为[1, 2147483647]。如果不指定n,则默认为1。BYTES等同于VARBINARY(2147483647)。
- 精确数值类型
- DECIMAL、DECIMAL§、DECIMAL(p, s)、DEC、DEC§、DEC(p, s)、NUMERIC、NUMERIC§、NUMERIC(p, s):固定长度和精度的数值类型,p代表数值位数(长度),取值范围为[1, 38];s代表小数点后的位数(精度),取值范围为[0, p]。如果不指定,p默认为10,s默认为0。
- 有损精度数值类型
- TINYINT:-128到127的1字节大小的有符号整数。
- SMALLINT:-32768到32767的2字节大小的有符号整数。
- INT、INTEGER:-2147483648到2147483647的4字节大小的有符号整数。
- BIGINT:-9223372036854775808到9223372036854775807的8字节大小的有符号整数。
- 浮点类型
- FLOAT:4字节大小的单精度浮点数值。
- DOUBLE、DOUBLE PRECISION:8字节大小的双精度浮点数值。
- 布尔类型
- BOOLEAN。
- 日期、时间类型
- DATE:由年-月-日组成的不带时区含义的日期类型,取值范围为[0000-01-01, 9999-12-31]。
- TIME、TIME§:由小时:分钟:秒[.小数秒]组成的不带时区含义的时间数据类型,精度高达纳秒,取值范围为[00:00:00.000000000, 23:59:59.9999999]。其中p代表小数秒的位数,取值范围为[0, 9],如果不指定p,默认为0。
- TIMESTAMP、TIMESTAMP§、TIMESTAMP WITHOUT TIME ZONE、TIMESTAMP§ WITHOUT TIME ZONE:由年-月-日 小时:分钟:秒[.小数秒]组成的不带时区含义的时间类型,取值范围为[0000-01-01 00:00:00.000000000, 9999-12-31 23:59:59.999999999]。其中p代表小数秒的位数,取值范围为[0, 9],如果不指定p,默认为6。
- TIMESTAMP WITH TIME ZONE、TIMESTAMP§ WITH TIME ZONE:由年-月-日 小时:分钟:秒[.小数秒] 时区组成的带时区含义的时间类型,取值范围为[0000-01-01 00:00:00.000000000 +14:59, 9999-12-31 23:59:59.999999999 -14:59]。其中p代表小数秒的位数,取值范围为[0, 9],如果不指定p,默认为6。
- TIMESTAMP_LTZ、TIMESTAMP_LTZ§:与TIMESTAMP WITH TIME ZONE类似,但时区信息不是携带在数据中的,而是由Flink SQL任务的全局配置决定的。
二、复合数据类型
- ARRAY:数组类型,类似于Java的array。
- MULTISET:集合类型,类似于Java的List。
- ROW:对象类型,可以包含多个字段,每个字段有自己的类型和名称,类似于Java的Object或Scala的Case Class。
- MAP:映射类型,包含键值对,键和值都可以是任意类型。
样例:
- Tuple(元组)
// 创建一个包含String和Integer类型字段的Tuple2
DataStream<Tuple2<String, Integer>> tupleStream = env.fromElements( new Tuple2<>("Alice", 30), new Tuple2<>("Bob", 25)
); // 访问Tuple2的字段
tupleStream.map(tuple -> tuple.f0 + " is " + tuple.f1 + " years old") .print();
- POJO(Plain Old Java Object,普通旧Java对象)
// 定义一个POJO类
public class PersonPOJO { public String name; public int age; // 无参构造方法 public PersonPOJO() {} // 有参构造方法 public PersonPOJO(String name, int age) { this.name = name; this.age = age; } // Getter和Setter方法 public String getName() { return name; } public void setName(String name) { this.name = name; } public int getAge() { return age; } public void setAge(int age) { this.age = age; }
} // 创建一个包含PersonPOJO对象的DataStream
DataStream<PersonPOJO> personPOJOStream = env.fromElements( new PersonPOJO("Alice", 30), new PersonPOJO("Bob", 25)
); // 对DataStream进行处理
personPOJOStream.map(person -> person.getName() + " is " + person.getAge() + " years old") .print();
- Row
CREATE TABLE person_table ( id BIGINT, name STRING, age INT
) WITH ( 'connector' = '..., ...
); -- 插入数据(假设已经有数据插入到person_table中) -- 查询数据,并使用Row来表示结果集中的行
SELECT id, name, age FROM person_table AS row(id BIGINT, name STRING, age INT);
- Map 和 Array
// 创建一个包含Map和Array的DataStream
DataStream<Tuple2<Map<String, String>, Integer[]>> complexStream = env.fromElements( new Tuple2<>( new HashMap<String, String>() {{ put("key1", "value1"); put("key2", "value2"); }}, new Integer[]{1, 2, 3} ), // ... 其他元素
); // 对DataStream进行处理
complexStream.map(tuple -> { Map<String, String> map = tuple.f0; Integer[] array = tuple.f1; // ... 对map和array进行处理 return "Processed result"; // 示例返回值,实际应根据需求返回合适的类型
})
.print();
三、用户自定义数据类型
Flink SQL也支持用户自定义数据类型,用户可以根据自己的需求定义复杂的数据结构,并通过实现相应的接口或类来注册这些自定义类型。
1、定义与用途
用户自定义数据类型通常用于处理那些无法直接通过Flink内置数据类型表示的数据。例如,当需要处理一个包含多个字段的复杂数据结构时,就可以定义一个包含这些字段的用户自定义数据类型。
2、实现方式
在Flink中,实现用户自定义数据类型通常需要遵循以下步骤:
- 定义数据类型:首先,需要定义一个Java或Scala类来表示用户自定义数据类型。这个类应该包含所有需要的字段,并提供相应的getter和setter方法(如果是Java类,还需要一个无参构造方法)。
- 实现序列化与反序列化:为了使Flink能够处理用户自定义数据类型,需要实现相应的序列化器和反序列化器。这些序列化器和反序列化器负责将用户自定义数据类型转换为字节流,以及从字节流中恢复出用户自定义数据类型。
- 注册类型信息:在Flink中注册用户自定义数据类型的类型信息。这通常是通过在Flink的配置中指定类型信息的方式来实现的。
3、注意事项 - 性能考虑:自定义数据类型的序列化与反序列化过程可能会对性能产生影响。因此,在实现自定义数据类型时,需要仔细考虑如何优化序列化与反序列化过程,以提高性能。
- 兼容性:当在不同的Flink集群或版本之间迁移时,需要确保自定义数据类型及其序列化器与反序列化器是兼容的。否则,可能会导致数据无法正确解析或处理。
- 错误处理:在处理用户自定义数据类型时,需要特别注意错误处理。例如,当遇到无法解析的数据时,应该能够优雅地处理这些错误,而不是导致整个作业失败。
4、应用场景
用户自定义数据类型在Flink中有广泛的应用场景。例如: - 复杂数据结构处理:当需要处理包含多个字段的复杂数据结构时,可以使用用户自定义数据类型来表示这些结构。
- 自定义聚合函数:在实现自定义聚合函数时,可能需要使用用户自定义数据类型来存储中间结果或最终结果。
- 与外部系统交互:当Flink与外部系统(如数据库、消息队列等)交互时,可能需要将这些系统的数据类型转换为Flink能够处理的数据类型。这时,可以使用用户自定义数据类型来实现这种转换。
5、样例- 定义自定义数据类型
首先,定义一个Java类来表示自定义数据类型。例如,我们定义一个名为Person的类,包含name和age两个字段。
- 定义自定义数据类型
public class Person { private String name; private int age; // 无参构造方法 public Person() {} // 有参构造方法 public Person(String name, int age) { this.name = name; this.age = age; } // Getter和Setter方法 public String getName() { return name; } public void setName(String name) { this.name = name; } public int getAge() { return age; } public void setAge(int age) { this.age = age; } // 重写toString方法,方便打印输出 @Override public String toString() { return "Person{name='" + name + "', age=" + age + "}"; }
}
2. 实现序列化与反序列化
为了使Flink能够处理Person类型的数据,需要实现相应的序列化器和反序列化器。在Flink中,这通常通过实现TypeSerializer和TypeDeserializer接口来完成。然而,对于简单的POJO(Plain Old Java Object)类型,Flink通常能够自动推断并处理其序列化与反序列化过程,因此在这个例子中我们不需要显式实现这些接口。
3. 注册类型信息(如果需要)
在某些情况下,可能需要显式地在Flink中注册自定义数据类型的类型信息。这通常是在使用低级别的API(如DataStream API)时需要的。然而,在使用Table API或SQL时,Flink通常能够自动推断数据类型,因此不需要显式注册。
4. 使用自定义数据类型
现在,我们可以在Flink作业中使用Person类型的数据了。例如,我们可以创建一个DataStream,并向其中添加Person对象,然后对其进行处理。
// 假设已经有一个执行环境executionEnvironment
DataStream<Person> personStream = executionEnvironment .fromElements(new Person("Alice", 30), new Person("Bob", 25)) .name("Person Stream"); // 对DataStream进行处理,例如打印输出
personStream.print();
综上所述,Flink SQL提供了丰富多样的数据类型,以满足不同的数据处理需求。用户可以根据实际情况选择合适的数据类型,并进行相应的数据处理操作。
相关文章:
FLINK SQL数据类型
Flink SQL支持非常完善的数据类型,以满足不同的数据处理需求。以下是对Flink SQL数据类型的详细归纳: 一、原子数据类型 字符串类型 CHAR、CHAR(n):定长字符串,n代表字符的定长,取值范围为[1, 2147483647]。如果不指…...
汇编语言教程:打造你的第一款汇编语言小游戏 汇编语言教程攻略
目录 游戏详细简介 完整代码示例(不少于70行) 如何自学汇编语言游戏开发攻略及功能 游戏详细简介 游戏名称:“太空探险” 游戏简介:这是一款基于x86汇编语言开发的简单2D游戏。在游戏中,玩家扮演一名宇航员&#…...
白色简洁大方公司企业网站源码 WordPress主题2款
WordPress白色简洁大方公司企业网站主题2款 白色整洁风格wordpress主题是一款比较新颖的国际设计范风格 简洁而大方的 WordPress 主题,适合个人博客、企业和工作室用。 完美支持下拉菜单的wordpress企业主题。 wordpress简白企业模板是一款适合企业站以及工作室…...
MinIO分片上传超大文件(纯服务端)
目录 一、MinIO快速搭建1.1、拉取docker镜像1.2、启动docker容器 二、分片上传大文件到MinIO2.1、添加依赖2.2、实现MinioClient2.3、实现分片上传2.3.0、初始化MinioClient2.3.1、准备分片上传2.3.2、分片并上传2.3.2.1、设置分片大小2.3.2.2、分片 2.3.3、分片合并 三、测试3…...
leetcode链表(一)-移除链表元素
题目 t. - 力扣(LeetCode) 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 例1 输入:head [1,2,6,3,4,5,6], val 6 输出:[1,2,3,4,5]…...
python的特殊方法——魔术方法
前言 __init__(self[]) 编辑 __call__(self [, ...]) __getitem__(self, key) __len__(self) __repr__(self) / __str__(self) __add__(self, other) __radd__(self, other) 参考文献 前言 官方定义好的,以两个下划线开头且以两个下划线结尾来命名的方法…...
深入浅出理解TCP三次握手与四次挥手
目录 引言1.为什么需要三次握手?2. 三次握手的过程3. 为什么需要四次挥手?4. 四次挥手的过程5. 为什么挥手需要四次,而握手只需三次?6. 三次握手与四次挥手的时序图7. TIME_WAIT状态的意义8. 总结9.面试时候问到什么是三次握手和四…...
如何在Windows和Linux查看正在监听的端口和绑定的进程
端口(Port)和进程(Process)是计算机网络和操作系统中的重要概念,它们之间有着密切的关系。以下是对这两个概念的详细介绍以及它们之间的关系(附Windows和Linux查看端口和进程的命令): 端口(Por…...
如何用深度神经网络预测潜在消费者
1. 模型架构 本项目采用的是DeepFM模型,其结构结合了FM(因子分解机)与深度神经网络(DNN),实现了低阶与高阶特征交互的有效建模。模型分为以下几层: 1.1 FM部分(因子分解机层&#…...
基于opencv答题卡识别判卷
我们是一个深度学习领域的独立工作室。团队成员有:中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等,曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万粉丝,拥有2篇国家级人工智能发明专利。 社区特色:深度实…...
ShardingSphere分库分表产品介绍
目录 一、ShardingSphere分库分表产品介绍 二、客户端分库分表与服务端分库分表 1、ShardingJDBC客户端分库分表 2、ShardingProxy服务端分库分表 3、ShardingSphere混合部署架构 三、分库分表,能不分就不分! 1、为什么要分库分表? 2、…...
Java经典面试题-多线程打印
threadsynchronized 就好像一个圆圈,A->B->C->A。。。。。 synchronized能够保证多个线程进入实,只用一个线程能进入。 /**多线程交替打印* */ public class Task {private final Object lock new Object();private int count 0;public st…...
FireFox简单设置设置
文章目录 一 设置不显示标签页1原来的样子2新的样子3操作方法 二 设置竖直标签页栏1 效果图2 设置方法 三 设置firefox不提醒更新 一 设置不显示标签页 1原来的样子 2新的样子 3操作方法 地址栏输入 about:config搜索icon,双击选项列表中browserchrome.site icons的值&#…...
Sollong手机——一站式Web3生态解决方案
从定义上讲,Web3公司也属于互联网公司,不过与传统互联网公司相比,他们有一个很明显的特征:他们不断尝试做去中心化的事,一步步将数据和金融的控制权从美联储(央行和金融机构)、苹果(…...
《重生到现代之从零开始的数据结构生活》—— 顺序表1
线性表 线性表:是n个具有相同特性的数据元素的有限序列。 线性表是⼀种在实际中⼴泛使 ⽤的 数据结构,常⻅的线性表有顺序表、链表、栈、队列、字符串等等 线性表在逻辑上是线性结构,也就说是连续的⼀条直线。但是在物理结构上并不⼀定是连…...
2本书让你轻松入门大模型!《大模型入门:技术原理与实战应用》+《自然语言处理:大模型理论与实践》
随着大模型技术的不断完善和普及,我们将进入一个由数据驱动、智能辅助的全新工作模式和生活模式。个人和企业将能够利用大模型来降本增效,并创造全新的用户体验。 人工智能是人类探索未来的重要领域之一,以GPT为代表的大模型应用一经推出在短…...
【JDK17 | 1】Java 17 深入剖析:新特性与变革
引言 Java 17 是 Oracle 发布的一个重要版本,它不仅是一个长期支持(LTS)版本,还引入了许多新的特性和改进,为开发者提供了更强大的工具和更优雅的编程体验。在本专栏的文章中,我们将对 Java 17 的新特性进行深入剖析,帮助开发者更好地理解和利用这一版本。 1. 新特性概述…...
strtok
strtok函数原型 char *strtok(conset char *str,conset char *dst); 功能: 将字符串分割成一个一个片段 当strtok()在参数str的字符串中发现参数dst中包含的分割字符时,则会将该字符改为\0字符 当连续出现…...
零信任身份安全的基本原则
零信任身份安全的核心原则就是 “持续验证,永不信任”。可以通过以下6个方面理解: 对“谁”和“什么”进行认证和授权 在零信任身份安全模型中,对用户和设备的身份进行认证和授权是至关重要的。认证是确认用户或设备是其所宣称的身份的过程…...
【AAOS】Android Automotive 9模拟器源码下载及编译
源码下载 repo init -u https://android.googlesource.com/platform/manifest -b android-9.0.0_r61 repo sync -c --no-tags --no-clone-bundle 源码编译 source build/envsetup.sh lunch aosp_car_x86_64-userdebug make -j8 运行效果 emulator Home界面 MAP All apps S…...
Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...
练习(含atoi的模拟实现,自定义类型等练习)
一、结构体大小的计算及位段 (结构体大小计算及位段 详解请看:自定义类型:结构体进阶-CSDN博客) 1.在32位系统环境,编译选项为4字节对齐,那么sizeof(A)和sizeof(B)是多少? #pragma pack(4)st…...
Leetcode 3577. Count the Number of Computer Unlocking Permutations
Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现 题目链接:3577. Count the Number of Computer Unlocking Permutations 1. 解题思路 这一题其实就是一个脑筋急转弯,要想要能够将所有的电脑解锁&#x…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
OkHttp 中实现断点续传 demo
在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...
Neo4j 集群管理:原理、技术与最佳实践深度解析
Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
今日科技热点速览
🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售 任天堂新一代游戏主机 Switch 2 今日正式上线发售,主打更强图形性能与沉浸式体验,支持多模态交互,受到全球玩家热捧 。 🤖 人工智能持续突破 DeepSeek-R1&…...
