当前位置：首页 > news >正文

0基础学习PyFlink——用户自定义函数之UDTF

news 2026/4/6 5:58:09

大纲

表值函数
完整代码

在《0基础学习PyFlink——用户自定义函数之UDF》中，我们讲解了UDF。本节我们将讲解表值函数——UDTF
在这里插入图片描述

表值函数

我们对比下UDF和UDTF

def udf(f: Union[Callable, ScalarFunction, Type] = None,input_types: Union[List[DataType], DataType, str, List[str]] = None,result_type: Union[DataType, str] = None,deterministic: bool = None, name: str = None, func_type: str = "general",udf_type: str = None) -> Union[UserDefinedScalarFunctionWrapper, Callable]:

def udtf(f: Union[Callable, TableFunction, Type] = None,input_types: Union[List[DataType], DataType, str, List[str]] = None,result_types: Union[List[DataType], DataType, str, List[str]] = None,deterministic: bool = None,name: str = None) -> Union[UserDefinedTableFunctionWrapper, Callable]:

可以发现：

UDF比UDTF多了func_type和udf_type参数；
UDTF的返回类型比UDF的丰富，多了两个List类型：List[DataType]和List[str]；

特别是最后一点，可以认为是UDF和UDTF在应用上的主要区别。
换种更容易理解的说法是：UDTF可以返回任意数量的行作为输出而不是像UDF那样返回单个值（行）。
举一个例子：

word_count_data = ["A", "B", "C", "a", "C"]

我们希望统计上面这些字符的个数，以及小写后字符的个数。这样A的个数是1，a的个数是2（因为a算一个，A小写后又算一个）。C的个数是2，g的个数是2。
这就要求统计算法在遇到大写字母时，需要统计大小写两种字母；而遇到小写字母时，只需要统计小写字母。

    @udtf(result_types=[DataTypes.STRING()], input_types=row_type_tab_source)def rowFunc(row):if row[0].isupper():yield row[0]yield row[0].lower()else:yield row[0]

yield关键字返回的是generator生成器。Table API对rowFunc的调用最终会生成[“A”,“a”,“B”,“b”,“C”,“c”,“a”,“C”,“c”]。
和调用UDF不同的是，需要使用flat_map来调用UDTF。flat即为“打平”，可以生动的理解为将多维降为一维。

    tab_trans=tab_source.flat_map(rowFunc)tab_trans.execute().print()

+--------------------------------+
|                             f0 |
+--------------------------------+
|                              A |
|                              a |
|                              B |
|                              b |
|                              C |
|                              c |
|                              a |
|                              C |
|                              c |
+--------------------------------+
9 rows in set

由于我们没有指定经过处理的值所属的字段名称，于是会使用默认的f0作为字段名。我们可以使用alias来给它别名下。

    tab_trans_alias=tab_trans.alias('trans_word')tab_trans_alias.execute().print()

+--------------------------------+
|                     trans_word |
+--------------------------------+
|                              A |
|                              a |
|                              B |
|                              b |
|                              C |
|                              c |
|                              a |
|                              C |
|                              c |
+--------------------------------+
9 rows in set

最后我们就可以用这个新的表做字数统计计算

    tab_trans_alias.group_by(col('trans_word')) \.select(col('trans_word'), lit(1).count) \.execute_insert("WordsCountTableSink") \.wait()

+I[A, 1]
+I[a, 2]
+I[B, 1]
+I[b, 1]
+I[C, 2]
+I[c, 2]

完整代码

from pyflink.common import Configuration
from pyflink.table import (EnvironmentSettings, TableEnvironment, Schema)
from pyflink.table.types import DataTypes
from pyflink.table.table_descriptor import TableDescriptor
from pyflink.table.expressions import lit, col
from pyflink.common import Row
from pyflink.table.udf import udf,udtf,udaf,udtaf
import pandas as pd
from pyflink.table.udf import UserDefinedFunctionword_count_data = ["A", "B", "C", "a", "C"]  def word_count():config = Configuration()# write all the data to one fileconfig.set_string('parallelism.default', '1')env_settings = EnvironmentSettings \.new_instance() \.in_batch_mode() \.with_configuration(config) \.build()t_env = TableEnvironment.create(env_settings)row_type_tab_source = DataTypes.ROW([DataTypes.FIELD('word', DataTypes.STRING())])tab_source = t_env.from_elements(map(lambda i: Row(i), word_count_data), row_type_tab_source)# define the sink schemasink_schema = Schema.new_builder() \.column("word", DataTypes.STRING().not_null()) \.column("count", DataTypes.BIGINT()) \.primary_key("word") \.build()# Create a sink descriptorsink_descriptor = TableDescriptor.for_connector('print')\.schema(sink_schema) \.build()t_env.create_temporary_table("WordsCountTableSink", sink_descriptor)@udtf(result_types=[DataTypes.STRING()], input_types=row_type_tab_source)def rowFunc(row):if row[0].isupper():yield row[0]yield row[0].lower()else:yield row[0]tab_trans=tab_source.flat_map(rowFunc)tab_trans.execute().print()tab_trans_alias=tab_trans.alias('trans_word')tab_trans_alias.execute().print()tab_trans_alias.group_by(col('trans_word')) \.select(col('trans_word'), lit(1).count) \.execute_insert("WordsCountTableSink") \.wait()if __name__ == '__main__':word_count()

0基础学习PyFlink——用户自定义函数之UDTF

大纲

表值函数

完整代码

相关文章：

0基础学习PyFlink——用户自定义函数之UDTF

【Java 进阶篇】Java Request 原理详解

13 结构性模式-装饰器模式

支持向量机（SVM）

Rabbitmq----分布式场景下的应用

springboot + redis实现签到与统计功能

Redis | 数据结构（02）SDS

Linux C语言开发-D7D8运算符

redis 配置主从复制,哨兵模式案例

Python---练习：使用for循环实现用户名+密码认证

react中使用jquery 语法

服务器中了360后缀勒索病毒怎么解决，勒索病毒解密，数据恢复

使用字节流读取文件中的数据的几种方式

Android WMS——概述（一）

Node编写获取用户信息接口

【从0到1设计一个网关】自研网关的设计要点以及架构设计

论文-分布式-分布式计算|容错-分布式控制下的自稳定系统

C#压缩图片的方法

安装 fcitx + 搜狗/谷歌输入法之后导致死机，重启后黑屏只有鼠标可以移动

Maven项目转为SpringBoot项目

拓世AI决策系统白皮书

别再被网站当机器人了！手把手教你编译一个‘隐身版’Chromedriver（绕过Selenium检测）

OpenClaw技能市场盘点：Qwen3-4B模型支持的十大实用自动化模块

Verdi波形调试效率翻倍指南：除了拖信号，这些隐藏功能（信号计数、逻辑运算、模拟波形）你用了吗？

OpenClaw+Phi-3-vision-128k-instruct：电商商品截图自动比价系统

直方图均衡化：从理论到实践——MATLAB代码实现与效果对比

spring boot apm生态

电路接口技术解析：从TTL到无线通信的演进

2026届学术党必备的六大AI写作方案横评

Claude Code 进阶攻略：搞定内置 /loop，用大白话玩转 Cron，一行搞定自动化任务