当前位置: 首页 > news >正文

Flink:使用 Faker 和 DataGen 生成测试数据

《大数据平台架构与原型实现:数据中台建设实战》博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,京东购书链接:https://item.jd.com/12677623.html,扫描左侧二维码进入京东手机购书页面。

DataGen 是开源 Flink 就内置的随机数据生成器;DataGen 生成的数据仅支持随机和序列值两种,且也并不是所有的数据类型都能支持随机或序列值,例如最常见的一个需求:针对时间类型就不能生成指定区间内的单调递增的数值,相较而言,Faker 的功能要明显强于 DataGen,我们只需掌握 Faker 这一种数据生成器就足够了。

1. 安装


sudo -u flink wget https://github.com/knaufk/flink-faker/releases/download/v0.5.3/flink-faker-0.5.3.jar -P /usr/lib/flink/lib/

2. 示例


-- example 1: currency_ratesdrop table if exists currency_rates;create table if not exists currency_rates (currency_code string,eur_rate decimal(6,4),rate_time timestamp(3)
)
with ('connector' = 'faker','fields.currency_code.expression' = '#{Currency.code}','fields.eur_rate.expression' = '#{Number.randomdouble ''4'',''0'',''10''}','fields.rate_time.expression' = '#{date.past ''15'',''SECONDS''}','rows-per-second' = '100'
);select * from currency_rates;-- example 2: transactionsdrop table if exists transactions;create table if not exists transactions (`id` string,`currency_code` string,`total` decimal(10,2),`transaction_time` timestamp(3),watermark for `transaction_time` as transaction_time - interval '30' second
) with ('connector' = 'faker','fields.id.expression' = '#{Internet.UUID}','fields.currency_code.expression' = '#{Currency.code}','fields.total.expression' = '#{Number.randomDouble ''2'',''10'',''1000''}','fields.transaction_time.expression' = '#{date.past ''30'',''SECONDS''}','rows-per-second' = '100'
);select * from transactions;

3. 资源


Flink Faker 项目地址:https://github.com/knaufk/flink-faker/?tab=readme-ov-file

表达式文档:https://github.com/datafaker-net/datafaker

相关文章:

Flink:使用 Faker 和 DataGen 生成测试数据

博主历时三年精心创作的《大数据平台架构与原型实现:数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行,点击《重磅推荐:建大数据平台太难了!给我发个工程原型吧!》了解图书详情,…...

Json格式解析

文章目录 Json格式介绍python中json模块的使用 Json格式介绍 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它基于 ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于语言…...

Java Day13 多线程

多线程 1、 方式一 Thread2、实现Runnable接口3、实现 Callable接口4、与线程有关的操作方法5、线程安全问题5.1 取钱案例5.2 线程同步5.2.1 同步代码块5.2.2 同步方法5.2.3 Lock锁 6、线程池6.2 创建线程池6.2.1 使用ExecutorService创建新任务策略6.2.2 使用Executors工具类创…...

以太坊的演变:EIP、ERC 概念以及革命性的 ERC20、ERC721 和 ERC115 标准

文章目录 一、EIP——以太坊发展的基石1.1 什么是EIP?1.2 历史背景:前身的 BIP1.3 EIP的重要性1.4 流程:从提案到实施 二、进入 ERC——以太坊内的标准化协议2.1 解读 ERC:以太坊征求意见2.2 ERC 标准的诞生和意义 三、聚焦 ERC20…...

B003-springcloud alibaba 服务治理 nacos discovery ribbon feign

目录 服务治理服务治理介绍什么是服务治理相关方案 nacos实战入门搭建nacos环境安装nacos启动nacos访问nacos 将商品微服务注册进nacos将订单微服务注册进nacos订单服务通过nacos调用商品服务 实现服务调用的负载均衡什么是负载均衡代码实现负载均衡增加一个服务提供者自定义实…...

mac笔记本执行定时任务

1.mac本地设置一个定时任务每小时执行一次,在/Users/xxx/go/src/runing目录下执行命令:./git_push.sh 在macOS中,你可以使用crontab来设置定时任务。打开终端并执行以下步骤: 1.打开当前用户的crontab编辑器: crontab …...

解决linux系统网卡加载慢的问题

手上有块开发板,启动系统后,需要五六分钟后无线wifi网卡才能加载起来,网卡型号是qca9377。 第一步先确认是不是第一时间挂载到PCI总线上了,在ath10k_pci_probe函数中添加调试信息,另外查看/sys/bus/pci/drivers/ath10…...

Linux 命令或者一些工具

locale – 设置和显示程序运行的语言环境 locale -a | grep en_US.UTF-8.sudo locale-gen en_US.UTF-8sudo dpkg-reconfigure localesexpect 常用命令总结 expect命令spawnexpectsendexp_continuesend_userexit chrpath工具 chrpath 是一个用于修改可执行文件或共享库的运行…...

基于python的4s店客户管理系统

技术:pythonmysqlvue 一、背景 进入21世纪网络和计算机得到了飞速发展,并和生活进行了紧密的结合。目前,网络的运行速度以达到了千兆,覆盖范围更是深入到生活中的角角落落。这就促使管理系统的发展。网上办公可以实现远程处理事务…...

解决谷歌浏览器最新chrome94版本CORS跨域问题

项目场景: 谷歌浏览器升级到chrome94版本出现CORS跨域问题 问题描述 解决谷歌浏览器最新chrome94版本CORS跨域问题。 CORS跨域问题: 升级谷歌浏览器最新chrome94版本后,提示Access to XMLHttpRequest at ‘http://localhost:xxxx/api’ fro…...

JAVA 线程

目录 一、线程的定义 二、线程的实现 三、线程状态 程序并发执行多个任务 二、线程的实现 1、继承Thread类创建线程:通过继承Java的Thread类并重写其run()方法,可以创建一个新的线程。然后,通过调用线程的start()方法来启动线程&#xf…...

Rust 基于 await、async 的异步编程和纤程、协程的实现

一、Rust 的异步编程 Rust 通过 await、async 实现了其他语言中纤程、协程的机制。下面是一个使用async和await的Rust示例代码。这个示例展示了如何异步地读取文件内容。 首先,确保你的Cargo.toml文件包含了tokio库的依赖,如下: [dependen…...

【进阶五】Python实现SDVRP(需求拆分)常见求解算法——差分进化算法(DE)

基于python语言,采用经典差分进化算法(DE)对 需求拆分车辆路径规划问题(SDVRP) 进行求解。 目录 往期优质资源1. 适用场景2. 代码调整3. 求解结果4. 代码片段参考 往期优质资源 经过一年多的创作,目前已经成…...

什么是神经网络?

一、什么是神经网络? 神经网络又称人工神经网络,是一种基于人脑功能模型的计算架构,因此称之为“神经”。神经网络由一组称为“节点”的处理单元组成。这些节点相互传递数据,就像大脑中的神经元相互传递电脉冲一样。 神经网络在…...

基于Python的图形用户界面设计及应用

基于Python的图形用户界面设计及应用 摘要:随着信息技术的飞速发展,图形用户界面(GUI)已成为现代软件不可或缺的一部分。Python作为一种简洁、易读且功能强大的编程语言,提供了多种GUI开发工具包,如Tkinte…...

python网络爬虫实战教学——urllib的使用(1)

文章目录 专栏导读1、前言2、urllib的使用3、发送请求3.1 urlopen3.2 request 专栏导读 ✍ 作者简介:i阿极,CSDN 数据分析领域优质创作者,专注于分享python数据分析领域知识。 ✍ 本文录入于《python网络爬虫实战教学》,本专栏针对…...

简述归并排序

归并排序 特点: 高效稳定时间复杂度最佳/平均/最差: O(N log N) 递归算法有专门的公式来计算时间复杂度 空间复杂度 O(N) 因为开辟了临时的tem_arr数组 一个静态的演示图(from leetcode) 一个动态的演示图 合并实现使用merge函数 inline void merge(v…...

HTML实现卷轴动画完整源码附注释

动画效果截图 页面的html结构代码 <!DOCTYPE html> <html> <head lang=...

sh: 1: dtc: not found

报错&#xff1a; bl31.bin size: 41632 u-boot-nodtb.bin size: 815816 ai_robot.dtb size: 30552 ./mkimage_uboot -E -p 0x3000 -f u-boot-ai-robot.its u-boot-ai-robot.itb sh: 1: dtc: not found ./mkimage_uboot: Cant open u-boot-ai-robot.itb.tmp: No such file …...

laravel 表单验证的 exists、unique 去除软删除字段的校验

use Illuminate\Validation\Rule; exists 去除软删除字段的校验 $validator \Validator::make($data, [phone_new > [Rule::exists(users, phone)->whereNull(deleted_at),]], [phone_new.exists > 手机号不存在,]);unique 去除软删除字段的校验 // 新增 email>r…...

Windows蓝牙通话实战:虚拟声卡驱动选型与配置全解析

1. 为什么需要虚拟声卡&#xff1f; 很多朋友在用Windows电脑接蓝牙耳机打电话时&#xff0c;可能会遇到一个尴尬的情况&#xff1a;明明耳机能听音乐&#xff0c;但就是没法通话。这其实是因为蓝牙协议中&#xff0c;音乐播放&#xff08;A2DP&#xff09;和语音通话&#xf…...

Youtu-VL-4B-Instruct参数调优指南:temperature控制严谨性,max_tokens适配box输出

Youtu-VL-4B-Instruct参数调优指南&#xff1a;temperature控制严谨性&#xff0c;max_tokens适配box输出 你是不是也遇到过这种情况&#xff1a;用Youtu-VL-4B-Instruct模型处理图片时&#xff0c;让它找一只猫&#xff0c;它要么回答得特别啰嗦&#xff0c;要么干脆不告诉你…...

TVA在精密制造领域的应用案例(11)

前沿技术背景介绍&#xff1a;AI 智能体视觉检测系统&#xff08;TVA&#xff0c;全称为 Transformer-based Vision Agent&#xff09;&#xff0c;是基于 Transformer 架构与 “因式智能体” 范式构建的高精度视觉智能体。它区别于传统机器视觉软件及早期 AI 视觉技术&#xf…...

【限时解禁】AGI代码审计黄金清单(含LLM上下文感知检测算法+12个真实PR审查痕迹样本)

第一章&#xff1a;AGI代码生成与软件工程的范式跃迁 2026奇点智能技术大会(https://ml-summit.org) 当AI系统不仅能理解需求语义&#xff0c;还能自主分解任务、验证接口契约、生成可测试代码并迭代修复缺陷时&#xff0c;软件工程的核心活动正从“手工编码”转向“意图编排…...

PX4模块解析:SITL与HITL模拟框架的通信桥梁MAVLink

1. PX4仿真框架与MAVLink的关系 第一次接触PX4仿真时&#xff0c;很多人会疑惑&#xff1a;为什么需要SITL和HITL两种模式&#xff1f;这要从PX4的定位说起。作为专业级自动驾驶系统&#xff0c;PX4需要应对各种复杂场景&#xff0c;而仿真测试就是确保系统可靠性的关键环节。M…...

告别KVM切换器!用微软官方免费神器Mouse without Borders,一套键鼠搞定四台Windows电脑

微软Mouse without Borders&#xff1a;四台Windows电脑共享键鼠的终极方案 当你的办公桌上摆着两台甚至四台Windows电脑时&#xff0c;每次切换设备都要重新抓取不同的鼠标和键盘&#xff0c;这种体验简直让人抓狂。物理KVM切换器虽然能解决问题&#xff0c;但价格昂贵且线材杂…...

别再手动算了!用JavaScript/Node.js实现RGB到HEX颜色转换的三种实用方法

别再手动算了&#xff01;用JavaScript/Node.js实现RGB到HEX颜色转换的三种实用方法 在Web开发中&#xff0c;颜色值的处理无处不在。从动态主题切换、Canvas绘图到CSS-in-JS方案&#xff0c;RGB与HEX颜色格式的转换是开发者经常需要处理的基础操作。手动计算虽然可行&#xff…...

计算机常用英文词汇概念解释

目录 1、property与attribute 2、run、execute与perform 3、option、item、menu、context menu 4、configuration、setting 5、parameter与 argument 6、function、feature 7、command line 8、terminal与console 9、shell ... 计算机常用英文词汇概念解释 伴随着计算机的诞生和…...

Flutter Easy Refresh多平台适配:Web、Android、iOS统一体验终极指南

Flutter Easy Refresh多平台适配&#xff1a;Web、Android、iOS统一体验终极指南 【免费下载链接】flutter_easy_refresh A flutter widget that provides pull-down refresh and pull-up load. 项目地址: https://gitcode.com/gh_mirrors/fl/flutter_easy_refresh Flut…...

如何在Navicat导入DBF文件到数据表_字段映射与高级设置

Navicat导入DBF时字段类型映射不准、中文乱码、日期偏移及大文件卡死是四大典型问题&#xff1b;需手动校正类型、确认编码、指定DATE类型、分批导入并禁用自动分析。Navicat 导入 DBF 时字段类型自动映射不准dbf 文件没有显式类型定义&#xff0c;navicat 依赖文件头和样本数据…...