当前位置：首页 > news >正文

Flink实现实时数据处理

news 2026/5/16 20:00:07

代码如下：

#!/usr/bin/python
# -*- coding: UTF-8 -*-from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment, EnvironmentSettings, DataTypes# 初始化执行环境
s_env = StreamExecutionEnvironment.get_execution_environment()
s_env.set_parallelism(4)
# 必须开启 checkpoint，时间间隔为毫秒，否则不能输出数据
s_env.enable_checkpointing(600000)  # 600000 十分钟env_settings = EnvironmentSettings.new_instance().in_streaming_mode().build()
t_env = StreamTableEnvironment.create(s_env, environment_settings=env_settings)# 显式注册 Kafka 连接器
t_env.get_config().get_configuration().set_string("pipeline.jars", "file:///opt/flink/lib/flink-connector-kafka-1.16.0.jar")# 创建 source 表
t_env.execute_sql("""
CREATE TABLE source_blog_kafka (ip_address STRING,post_id INT,event_type STRING,proctime AS PROCTIME()  -- 添加处理时间列
) WITH ('connector' = 'kafka','topic' = 'blog_views','properties.bootstrap.servers' = '110.40.130.231:9092','properties.group.id' = 'flink_kafka_hive_blog_consumers','scan.startup.mode' = 'earliest-offset','format' = 'json'
)
""")# 创建 sink 表
t_env.execute_sql("""
CREATE TABLE sink_blog_hive (post_id INT,view_count INT
) WITH ('connector' = 'kafka','topic' = 'blog_view_stats','properties.bootstrap.servers' = '110.40.130.231:9092','format' = 'json'
)
""")# 定义 SQL 查询
t_env.execute_sql("""
INSERT INTO sink_blog_hive
SELECT post_id, CAST(COUNT(*) AS INT) AS view_count
FROM source_blog_kafka
GROUP BY post_id, TUMBLE(proctime, INTERVAL '1' MINUTE)
""")# 启动执行环境
t_env.execute("Blog View Stats")print("Data processing job started.")

展示了一个使用 Apache Flink 进行实时数据处理的例子，该例子从 Kafka 消费数据，对博客文章的浏览量进行统计，并将结果写回到另一个 Kafka 主题。以下是对你提供的代码的一些解释和建议：

解释

初始化执行环境：
- StreamExecutionEnvironment 和 StreamTableEnvironment 被用来创建流处理环境。set_parallelism(4) 设置了并行度为4，意味着任务可以在四个线程上并行执行。
- enable_checkpointing(600000) 开启了检查点机制，确保在发生故障时能够恢复状态。这里设置的检查点间隔是十分钟。
配置 Kafka 连接器：
- 通过 pipeline.jars 参数指定了 Kafka 连接器的 JAR 文件路径，这是为了让 Flink 能够与 Kafka 集群通信。
定义 Source 和 Sink 表：
- source_blog_kafka 表用于从 Kafka 的 blog_views 主题读取数据，数据格式为 JSON。
- sink_blog_hive 表用于将处理后的数据写入 Kafka 的 blog_view_stats 主题，同样以 JSON 格式存储。
SQL 查询：
- 使用 SQL 对 source_blog_kafka 表中的数据按 post_id 分组，并计算每分钟内的点击次数，然后将结果插入到 sink_blog_hive 表中。
启动任务：
- 最后调用 t_env.execute("Blog View Stats") 启动任务执行。

建议

检查点配置：确保 Kafka 连接器版本支持 Flink 的检查点功能，这对于实现精确一次（exactly-once）语义非常重要。
资源管理：确保 Flink 集群有足够的资源来运行这个任务，特别是当并行度设置较高时。
错误处理：考虑添加适当的错误处理逻辑，比如设置重启策略，以便在遇到失败时能够自动恢复。
监控和调试：部署后，利用 Flink 提供的监控工具来跟踪作业的状态和性能，及时发现并解决问题。

Flink实现实时数据处理

代码如下： #!/usr/bin/python # -*- coding: UTF-8 -*-from pyflink.datastream import StreamExecutionEnvironment from pyflink.table import StreamTableEnvironment, EnvironmentSettings, DataTypes# 初始化执行环境 s_env StreamExecutionEnvironment.get_…...

编程日记 2024/11/10 12:50:08

11.9.2024刷华为

文章目录 HJ31 单词倒排HJ32 密码提取语法知识记录傻逼OD题目又不全又要收费，看毛线，莫名奇妙 HW这叼机构别搁这儿害人得不得？ 我觉得我刷完原来的题目过一遍华为机考的ED卷出处，就行了 HJ31 单词倒排游戏本做过了好像 HJ3…...

编程日记 2024/11/10 12:43:00

Chromium 中chrome.system.storage扩展接口定义c++

一、chrome.system.storage 您可以使用 chrome.system.storage API 查询存储设备信息，并在连接和分离可移动存储设备时收到通知。权限 system.storage 类型 EjectDeviceResultCode 枚举 "success" 移除命令成功执行 - 应用可以提示用户移除设备。…...

编程日记 2024/11/10 12:41:59

【Qt聊天室客户端】登录窗口

1. 验证码具体实现登录界面中创建验证码图片空间，并添加到布局管理器中主要功能概述（创建一个verifycodewidget类专门实现验证码操作） 详细代码 // 头文件#ifndef VERIFYCODEWIDGET_H #define VERIFYCODEWIDGET_H#include <QWidget>…...

编程日记 2024/11/10 12:40:58

如何显示模型特征权重占比图【数据分析】

可视化模型的特征权重 1、流程 1、导入库： numpy：用于处理数组和矩阵。 matplotlib.pyplot：用于绘图。 sklearn.datasets：用于加载数据集。 sklearn.ensemble.RandomForestClassifier：用于训练随机森林模型。2、加载数据集：使用load_iris函数加载Iris数据集。3、训练模…...

编程日记 2024/11/10 12:39:57

Ubuntu24安装MySQL

下载deb包： 先更新系统包： sudo apt update sudo apt update -y下载mysql: wget https://dev.mysql.com/get/mysql-apt-config_0.8.17-1_all.deb 安装deb包： sudo dpkg -i mysql-apt-config_0.8.17-1_all.deb目前mysql还没有正式支持Ubun…...

编程日记 2024/11/10 12:37:55

微服务架构面试内容整理-Eureka

Spring Cloud Netflix 是一个为构建基于 Spring Cloud 的微服务应用提供的解决方案，利用 Netflix 的开源组件来实现常见的分布式系统功能。以下是 Spring Cloud Netflix 的一些主要组件和特点：服务注册与发现：Eureka 是一个 RESTful 服务，用于注册和发现微服务。服务实例在…...

编程日记 2024/11/10 12:30:49

qt QErrorMessage详解

1、概述 QErrorMessage是Qt框架中用于显示错误消息的一个对话框类。它提供了一个简单的模态对话框，用于向用户显示错误或警告消息。QErrorMessage通常用于应用程序中，当需要向用户报告错误但不希望中断当前操作时。它提供了一个标准的错误消息界面&…...

编程日记 2024/11/10 12:28:46

SpringBoot 将多个Excel打包下载

在Spring Boot应用中，如果你需要将多个Excel文件打包成一个ZIP文件并提供下载，你可以使用一些Java库来帮助完成这个任务。这里我将展示如何使用Apache POI来生成Excel文件，以及使用Java.util.zip来创建ZIP文件，并通过Spring Boot的…...

编程日记 2024/11/10 12:22:41

分页存储小总结

知识点: 什么是分页存储? 将内存空间分为一个个大小相等的分区（比如：每个分区4KB），每个分区就是一个“页框”（页框页帧内存块物理块物理页面）。每个页框有一个编号，即“页框号”（…...

编程日记 2024/11/10 12:12:31

Star-CCM+应用篇之动力电池温度场仿真操作流程与方法

1 动力电池温度场仿真项目电池包内模组温度分布、电芯温度分布、温升速率、充电时间等。 2 动力电池温度场仿真分析流程图图1 电池包热流场分析流程 3 动力电池温度场仿真参数需求类别...

编程日记 2024/11/10 12:11:30

Spring Boot应用开发：从入门到精通

Spring Boot应用开发：从入门到精通 Spring Boot是Spring框架的一个子项目，旨在简化Spring应用的初始搭建和开发过程。通过自动配置和约定大于配置的原则，Spring Boot使开发者能够快速构建独立的、生产级别的Spring应用。本文将深入探讨Sprin…...

编程日记 2024/11/10 12:09:28

【JAVA项目】基于jspm的【医院病历管理系统】

技术简介：采用jsp技术、MySQL等技术实现。系统简介：通过标签分类管理等方式，实现管理员；个人中心、医院公告管理、用户管理、科室信息管理、医生管理、出诊信息管理、预约时间段管理、预约挂号管理、门诊病历管理、就诊评价管理、…...

编程日记 2024/11/10 12:08:27

Python中的常见配置文件写法

在软件开发过程中，开发者常常需要利用一些固定的参数或常量。对于这些相对恒定且频繁使用的元素，一种常见的做法是将它们集中存储在一个特定的文件中，以避免在多个模块代码中重复定义，从而维护核心代码的清晰度和整洁性。具体而…...

编程日记 2024/11/10 12:03:22

语义分割实战——基于PSPnet神经网络动物马分割系统源码

第一步：准备数据动物马分割数据，总共有328张图片，里面的像素值为0和1，所以看起来全部是黑的，不影响使用第二步：搭建模型 psp模块的样式如下，其psp的核心重点是采用了步长不同，po…...

编程日记 2024/11/10 12:02:21

Python+Appium编写脚本

一、环境配置 1、安装JDK，版本1.8以上 2、安装Python，版本3.x以上，用来解释python 3、安装node.js，版本^14.17.0 || ^16.13.0 || >18.0.0，用来安装Appimu Server 4、安装npm，版本>8，用…...

编程日记 2024/11/10 11:58:16

RK3288 android7.1 适配 ilitek i2c接口TP

一，Ilitek 触摸屏简介 Ilitek 提供多种型号的触控屏控制器，如 ILI6480、ILI9341 等，采用 I2C 接口。这些控制器能够支持多点触控，并具有优秀的灵敏度和响应速度。 Ilitek 的触摸屏控制器监测屏幕上的触摸事件。当触摸发生时&am…...

编程日记 2024/11/10 11:57:12

C++ 越来越像函数式编程了！

C 越来越像函数式编程了大家好，欢迎来到今天的博客话题。今天我们要聊的是 C 这门老牌的强类型语言是如何一步一步向函数式编程靠拢的。从最早的函数指针，到函数对象（Functor），再到 std::function 和 std::bind&…...

编程日记 2024/11/10 11:55:11

maven工程结构说明

编程日记 2024/11/10 11:54:09

【GESP】C++一级真题练习(202312)luogu-B3921，小杨的考试

GESP一级真题练习。为2023年12月一级认证真题。逻辑计算问题。题目题解详见：【GESP】C一级真题练习(202312)luogu-B3921，小杨的考试 | OneCoder 【GESP】C一级真题练习(202312)luogu-B3921，小杨的考试 | OneCoderGESP一级真题练习。为2023…...

编程日记 2024/11/10 11:53:08

QQ截图独立版：免费获取专业级屏幕工具集的完整指南

QQ截图独立版：免费获取专业级屏幕工具集的完整指南【免费下载链接】QQScreenShot 电脑QQ截图工具提取版,支持文字提取、图片识别、截长图、qq录屏。默认截图文件名为ScreenShot日期项目地址: https://gitcode.com/gh_mirrors/qq/QQScreenShot 还在为寻找功…...

编程新知 2026/5/16 19:35:42

GEE入门实战：从云端概念到首个遥感分析

1. 初识Google Earth Engine（GEE） 第一次接触GEE时，我完全被它的云端处理能力震撼到了。想象一下，你不需要在本地安装任何软件，打开浏览器就能调用PB级别的遥感数据，还能直接在上面跑分析——这简直就是遥感…...

编程新知 2026/5/16 18:47:04

自建个人数字图书馆：基于Go+Vue+SQLite的Alexandria部署与优化指南

1. 项目概述：一个现代数字图书馆的诞生如果你和我一样，是个重度数字内容爱好者，硬盘里塞满了从各种渠道收集的电子书、论文、技术文档、漫画，甚至是整理好的网页存档，那你一定体会过那种“找东西”的痛苦。文件散落在不…...

编程新知 2026/5/16 17:44:20

免费开源工业通信调试工具：ModbusTool终极指南，5分钟快速上手

免费开源工业通信调试工具：ModbusTool终极指南，5分钟快速上手【免费下载链接】ModbusTool A modbus master and slave test tool with import and export functionality, supports TCP, UDP and RTU. 项目地址: https://gitcode.com/gh_mirrors/mo/Mo…...

编程新知 2026/5/16 17:38:05

FanControl风扇控制技术深度解析：Windows系统兼容性优化与高级温控实战指南

FanControl风扇控制技术深度解析：Windows系统兼容性优化与高级温控实战指南【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.co…...

编程新知 2026/5/16 16:44:30

告别卡顿！用MobaXterm+PyCharm专业版，在实验室服务器上丝滑跑Python的保姆级教程

实验室服务器远程开发终极指南：MobaXterm与PyCharm专业版的高效协作方案当你的Python脚本在本地笔记本上跑得比蜗牛还慢，而实验室那台128核的服务器却在"闲置"时，这种资源错配简直让人抓狂。作为一名常年与远程服务器打交道的算法…...

编程新知 2026/5/16 14:43:19

C语言入门指南：从核心概念到实战项目，掌握指针与内存管理

1. 项目概述：一份写给新手的C语言全景地图“长文预警，比较全面的C语言入门笔记！”——这个标题背后，是一位老码农（比如我）在某个深夜，面对无数初学者在C语言入门路上反复踩坑、四处寻找零散资料…...

编程新知 2026/5/16 14:39:15

如何快速掌握BepInEx插件开发：面向初学者的完整指南

如何快速掌握BepInEx插件开发：面向初学者的完整指南【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是Unity游戏插件开发的终极框架，让普通玩家也能…...

编程新知 2026/5/16 14:05:16

番茄小说下载器：如何用开源工具构建个人数字图书馆？

番茄小说下载器：如何用开源工具构建个人数字图书馆？ 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 你是否曾经遇到过这样的情况：在手机上追…...

编程新知 2026/5/16 13:52:02

如何用FigmaCN免费解锁全中文Figma界面：设计师必备的终极解决方案

如何用FigmaCN免费解锁全中文Figma界面：设计师必备的终极解决方案【免费下载链接】figmaCN 中文 Figma 插件，设计师人工翻译校验项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而困扰吗？想要专注于创意…...

编程新知 2026/5/16 13:33:17

解释

建议

相关文章：