当前位置: 首页 > article >正文

Flink运维要点

一、Flink 运维核心策略

1. 集群部署与监控
  • 资源规划
    • 按业务优先级分配资源:核心作业优先保障内存和 CPU,避免资源竞争。
    • 示例:为实时风控作业分配专用 TaskManager,配置 taskmanager.memory.process.size=8g
  • 监控体系
    • 集成 Prometheus 和 Grafana,监控指标包括:
    • - flink_taskmanager_numRegisteredTaskManagers  # 在线TM数量
      - flink_jobmanager_job_numRunningJobs         # 运行中作业数
      - flink_taskmanager_status_jvm_memory_used    # JVM内存使用
      - flink_taskmanager_network_buffer_pool_usage # 网络缓冲区使用率
      

2. Checkpoint 与状态管理

配置优化

execution.checkpointing.interval: 30s        # 检查点间隔
execution.checkpointing.timeout: 10m         # 超时时间
execution.checkpointing.min-pause: 5s        # 最小间隔
state.checkpoints.num-retained: 3            # 保留最近3个检查点

状态后端选择

  • 大状态作业(如窗口聚合)使用 RocksDB:
state.backend: rocksdb
state.backend.rocksdb.localdir: /data/rocksdb # 本地存储路径
3. 资源调优
  • 并行度调整
    • 根据输入分区数设置初始并行度:
    • # 例如Kafka有16个分区
      env.set_parallelism(16)

内存配置

  • 避免 OOM:
taskmanager.memory.process.size: 12g
taskmanager.memory.heap.size: 8g          # 堆内存
taskmanager.memory.network.max: 1g        # 网络缓冲区上限

二、常见问题及解决方案

1. 作业频繁失败
  • 可能原因
    • Checkpoint 超时或失败
    • 外部系统连接中断(如 Kafka/ZK)
    • 状态后端性能不足(如 HDFS 网络抖动)
  • 解决步骤
    1. 查看 Web UI 的 Checkpoint 统计,定位失败原因
    2. 增加 Checkpoint 超时时间:execution.checkpointing.timeout: 20m
    3. 配置重试策略:
  • env.setRestartStrategy(RestartStrategies.fixedDelayRestart(3,                            // 最多重试3次Time.of(10, TimeUnit.SECONDS) // 每次重试间隔10秒
    ));
2. 反压问题
  • 排查方法
    • 通过 Web UI 的反压监控面板,识别红色(严重反压)算子
    • 使用 Thread Dump 分析阻塞点
  • 解决方案
    • 对瓶颈算子单独提效:
    • .keyBy(...)
      .window(TumblingEventTimeWindows.of(Time.seconds(10)))
      .process(new MyHeavyProcessFunction())
      .setParallelism(32)  // 单独提高并行度

优化数据倾斜:

// 两阶段聚合解决数据倾斜
.map(new AddRandomKeyFunction())  // 添加随机前缀
.keyBy(...)
.window(...)
.aggregate(new PartialAggregate())
.keyBy(...)
.window(...)
.aggregate(new FinalAggregate())
3. OOM 故障
  • 定位工具
    • JVM 堆转储分析(Heap Dump)
    • Flink Web UI 的 TaskManager 内存监控
  • 解决措施
    • 增加堆内存:taskmanager.memory.heap.size: 10g
    • 启用堆外内存:
    • state.backend.rocksdb.memory.managed: true  # 使用Flink管理的内存
      taskmanager.memory.managed.fraction: 0.4    # 管理内存占比40%

减少状态大小:

StateTtlConfig ttlConfig = StateTtlConfig.newBuilder(Time.hours(1))  // 状态1小时过期.setUpdateType(StateTtlConfig.UpdateType.OnCreateAndWrite).build();
valueStateDescriptor.enableTimeToLive(ttlConfig);

三、自动化运维实践

1. 告警配置(Prometheus+Alertmanager)

groups:
- name: flink.rulesrules:- alert: FlinkJobFailedexpr: flink_jobmanager_job_numFailedJobs > 0for: 1mlabels:severity: criticalannotations:summary: "Flink Job 失败 (instance {{ $labels.instance }})"description: "Job {{ $labels.job_name }} 失败,原因: {{ $labels.error_message }}"

2. 故障自愈脚本

#!/bin/bash
# 自动重启失败的Flink作业
JOB_ID=$(flink list -r | grep "FAILED" | awk '{print $4}')
if [ ! -z "$JOB_ID" ]; thenflink cancel $JOB_IDflink run -s last-savepoint-path /path/to/job.jarecho "已重启失败作业: $JOB_ID"
fi

3. 资源弹性扩缩

# K8s部署Flink时的HPA配置
apiVersion: autoscaling/v2beta2
kind: HorizontalPodAutoscaler
metadata:name: flink-taskmanager-hpa
spec:scaleTargetRef:apiVersion: apps/v1kind: Deploymentname: flink-taskmanagerminReplicas: 3maxReplicas: 10metrics:- type: Resourceresource:name: cputarget:type: UtilizationaverageUtilization: 70

四、性能调优进阶

1. 网络优化
taskmanager.network.numberOfBuffers: 16384  # 增加网络缓冲区数量
taskmanager.network.memory.fraction: 0.15   # 网络内存占比15%

2. JVM 参数优化

env.java.opts.taskmanager: "-XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:+HeapDumpOnOutOfMemoryError"

3. 状态压缩

// 启用RocksDB状态压缩
RocksDBStateBackend backend = new RocksDBStateBackend("hdfs:///flink/checkpoints");
backend.setDbOptions(new DBOptions().setAllowOsBuffer(true).setUseFsync(false));
backend.setEnableIncrementalCheckpoints(true);  // 启用增量检查点
env.setStateBackend(backend);

五、安全与权限管理

1. Kerberos 认证
security.kerberos.login.enabled: true
security.kerberos.login.keytab: /path/to/keytab
security.kerberos.login.principal: flink@EXAMPLE.COM

2. REST API 鉴权

rest.auth.type: basic
rest.auth.basic.realm: Flink REST API
rest.auth.basic.users: admin:password123

3. 网络隔离

# 通过防火墙限制访问
iptables -A INPUT -p tcp --dport 8081 -s trusted-ip-range -j ACCEPT
iptables -A INPUT -p tcp --dport 8081 -j DROP

六、版本升级策略

1. 滚动升级步骤
  1. 从稳定版本(如 1.13)升级到 1.14:

# 1. 保存当前作业的Savepoint
flink savepoint <job-id> hdfs:///flink/savepoints/upgrade-sp# 2. 停止Flink集群
bin/stop-cluster.sh# 3. 替换Flink二进制文件
rm -rf flink-1.13.6
tar xzf flink-1.14.4-bin-scala_2.12.tgz# 4. 复制原有配置
cp conf/* flink-1.14.4/conf/# 5. 启动新集群
cd flink-1.14.4
bin/start-cluster.sh# 6. 从Savepoint恢复作业
flink run -s hdfs:///flink/savepoints/upgrade-sp /path/to/job.jar

验证升级结果:

# 检查作业状态
flink list -r# 查看Web UI确认指标正常

七、高可用部署

1. ZooKeeper 集群配置
high-availability: zookeeper
high-availability.cluster-id: /flink-cluster-1
high-availability.zookeeper.quorum: zoo1:2181,zoo2:2181,zoo3:2181
high-availability.storageDir: hdfs:///flink/ha/

2. 多 JobManager 部署

# conf/jobmanager-rpc-addresses
jobmanager1
jobmanager2
jobmanager3# 启动所有JM
bin/jobmanager.sh start-all

通过以上策略,可以构建稳定、高效的 Flink 运维体系,快速响应并解决各类生产问题。建议定期进行故障演练(如模拟 TaskManager 崩溃),验证应急预案的有效性。 

 

 

 

 

 

 

 

 

 

 

 

 

相关文章:

Flink运维要点

一、Flink 运维核心策略 1. 集群部署与监控 资源规划 按业务优先级分配资源&#xff1a;核心作业优先保障内存和 CPU&#xff0c;避免资源竞争。示例&#xff1a;为实时风控作业分配专用 TaskManager&#xff0c;配置 taskmanager.memory.process.size8g。 监控体系 集成 Prom…...

CS016-4-unity ecs

【37】将系统转换为任务 Converting System to Job 【Unity6】使用DOTS制作RTS游戏|17小时完整版|CodeMonkey|【37】将系统转换为任务 Converting System to Job_哔哩哔哩_bilibili a. 将普通的方法&#xff0c;转化成job。第一个是写一个partial struct xxx&#xff1b;第二…...

微信小程序第三方代开发模式技术调研与实践总结

🚀 微信小程序第三方代开发模式技术调研与实践总结 📖 前言 随着企业对私有化品牌运营诉求的增加,许多大型客户希望将原本由 SaaS 平台统一提供的小程序迁移至自有主体(AppID)下运行,同时又希望继续沿用 SaaS 平台的业务服务与数据托管方式。微信开放平台提供的“小程…...

upload-labs通关笔记-第8关 文件上传之点绕过

目录 一、点绕过原理 二、deldot()函数 三、源码分析 四、渗透实战 1、构建脚本test8.php 2、打开靶场 3、bp开启拦截 4、点击上传 5、bp拦截 6、后缀名增加点 7、发包并获取脚本地址 8、访问脚本 本文通过《upload-labs靶场通关笔记系列》来进行upload-labs靶场的渗…...

远程连接电脑的方法?异地远程桌面连接和三方软件实现

远程连接电脑&#xff0c;是指通过网络技术&#xff0c;在一台设备上操控另一台设备的电脑桌面&#xff0c;实现跨地域的操作和管理。在日常工作、技术支持、远程办公等场景中&#xff0c;远程连接电脑都发挥着重要作用。实现远程连接电脑主要有系统自带工具和第三方软件两种方…...

PCL PolygonMesh 与 TextureMesh 源码阅读与简单测试

Title: PCL PolygonMesh 与 TextureMesh 源码阅读与简单测试 文章目录 I . PolygonMesh1. PolygonMesh 结构体2. Vertices 结构体与点云索引3. 测试 PolygonMesh II. TextureMesh1. TextureMesh 结构体2. TexMaterial 结构体3. 纹理坐标与纹理坐标索引4. 测试 TextureMesh 以下…...

量子算法:开启计算新时代的技术密码

摘要 量子算法是利用量子力学特性&#xff08;如叠加态、纠缠、干涉&#xff09;设计的计算模型&#xff0c;在特定问题上相比经典算法具有指数级加速优势。本文深入探讨了量子算法的核心原理、代表性算法及其在多个领域的应用&#xff0c;分析了量子算法面临的挑战与未来发展…...

多线程代码案例-1 单例模式

单例模式 单例模式是开发中常见的设计模式。 设计模式&#xff0c;是我们在编写代码时候的一种软性的规定&#xff0c;也就是说&#xff0c;我们遵守了设计模式&#xff0c;代码的下限就有了一定的保证。设计模式有很多种&#xff0c;在不同的语言中&#xff0c;也有不同的设计…...

CSS实现文本自动平衡text-wrap: balance

不再有排版孤行和寡行 我们都知道那些标题&#xff0c;最后一个单词换行并单独站在新行上&#xff0c;破坏了视觉效果&#xff0c;看起来很奇怪。当然&#xff0c;有老式的 手动换行或将内容分成不同部分。但您听说过text-wrap: balance吗&#xff1f; 通过应用text-wrap: bal…...

mac M芯片运行docker-desktop异常问题

虽然mac已经迭代到m4了&#xff0c;但官方的docker-desktop运行仍然有问题&#xff0c;包括但不限于&#xff1a; 命令行docker找不到docker-desk打不开docker-desktop闪退容器起不来 尝试不同版本后&#xff0c;看到了其他可以在mac跑docker的开源方法&#xff0c;更简单、轻…...

主流数据库运维故障排查卡片式速查表与视觉图谱

主流数据库运维故障排查卡片式速查表与视觉图谱 本文件将主文档内容转化为模块化卡片结构&#xff0c;并补充数据库结构图、排查路径图、锁机制对比等视觉图谱&#xff0c;以便在演示、教学或现场排障中快速引用。 &#x1f4cc; 故障卡片速查&#xff1a;连接失败 数据库检查…...

事件响应策略规范模版

事件响应策略 一、事件分级定义 根据事件对业务的影响程度和紧急程度,将事件分为 4个等级(P1-P4),明确各级事件的判定标准:、 二、响应时效承诺 响应时间(从事件确认到首次回复) P1 事件:15 分钟内响应(724 小时电话 / 工单优先接入) P2 事件:30 分钟内响应(工…...

在哪一个终端下运行有影响吗?pip install pillow

在哪一个终端下运行有影响吗&#xff1f;pip install pillow -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn&#xff0c;需要切换到主目录吗&#xff1f; 1. 是否需要切换目录&#xff1f; 不需要切换目录 pip install 安装的包会存放…...

我用 Appuploader绕过 Mac,成功把 iOS 应用上线了 App Store

我以前总觉得&#xff0c;iOS 上架是 macOS Xcode 专属的领域。直到最近项目必须要上架 iOS&#xff0c;团队却没人用 Mac&#xff0c;只能临时组建了一套“跨平台上架流程”。 这篇文章记录我这个“非典型 iOS 开发者”是如何绕开传统 Xcode 流程&#xff0c;借助一系列工具…...

React学习———React Router

React Router React Router 是 React 应用中用于管理路由的流行库&#xff0c;它允许你在单页应用&#xff08;SPA&#xff09;中实现导航和页面切换而无需重新加载页面。 安装 npm install react-router-dom核心组件 <BrowserRouter> 使用HTML5的历史记录API&#…...

MGX:多智能体管理开发流程

MGX的多智能体团队如何通过专家混合系统采用全新方法,彻底改变开发流程,与当前的单一智能体工具截然不同。 Lovable和Cursor在自动化我们的特定开发流程方面取得了巨大飞跃,但问题是它们仅解决软件开发的单一领域。 这就是MGX(MetaGPT X)的用武之地,它是一种正在重新定…...

现在环保方面有什么新的技术动态

环保领域的技术发展迅速&#xff0c;尤其在“双碳”目标、数字化转型和可持续发展背景下&#xff0c;涌现出许多创新技术和应用。以下是当前环保领域的新技术动态&#xff08;截至2024年&#xff09;&#xff1a; 一、碳中和与碳减排技术 CCUS&#xff08;碳捕集、利用与封存&a…...

归并排序:分治思想的优雅实现

归并排序&#xff08;Merge Sort&#xff09;以简洁而高效的分治思想&#xff0c;在众多排序算法中占据着重要的地位。今天&#xff0c;就让我们一同深入探索归并排序的奥秘。 一、归并排序简介 归并排序是一种基于分治策略的排序算法。它的核心思想是将一个大的问题分解成若…...

采购流程规范化如何实现?日事清流程自动化助力需求、采购、财务高效协作

采购审批流程全靠人推进&#xff0c;内耗严重&#xff0c;效率低下&#xff1f; 花重金上了OA&#xff0c;结果功能有局限、不灵活&#xff1f; 问题出在哪里&#xff1f;是我们的要求太多、太苛刻吗&#xff1f;NO&#xff01; 流程名称&#xff1a; 采购审批管理 流程功能…...

[模型部署] 3. 性能优化

&#x1f44b; 你好&#xff01;这里有实用干货与深度分享✨✨ 若有帮助&#xff0c;欢迎&#xff1a;​ &#x1f44d; 点赞 | ⭐ 收藏 | &#x1f4ac; 评论 | ➕ 关注 &#xff0c;解锁更多精彩&#xff01;​ &#x1f4c1; 收藏专栏即可第一时间获取最新推送&#x1f514;…...

Vue3 加快页面加载速度 使用CDN外部库的加载 提升页面打开速度 服务器分发

介绍 CDN&#xff08;内容分发网络&#xff09;通过全球分布的边缘节点&#xff0c;让用户从最近的服务器获取资源&#xff0c;减少网络延迟&#xff0c;显著提升JS、CSS等静态文件的加载速度。公共库&#xff08;如Vue、React、Axios&#xff09;托管在CDN上&#xff0c;减少…...

接触感知 钳位电路分析

以下是NG板接触感知电路的原理图。两极分别为P3和P4S&#xff0c;电压值P4S < P3。 电路结构分两部分&#xff0c;第一部分对输入电压进行分压钳位。后级电路使用LM113比较器芯片进行电压比较&#xff0c;输出ST接触感知信号。 钳位电路输出特性分析 输出电压变化趋势&a…...

彻底删除Docker容器中的环境变量

彻底删除Docker容器中的环境变量 前言:环境变量的重要性第一步:创建实验容器第二步:验证环境变量第三步:定位容器"身份证"第四步:修改"出生证明"(重要!)第五步:验证手术成果技术原理深度剖析更安全的替代方案常见问题解答结语:知其然更要知其所以…...

使用 gcloud CLI 自动化管理 Google Cloud 虚拟机

被操作的服务器&#xff0c;一定要开启API完全访问权限&#xff0c;你的电脑安装gcloud CLI前一定要先安装Python3&#xff01; 操作步骤 下载地址&#xff0c;安装大概需要十分钟&#xff1a;https://cloud.google.com/sdk/docs/install?hlzh-cn#windows 选择你需要的版本&a…...

SQL语句,索引,视图,存储过程以及触发器

一、初识MySQL 1.数据库 按照数据结构来组织、存储和管理数据的仓库&#xff1b;是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合&#xff1b; 2.OLTP与OLAP OLTP&#xff08; On-Line transaction processing &#xff09;翻译为联机事务处理&am…...

在Web应用中集成Google AI NLP服务的完整指南:从Dialogflow配置到高并发优化

在当今数字化客服领域,自然语言处理(NLP)技术已成为提升用户体验的关键。Google AI提供了一系列强大的NLP服务,特别是Dialogflow,能够帮助开发者构建智能对话系统。本文将详细介绍如何在Web应用中集成这些服务,解决从模型训练到高并发处理的全套技术挑战。 一、Dialogflow…...

7. 进程控制-进程替换

目录 1. 进程替换 1.1 单进程版&#xff1a; 1.2 进程替换的原理 1.3 多进程版-验证各种程序替换接口 2. 进程替换的各种接口 2.1 execl 2.2 execlp 2.3 execv 2.4 execvp 2.5 execle 1. 进程替换 上图为程序替换的接口&#xff0c;之后会详细介绍。 1.1 单进程版&am…...

理解 C# 中的各类指针

前言 变量可以理解成是一块内存位置的别名&#xff0c;访问变量也就是访问对应内存中的数据。 指针是一种特殊的变量&#xff0c;它存储了一个内存地址&#xff0c;这个内存地址代表了另一块内存的位置。 指针指向的可以是一个变量、一个数组元素、一个对象实例、一块非托管内存…...

真题卷001——算法备赛

蓝桥杯2024年C/CB组国赛卷 1.合法密码 问题描述 小蓝正在开发自己的OJ网站。他要求用户的密码必须符合一下条件&#xff1a; 长度大于等于8小于等于16必须包含至少一个数字字符和至少一个符号字符 请计算一下字符串&#xff0c;有多少个子串可以当作合法密码。字符串为&am…...

Qt图表库推荐指南与分析

目录 一、核心图表库横向对比1. Qt Charts2. QCustomPlot3. QWT (Qt Widgets for Technical Applications)4. KD Chart二、性能与功能对比矩阵三、选型策略与组合方案1. 通用型需求:2. 技术型场景:3. 企业级开发:四、未来趋势与避坑指南1. 协议风险:2. 技术兼容性:3. 性能…...