当前位置: 首页 > news >正文

Flink面试题总结

一、简单介绍一下 Flink

 Apache Flink 是一个实时计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算

二、Flink集群有哪些角色?各自有什么作用?(flink架构)

--JobManager:
JobManager是Flink集群中的主节点,负责协调和管理整个作业的执行过程
--TaskManager
TaskManager是Flink集群中的工作节点,负责实际执行作业的任务
--ResourceManager
ResourceManager是Flink集群中的资源管理器,负责统一管理和分配集群的计算资源
--Client
Client是Flink程序提交的客户端,Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager

三、说说 Flink 资源管理中 Task Slot 的概念

Task Slot是TaskManager中用于执行并行任务的资源单元。
每个TaskManager可以包含多个Task Slot,这些Slot被分配的资源是固定的,用于执行并行的任务或算子。

四、Flink 的常用算子

--Map:
描述:Map算子将输入流(DataStream)中的每一个元素转换为另一个元素。它实现了一对一的映射关系。--FlatMap:
描述:FlatMap算子将输入流(DataStream)中的每一个元素转换为0个、1个或多个元素。常用于拆分操作。--Filter:
描述:Filter算子过滤出符合指定条件的元素,只保留返回true的元素。--KeyBy:
描述:KeyBy算子逻辑上将流拆分为不相交的分区,每个分区包含具有相同key的元素。在内部,它使用哈希函数实现分区。--Reduce:
描述:Reduce算子对KeyedStream(经过KeyBy操作后的流)中的元素进行聚合计算,最终聚合成一个元素。常用的方法有average、sum、min、max、count等。--Window 和 WindowAll:
描述:Window和WindowAll算子用于在KeyedStream或DataStream上定义窗口,以便在窗口内对数据进行聚合或其他操作。
示例:计算在最近5秒内到达的数据的总和。--Union:
描述:Union算子将两个或两个以上的DataStream合并成一个新的DataStream,包含所有DataStream的元素。--Window Join:
描述:Window Join算子根据给定的key和窗口对两个DataStream进行join操作。

五、Flink中的窗口有那些?

Flink中有四大类窗口,根据时间语意可以细分为八种小窗口。基于事件时间和基于处理时间
--滚动窗口
具有固定大小、不重叠的窗口。
--滑动窗口
具有固定大小、可以滑动的窗口,窗口之间可以有重叠。
--会话窗口
基于时间间隔来定义窗口,当一定时间内没有新的数据到达时,就认为会话结束。
--全局窗口
全局窗口是一个包含所有数据的窗口,通常用于全局聚合操作

六、Flink on yarn部署模式

--1、Session模式(会话模式)
需要事先申请资源,启动JobManager和TaskManager,作业执行完成后,资源不会被释放,会一直占用系统资源
--2、Per-Job模式(单一作业模式)
main函数在客户端执行,如果代码报错在本地可以看到部分错误日志
--3. Application模式(应用模式)
main方法在集群中执行,如果代码报错看不到详细地错误日志

七、Flink中的时间分为哪几类?

--事件时间
事件时间是指数据自身携带的时间戳,代表了数据产生的实际时间,这个时间戳通常是在数据采集设备中产生的.
--处理时间
数据被Flink系统处理时时间,与现实的时间相差不多

八、Flink 中的Watermark是什么概念,起到什么作用?

水位线是Flink中用来衡量事件时间(Event Time)进展的标记,主要内容就是一个时间戳,用来指示最新一条数据的事件时间。--作用
处理乱序数据和延迟数据

九、Flink是如何支持批流一体的?

Flink提供了DataStream API,这是一个统一的编程模型,用于同时处理无界(流处理)和有界(批处理)数据流。

十、Flink SQL的实现原理是什么?

1、解析器将用户编写的SQL语句解析为抽象语法树(AST)并生成逻辑执行计划
2、逻辑执行计划经过优化器优化后,生成物理执行计划
3、物理执行计划中的节点被转化为对应的算子,并将这些算子组合成一个数据流图(Dataflow Graph)提交到Flink平台执行

 

十一、你了解Flink的容错机制吗?

Flink的容错机制是确保程序在发生故障时能够保证不丢失的关键机制
--检查点
检查点是Flink容错机制的核心Flink会定期地为状态快照,这些快照就是检查点。当发生故障时,Flink可以回滚到上一个检查点,保证数据不丢失。

十二、flink确保至少一次和精确一次

Flink支持两种容错语义:
--至少一次(At Least Once)
这是Flink的默认容错语义。它保证每条数据至少被处理一次,但在某些情况下,可能会因为故障导致数据被重复处理。
--精确一次(Exactly Once)
这需要额外的配置和支持,但它可以确保每条数据只被处理一次,即使在发生故障的情况下也不会丢失或重复处理数据。这通常涉及到在数据源处使用事务性写入,以确保在检查点完成时所有的数据都被正确地写入到外部系统。

十四、如果Flink中的Window出现了数据倾斜,你有什么解决办法?

--重新设计窗口聚合的key
数据倾斜的本质原因之一是数据源头发送的数据量速度不同,导致某些key的数据量过大。重新设计窗口聚合的key,使得数据能够更加均匀地分布到不同的窗口和计算节点中。--增加并行度
使用setParallelism()方法增加计算节点的并行度,将数据更加均衡地分配到不同的计算节点中进行处理。--对数据进行分区
使用Flink的rescale()、shuffle()等算子对数据进行分区,将数据分散到不同的计算节点中进行处理。

十五、 Flink任务延迟高,想解决这个问题,你会如何入手?

--分析延迟原因与解决
1、看是否出现资源不足问题,如果有,可以调整参数优化资源配置(增加并行度、合理设置TaskManager slot数量)或者增加集群资源来解决
2、看是否出现数据倾斜问题,如果有,可以重新分区来解决

十六、Flink是如何处理反压的?

--反压
通常发生在实时数据处理过程中,上游节点的生产速度大于下游节点的消费速度时。--反压处理策略
1、使用缓冲区:使用缓冲区来缓冲数据,当系统处理能力不足时,缓冲区可以暂时存储数据,以避免数据丢失和延迟增加。
2、提高计算资源:增加计算资源,包括增加计算节点、增加CPU和内存等,以提高系统的处理能力。

十七、Flink Job的提交流程

1、Flink作业被编译和提交时,Flink框架会分析代码并构建数据流图(Dataflow Graph),在Spark中,这个图被称为DAG(有向无环图)。
2、Dataflow会被提交到JobManager并被拆分为一个一个的个task
3、这些task会被发送到TaskManager中的TaskSlot执行

十八、Flink中的状态(State)是什么?

状态是处理数据流过程中,用于保存和恢复数据的机制,状态被保存到状态后端中,保证了flink的容错。

 

十九、Flink如何处理数据倾斜

--1 使用分区策略
rebalance()、rescale()、shuffle():这些算子可以帮助将数据均匀分配到不同的计算节点中。例如,rebalance()以轮询方式均匀地分布数据,而shuffle()则将数据随机打乱分配到下游操作。
自定义分区:如果默认分区策略不满足需求,可以调用partitionCustom进行自定义分区,根据数据的实际情况设计分区策略。
--2 增加并行度
setParallelism():通过增加算子的并行度,可以将数据更加均衡地分配到不同的计算节点中。并行度的设置需要根据实际资源和任务需求进行权衡。
--3 使用滑动窗口
滑动窗口可以将窗口划分成多个子窗口,使数据更加均衡地分配到不同的计算节点中,并减少数据倾斜的情况。同时,滑动窗口还可以使窗口内的数据更加连续。
--4 扩大窗口大小
通过扩大窗口大小,可以使窗口内的数据更加均衡地分配到不同的计算节点中,但需要注意过大的窗口大小可能会影响任务的延迟和内存消耗。
--5 两阶段聚合
在keyBy之前使用窗口进行预聚合,减少下游keyBy操作的数据量。这种方法类似于MapReduce中的Combiner思想,但要求聚合操作能够处理多条或一批数据。
--6 加盐
如果数据倾斜的原因是某些key的数据量过大,可以考虑在keyBy()方法中使用随机生成的键来进行分区,从而将数据打散,使数据更加均衡地分配到不同的计算节点中。

二十、你了解Flink的并行度概念吗?

-- 定义
Flink的并行度(Parallelism)是指在Flink作业中同时执行的任务或算子的数量。它决定了作业的并发执行能力和资源利用率。--并行度的级别
1、作业级别并行度(Job Parallelism):
定义:整个作业中任务的数量,决定了作业的整体并行执行能力。
设置方式:可以在提交作业时通过编程API(如env.setParallelism(int parallelism))或命令行参数进行指定。2、算子级别并行度(Operator Parallelism):
定义:作业中具体算子的并行度,即该算子被拆分成多少个并行实例(Subtask)来执行。
设置方式:可以通过算子的setParallelism(int parallelism)方法进行设置。

二十一、Flink重启策略

--固定延迟重启策略
作业失败后,延迟一定时间后重启。在达到最大重启次数之前,会不断尝试重启。
--失败率重启策略
作业失败后,基于一定的失败率来决定是否继续重启。如果失败率超过设定阈值,则停止重启。
--无重启策略
作业失败后不进行任何重启尝试,直接标记为失败。
--后备重启策略
当未启用Checkpoint且未明确设置重启策略时,采用的默认策略(实际上通常是无重启策略)。如果启用了Checkpoint但未明确设置重启策略,则默认使用固定延迟重启策略,最大重启次数为Integer.MAX_VALUE。
--指数延迟重启策略
作业失败后,重启延迟时间随着失败次数指数递增。

二十二、你了解哪些flink优化方案

--资源配置调优
1、内存设置
JobManager内存:根据任务数量和并行度合理配置JobManager的内存大小,一般建议2-4GB足够。
内存分配:合理设置TaskManager的Task Slot数量和每个Slot的内存大小,以充分利用集群资源。2、并行度设置
总并行度:根据集群CPU核数和任务特点设置合适的并行度,一般为CPU核数的2-3倍。
Source端并行度:通常设置为Kafka对应Topic的分区数,以充分利用Kafka的并行读取能力。
Transform端并行度:KeyBy之前的算子并行度可与Source一致;KeyBy之后的算子建议设置为2的整数次幂,如128、256等,以优化数据处理效率。
Sink端并行度:根据Sink端的数据量及下游服务抗压能力设置,若Sink端是Kafka,可设为Kafka对应Topic的分区数。--性能调优
1、数据倾斜处理
重新设计Key或调整并行度以分散热点数据。
调用Rebalance操作以重新分配数据。
设置缓冲区超时以避免长时间等待。2、Checkpoint调优
合理配置Checkpoint的间隔时间和存储位置,以减少对正常处理流程的影响。
启用异步Checkpoint模式以提高容错性能。

相关文章:

Flink面试题总结

一、简单介绍一下 Flink Apache Flink 是一个实时计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算 二、Flink集群有哪些角色?各自有什么作用?(flink架构) --JobManager: JobManag…...

人工智能与云计算

项目要求 一个简单的集群。您需要在此项目中创建计算机集群。这些机器是 docker 容器。集群管理器是一个 Python 程序。群集的状态将写入文件。 希望通过这个 Python 文件,首先它能够通过获取输入来得到要创建的集群中包含的容器数量,并与用户进行交互(用户可以执行此集群…...

9.(vue3.x+vite)修改el-input,el-data-picker样式

效果预览 二:相关代码 <template><div style="padding: 50px"><el-input placeholder="请输入模型名称" style="width: 260px" /><br /...

java反射和注解

反射 获取class对象的三种方法 ①&#xff1a;Class.forName("全类名"); ②&#xff1a;类名.class ③&#xff1a;对象.getclass(); 代码样例 package com.ithema;public class Main {public static void main(String[] args) throws ClassNotFoundException {//第…...

react_后台管理_项目

目录 1.运行项目 2. 项目结构 ①项目顶部导航栏 ②项目左侧导航栏 ③主页面-路由切换区 本项目使用的是 reacttsscss 技术栈。 1.运行项目 在当前页面顶部下载本项目&#xff0c;解压后使用编辑器打开&#xff0c;然后再终端输入命令&#xff1a; npm i 下载依赖后&am…...

【C语言】使用C语言编写并使用gcc编译动态链接库

【C语言】使用C 语言编写并使用 gcc 编译动态链接库 1.背景2.使用C编写代码3.使用gcc编译代码1.背景 在windows下开发很多程序接口被封装到动态链接库供其它开发者使用。 本博客使用C语言编写并使用gcc 编译 一个动态链接库文件FpdSys.dll; 然后使用C/C++/C#/Python去调用动态…...

使用supportFragmentManager管理多个fragment切换

android studio创建的项目就没有一个简单点的框架&#xff0c;生成的代码都是繁琐而复杂&#xff0c;并且不实用。 国内的页面一般都是TAB页面的比较多&#xff0c;老外更喜欢侧边菜单。 如果我们使用一个activity来创建程序&#xff0c;来用占位符管理多个fragment切换&…...

开源模型应用落地-FastAPI-助力模型交互-WebSocket篇(六)

一、前言 使用 FastAPI 可以帮助我们更简单高效地部署 AI 交互业务。FastAPI 提供了快速构建 API 的能力,开发者可以轻松地定义模型需要的输入和输出格式,并编写好相应的业务逻辑。 FastAPI 的异步高性能架构,可以有效支持大量并发的预测请求,为用户提供流畅的交互体验。此外,F…...

独立开发者系列(17)——MYSQL的常见异常整理

虽然安装MYSQL到本地很简单&#xff0c;但是数据库报错还是经常出现&#xff0c;这个时候&#xff0c;需要我们进行逐步检查与修复。作为我们最常用的开发软件&#xff0c;无论切换php/go/python/node/java&#xff0c;数据库的身影都少不了&#xff0c;对于我们储存数据而言&a…...

【ajax实战02】数据管理网站—验证码登录

一&#xff1a;数据提交&#xff08;提交手机验证码&#xff09; 核心思路整理 利用form-serialize插件&#xff0c;收集对象形式的表单数据后&#xff0c;一并提交给服务器。后得到返回值&#xff0c;进一步操作 基地址&#xff1a; axios.defaults.baseURL http://geek.…...

人工智能在反无人机中的应用介绍

人工智能技术在无人机的发展中扮演着至关重要的角色&#xff0c;这一作用在反无人机技术领域同样显著。随着无人机技术的发展&#xff0c;飞行器具备了微小尺寸、高速机动性&#xff0c;以及可能采用的隐蔽或低空飞行轨迹等特性。这些特性使得传统的人工监视和控制手段面临着重…...

【力扣 - 每日一题】3115. 质数的最大距离(一次遍历、头尾遍历、空间换时间、埃式筛、欧拉筛、打表)Golang实现

原题链接 题目描述 给你一个整数数组 nums。 返回两个&#xff08;不一定不同的&#xff09;质数在 nums 中 下标 的 最大距离。 示例 1&#xff1a; 输入&#xff1a; nums [4,2,9,5,3] 输出&#xff1a; 3 解释&#xff1a; nums[1]、nums[3] 和 nums[4] 是质数。因此答…...

【Gin】项目搭建 一

环境准备 首先确保自己电脑安装了Golang 开始项目 1、初始化项目 mkdir gin-hello; # 创建文件夹 cd gin-hello; # 需要到刚创建的文件夹里操作 go mod init goserver; # 初始化项目&#xff0c;项目名称&#xff1a;goserver go get -u github.com/gin-gonic/gin; # 下载…...

C++ 和C#的差别

首先把眼睛瞪大&#xff0c;然后憋住一口气&#xff0c;读下去&#xff1a; 1、CPP 就是C plus plus的缩写&#xff0c;中国大陆的程序员圈子中通常被读做"C加加"&#xff0c;而西方的程序员通常读做"C plus plus"&#xff0c;它是一种使用非常广泛的计算…...

Vue2组件传值(通信)的方式

目录 1.父传后代 ( 后代拿到了父的数据 )1. 父组件引入子组件&#xff0c;绑定数据2. 子组件直接使用父组件的数据3. 依赖注入(使用 provide/inject API)1.在祖先组件中使用 provide2.在后代组件中使用 inject 2.后代传父 &#xff08;父拿到了后代的数据&#xff09;1. 子组件…...

【数据结构 - 时间复杂度和空间复杂度】

文章目录 <center>时间复杂度和空间复杂度算法的复杂度时间复杂度大O的渐进表示法常见时间复杂度计算举例 空间复杂度实例 时间复杂度和空间复杂度 算法的复杂度 算法在编写成可执行程序后&#xff0c;运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏&…...

telegram支付

今天开始接入telegram支付,参考教程这个是telegram的官方说明,详细介绍了机器人支付API。 文章公开地址 新建机器人 因为支付是一个单独的系统,所以在做支付的时候单独创建了一个bot,没有用之前的bot了,特意这样将其分开。创建bot的方法和之前不变,这里不过多介绍。 获…...

elasticsearch-6.8.23的集群搭建过程

三个节点的 ElasticSearch 集群搭建步骤 准备三台机器&#xff1a;28.104.87.98、28.104.87.100、28.104.87.101 和 ElasticSearch 的安装包 elasticsearch-6.8.23.tar.gz ----------------------------- 28.104.87.98&#xff0c;使用 root 用户操作 ----------------------…...

javascript输出语法

javascript输出有三种方式 一种是弹窗输出&#xff0c;就是网页弹出一个对话框&#xff0c;弹出输出内容 语法是aler(内容) 示例代码如下 <body> <script> alert(你好); </script> </body> 这段代码运行后网页会出现一个对话框&#xff0c;弹出你…...

仓库管理系统26--权限设置

原创不易&#xff0c;打字不易&#xff0c;截图不易&#xff0c;多多点赞&#xff0c;送人玫瑰&#xff0c;留有余香&#xff0c;财务自由明日实现 1、权限概述 在应用软件中&#xff0c;通常将软件的功能分为若干个子程序&#xff0c;通过主程序调用。那么&#xff0c;通过…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中&#xff0c;结构体可以嵌套使用&#xff0c;形成更复杂的数据结构。例如&#xff0c;可以通过嵌套结构体描述多层级数据关系&#xff1a; struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中&#xff0c;可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行&#xff0c;可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令&#xff0c;并忽略错误 rm somefile…...

黑马Mybatis

Mybatis 表现层&#xff1a;页面展示 业务层&#xff1a;逻辑处理 持久层&#xff1a;持久数据化保存 在这里插入图片描述 Mybatis快速入门 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6501c2109c4442118ceb6014725e48e4.png //logback.xml <?xml ver…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)

文章目录 1.什么是Redis&#xff1f;2.为什么要使用redis作为mysql的缓存&#xff1f;3.什么是缓存雪崩、缓存穿透、缓存击穿&#xff1f;3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异&#xff0c;它们的数据同步要求既要保持数据的准确性和一致性&#xff0c;又要处理好性能问题。以下是一些主要的技术要点&#xff1a; 数据结构差异 数据类型差异&#xff…...

.Net Framework 4/C# 关键字(非常用,持续更新...)

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面&#xff0c;gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress&#xff0c;说明目标所使用的cms是wordpress&#xff0c;访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程&#xff1f; 2. Java创建对象的过程&#xff1f; 3. 对象的生命周期&#xff1f; 4. 类加载器有哪些&#xff1f; 5. 双亲委派模型的作用&#xff08;好处&#xff09;&#xff1f; 6. 讲一下类的加载和双亲委派原则&#xff1f; 7. 双亲委派模…...

Oracle11g安装包

Oracle 11g安装包 适用于windows系统&#xff0c;64位 下载路径 oracle 11g 安装包...

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说&#xff0c;在叠衣服的过程中&#xff0c;我会带着团队对比各种模型、方法、策略&#xff0c;毕竟针对各个场景始终寻找更优的解决方案&#xff0c;是我个人和我司「七月在线」的职责之一 且个人认为&#xff0c…...