Flink面试题总结
一、简单介绍一下 Flink
Apache Flink 是一个实时计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算
二、Flink集群有哪些角色?各自有什么作用?(flink架构)
--JobManager:
JobManager是Flink集群中的主节点,负责协调和管理整个作业的执行过程
--TaskManager
TaskManager是Flink集群中的工作节点,负责实际执行作业的任务
--ResourceManager
ResourceManager是Flink集群中的资源管理器,负责统一管理和分配集群的计算资源
--Client
Client是Flink程序提交的客户端,Client需要从用户提交的Flink程序配置中获取JobManager的地址,并建立到JobManager的连接,将Flink Job提交给JobManager
三、说说 Flink 资源管理中 Task Slot 的概念
Task Slot是TaskManager中用于执行并行任务的资源单元。
每个TaskManager可以包含多个Task Slot,这些Slot被分配的资源是固定的,用于执行并行的任务或算子。
四、Flink 的常用算子
--Map:
描述:Map算子将输入流(DataStream)中的每一个元素转换为另一个元素。它实现了一对一的映射关系。--FlatMap:
描述:FlatMap算子将输入流(DataStream)中的每一个元素转换为0个、1个或多个元素。常用于拆分操作。--Filter:
描述:Filter算子过滤出符合指定条件的元素,只保留返回true的元素。--KeyBy:
描述:KeyBy算子逻辑上将流拆分为不相交的分区,每个分区包含具有相同key的元素。在内部,它使用哈希函数实现分区。--Reduce:
描述:Reduce算子对KeyedStream(经过KeyBy操作后的流)中的元素进行聚合计算,最终聚合成一个元素。常用的方法有average、sum、min、max、count等。--Window 和 WindowAll:
描述:Window和WindowAll算子用于在KeyedStream或DataStream上定义窗口,以便在窗口内对数据进行聚合或其他操作。
示例:计算在最近5秒内到达的数据的总和。--Union:
描述:Union算子将两个或两个以上的DataStream合并成一个新的DataStream,包含所有DataStream的元素。--Window Join:
描述:Window Join算子根据给定的key和窗口对两个DataStream进行join操作。
五、Flink中的窗口有那些?
Flink中有四大类窗口,根据时间语意可以细分为八种小窗口。基于事件时间和基于处理时间
--滚动窗口
具有固定大小、不重叠的窗口。
--滑动窗口
具有固定大小、可以滑动的窗口,窗口之间可以有重叠。
--会话窗口
基于时间间隔来定义窗口,当一定时间内没有新的数据到达时,就认为会话结束。
--全局窗口
全局窗口是一个包含所有数据的窗口,通常用于全局聚合操作
六、Flink on yarn部署模式
--1、Session模式(会话模式)
需要事先申请资源,启动JobManager和TaskManager,作业执行完成后,资源不会被释放,会一直占用系统资源
--2、Per-Job模式(单一作业模式)
main函数在客户端执行,如果代码报错在本地可以看到部分错误日志
--3. Application模式(应用模式)
main方法在集群中执行,如果代码报错看不到详细地错误日志
七、Flink中的时间分为哪几类?
--事件时间
事件时间是指数据自身携带的时间戳,代表了数据产生的实际时间,这个时间戳通常是在数据采集设备中产生的.
--处理时间
数据被Flink系统处理时时间,与现实的时间相差不多
八、Flink 中的Watermark是什么概念,起到什么作用?
水位线是Flink中用来衡量事件时间(Event Time)进展的标记,主要内容就是一个时间戳,用来指示最新一条数据的事件时间。--作用
处理乱序数据和延迟数据
九、Flink是如何支持批流一体的?
Flink提供了DataStream API,这是一个统一的编程模型,用于同时处理无界(流处理)和有界(批处理)数据流。
十、Flink SQL的实现原理是什么?
1、解析器将用户编写的SQL语句解析为抽象语法树(AST)并生成逻辑执行计划
2、逻辑执行计划经过优化器优化后,生成物理执行计划
3、物理执行计划中的节点被转化为对应的算子,并将这些算子组合成一个数据流图(Dataflow Graph)提交到Flink平台执行
十一、你了解Flink的容错机制吗?
Flink的容错机制是确保程序在发生故障时能够保证不丢失的关键机制
--检查点
检查点是Flink容错机制的核心Flink会定期地为状态快照,这些快照就是检查点。当发生故障时,Flink可以回滚到上一个检查点,保证数据不丢失。
十二、flink确保至少一次和精确一次
Flink支持两种容错语义:
--至少一次(At Least Once)
这是Flink的默认容错语义。它保证每条数据至少被处理一次,但在某些情况下,可能会因为故障导致数据被重复处理。
--精确一次(Exactly Once)
这需要额外的配置和支持,但它可以确保每条数据只被处理一次,即使在发生故障的情况下也不会丢失或重复处理数据。这通常涉及到在数据源处使用事务性写入,以确保在检查点完成时所有的数据都被正确地写入到外部系统。
十四、如果Flink中的Window出现了数据倾斜,你有什么解决办法?
--重新设计窗口聚合的key
数据倾斜的本质原因之一是数据源头发送的数据量速度不同,导致某些key的数据量过大。重新设计窗口聚合的key,使得数据能够更加均匀地分布到不同的窗口和计算节点中。--增加并行度
使用setParallelism()方法增加计算节点的并行度,将数据更加均衡地分配到不同的计算节点中进行处理。--对数据进行分区
使用Flink的rescale()、shuffle()等算子对数据进行分区,将数据分散到不同的计算节点中进行处理。
十五、 Flink任务延迟高,想解决这个问题,你会如何入手?
--分析延迟原因与解决
1、看是否出现资源不足问题,如果有,可以调整参数优化资源配置(增加并行度、合理设置TaskManager slot数量)或者增加集群资源来解决
2、看是否出现数据倾斜问题,如果有,可以重新分区来解决
十六、Flink是如何处理反压的?
--反压
通常发生在实时数据处理过程中,上游节点的生产速度大于下游节点的消费速度时。--反压处理策略
1、使用缓冲区:使用缓冲区来缓冲数据,当系统处理能力不足时,缓冲区可以暂时存储数据,以避免数据丢失和延迟增加。
2、提高计算资源:增加计算资源,包括增加计算节点、增加CPU和内存等,以提高系统的处理能力。
十七、Flink Job的提交流程
1、Flink作业被编译和提交时,Flink框架会分析代码并构建数据流图(Dataflow Graph),在Spark中,这个图被称为DAG(有向无环图)。
2、Dataflow会被提交到JobManager并被拆分为一个一个的个task
3、这些task会被发送到TaskManager中的TaskSlot执行
十八、Flink中的状态(State)是什么?
状态是处理数据流过程中,用于保存和恢复数据的机制,状态被保存到状态后端中,保证了flink的容错。
十九、Flink如何处理数据倾斜
--1 使用分区策略
rebalance()、rescale()、shuffle():这些算子可以帮助将数据均匀分配到不同的计算节点中。例如,rebalance()以轮询方式均匀地分布数据,而shuffle()则将数据随机打乱分配到下游操作。
自定义分区:如果默认分区策略不满足需求,可以调用partitionCustom进行自定义分区,根据数据的实际情况设计分区策略。
--2 增加并行度
setParallelism():通过增加算子的并行度,可以将数据更加均衡地分配到不同的计算节点中。并行度的设置需要根据实际资源和任务需求进行权衡。
--3 使用滑动窗口
滑动窗口可以将窗口划分成多个子窗口,使数据更加均衡地分配到不同的计算节点中,并减少数据倾斜的情况。同时,滑动窗口还可以使窗口内的数据更加连续。
--4 扩大窗口大小
通过扩大窗口大小,可以使窗口内的数据更加均衡地分配到不同的计算节点中,但需要注意过大的窗口大小可能会影响任务的延迟和内存消耗。
--5 两阶段聚合
在keyBy之前使用窗口进行预聚合,减少下游keyBy操作的数据量。这种方法类似于MapReduce中的Combiner思想,但要求聚合操作能够处理多条或一批数据。
--6 加盐
如果数据倾斜的原因是某些key的数据量过大,可以考虑在keyBy()方法中使用随机生成的键来进行分区,从而将数据打散,使数据更加均衡地分配到不同的计算节点中。
二十、你了解Flink的并行度概念吗?
-- 定义
Flink的并行度(Parallelism)是指在Flink作业中同时执行的任务或算子的数量。它决定了作业的并发执行能力和资源利用率。--并行度的级别
1、作业级别并行度(Job Parallelism):
定义:整个作业中任务的数量,决定了作业的整体并行执行能力。
设置方式:可以在提交作业时通过编程API(如env.setParallelism(int parallelism))或命令行参数进行指定。2、算子级别并行度(Operator Parallelism):
定义:作业中具体算子的并行度,即该算子被拆分成多少个并行实例(Subtask)来执行。
设置方式:可以通过算子的setParallelism(int parallelism)方法进行设置。
二十一、Flink重启策略
--固定延迟重启策略
作业失败后,延迟一定时间后重启。在达到最大重启次数之前,会不断尝试重启。
--失败率重启策略
作业失败后,基于一定的失败率来决定是否继续重启。如果失败率超过设定阈值,则停止重启。
--无重启策略
作业失败后不进行任何重启尝试,直接标记为失败。
--后备重启策略
当未启用Checkpoint且未明确设置重启策略时,采用的默认策略(实际上通常是无重启策略)。如果启用了Checkpoint但未明确设置重启策略,则默认使用固定延迟重启策略,最大重启次数为Integer.MAX_VALUE。
--指数延迟重启策略
作业失败后,重启延迟时间随着失败次数指数递增。
二十二、你了解哪些flink优化方案
--资源配置调优
1、内存设置
JobManager内存:根据任务数量和并行度合理配置JobManager的内存大小,一般建议2-4GB足够。
内存分配:合理设置TaskManager的Task Slot数量和每个Slot的内存大小,以充分利用集群资源。2、并行度设置
总并行度:根据集群CPU核数和任务特点设置合适的并行度,一般为CPU核数的2-3倍。
Source端并行度:通常设置为Kafka对应Topic的分区数,以充分利用Kafka的并行读取能力。
Transform端并行度:KeyBy之前的算子并行度可与Source一致;KeyBy之后的算子建议设置为2的整数次幂,如128、256等,以优化数据处理效率。
Sink端并行度:根据Sink端的数据量及下游服务抗压能力设置,若Sink端是Kafka,可设为Kafka对应Topic的分区数。--性能调优
1、数据倾斜处理
重新设计Key或调整并行度以分散热点数据。
调用Rebalance操作以重新分配数据。
设置缓冲区超时以避免长时间等待。2、Checkpoint调优
合理配置Checkpoint的间隔时间和存储位置,以减少对正常处理流程的影响。
启用异步Checkpoint模式以提高容错性能。相关文章:
Flink面试题总结
一、简单介绍一下 Flink Apache Flink 是一个实时计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算 二、Flink集群有哪些角色?各自有什么作用?(flink架构) --JobManager: JobManag…...
人工智能与云计算
项目要求 一个简单的集群。您需要在此项目中创建计算机集群。这些机器是 docker 容器。集群管理器是一个 Python 程序。群集的状态将写入文件。 希望通过这个 Python 文件,首先它能够通过获取输入来得到要创建的集群中包含的容器数量,并与用户进行交互(用户可以执行此集群…...
9.(vue3.x+vite)修改el-input,el-data-picker样式
效果预览 二:相关代码 <template><div style="padding: 50px"><el-input placeholder="请输入模型名称" style="width: 260px" /><br /...
java反射和注解
反射 获取class对象的三种方法 ①:Class.forName("全类名"); ②:类名.class ③:对象.getclass(); 代码样例 package com.ithema;public class Main {public static void main(String[] args) throws ClassNotFoundException {//第…...
react_后台管理_项目
目录 1.运行项目 2. 项目结构 ①项目顶部导航栏 ②项目左侧导航栏 ③主页面-路由切换区 本项目使用的是 reacttsscss 技术栈。 1.运行项目 在当前页面顶部下载本项目,解压后使用编辑器打开,然后再终端输入命令: npm i 下载依赖后&am…...
【C语言】使用C语言编写并使用gcc编译动态链接库
【C语言】使用C 语言编写并使用 gcc 编译动态链接库 1.背景2.使用C编写代码3.使用gcc编译代码1.背景 在windows下开发很多程序接口被封装到动态链接库供其它开发者使用。 本博客使用C语言编写并使用gcc 编译 一个动态链接库文件FpdSys.dll; 然后使用C/C++/C#/Python去调用动态…...
使用supportFragmentManager管理多个fragment切换
android studio创建的项目就没有一个简单点的框架,生成的代码都是繁琐而复杂,并且不实用。 国内的页面一般都是TAB页面的比较多,老外更喜欢侧边菜单。 如果我们使用一个activity来创建程序,来用占位符管理多个fragment切换&…...
开源模型应用落地-FastAPI-助力模型交互-WebSocket篇(六)
一、前言 使用 FastAPI 可以帮助我们更简单高效地部署 AI 交互业务。FastAPI 提供了快速构建 API 的能力,开发者可以轻松地定义模型需要的输入和输出格式,并编写好相应的业务逻辑。 FastAPI 的异步高性能架构,可以有效支持大量并发的预测请求,为用户提供流畅的交互体验。此外,F…...
独立开发者系列(17)——MYSQL的常见异常整理
虽然安装MYSQL到本地很简单,但是数据库报错还是经常出现,这个时候,需要我们进行逐步检查与修复。作为我们最常用的开发软件,无论切换php/go/python/node/java,数据库的身影都少不了,对于我们储存数据而言&a…...
【ajax实战02】数据管理网站—验证码登录
一:数据提交(提交手机验证码) 核心思路整理 利用form-serialize插件,收集对象形式的表单数据后,一并提交给服务器。后得到返回值,进一步操作 基地址: axios.defaults.baseURL http://geek.…...
人工智能在反无人机中的应用介绍
人工智能技术在无人机的发展中扮演着至关重要的角色,这一作用在反无人机技术领域同样显著。随着无人机技术的发展,飞行器具备了微小尺寸、高速机动性,以及可能采用的隐蔽或低空飞行轨迹等特性。这些特性使得传统的人工监视和控制手段面临着重…...
【力扣 - 每日一题】3115. 质数的最大距离(一次遍历、头尾遍历、空间换时间、埃式筛、欧拉筛、打表)Golang实现
原题链接 题目描述 给你一个整数数组 nums。 返回两个(不一定不同的)质数在 nums 中 下标 的 最大距离。 示例 1: 输入: nums [4,2,9,5,3] 输出: 3 解释: nums[1]、nums[3] 和 nums[4] 是质数。因此答…...
【Gin】项目搭建 一
环境准备 首先确保自己电脑安装了Golang 开始项目 1、初始化项目 mkdir gin-hello; # 创建文件夹 cd gin-hello; # 需要到刚创建的文件夹里操作 go mod init goserver; # 初始化项目,项目名称:goserver go get -u github.com/gin-gonic/gin; # 下载…...
C++ 和C#的差别
首先把眼睛瞪大,然后憋住一口气,读下去: 1、CPP 就是C plus plus的缩写,中国大陆的程序员圈子中通常被读做"C加加",而西方的程序员通常读做"C plus plus",它是一种使用非常广泛的计算…...
Vue2组件传值(通信)的方式
目录 1.父传后代 ( 后代拿到了父的数据 )1. 父组件引入子组件,绑定数据2. 子组件直接使用父组件的数据3. 依赖注入(使用 provide/inject API)1.在祖先组件中使用 provide2.在后代组件中使用 inject 2.后代传父 (父拿到了后代的数据)1. 子组件…...
【数据结构 - 时间复杂度和空间复杂度】
文章目录 <center>时间复杂度和空间复杂度算法的复杂度时间复杂度大O的渐进表示法常见时间复杂度计算举例 空间复杂度实例 时间复杂度和空间复杂度 算法的复杂度 算法在编写成可执行程序后,运行时需要耗费时间资源和空间(内存)资源 。因此衡量一个算法的好坏&…...
telegram支付
今天开始接入telegram支付,参考教程这个是telegram的官方说明,详细介绍了机器人支付API。 文章公开地址 新建机器人 因为支付是一个单独的系统,所以在做支付的时候单独创建了一个bot,没有用之前的bot了,特意这样将其分开。创建bot的方法和之前不变,这里不过多介绍。 获…...
elasticsearch-6.8.23的集群搭建过程
三个节点的 ElasticSearch 集群搭建步骤 准备三台机器:28.104.87.98、28.104.87.100、28.104.87.101 和 ElasticSearch 的安装包 elasticsearch-6.8.23.tar.gz ----------------------------- 28.104.87.98,使用 root 用户操作 ----------------------…...
javascript输出语法
javascript输出有三种方式 一种是弹窗输出,就是网页弹出一个对话框,弹出输出内容 语法是aler(内容) 示例代码如下 <body> <script> alert(你好); </script> </body> 这段代码运行后网页会出现一个对话框,弹出你…...
仓库管理系统26--权限设置
原创不易,打字不易,截图不易,多多点赞,送人玫瑰,留有余香,财务自由明日实现 1、权限概述 在应用软件中,通常将软件的功能分为若干个子程序,通过主程序调用。那么,通过…...
基于算法竞赛的c++编程(28)结构体的进阶应用
结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...
黑马Mybatis
Mybatis 表现层:页面展示 业务层:逻辑处理 持久层:持久数据化保存 在这里插入图片描述 Mybatis快速入门 
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
【JVM面试篇】高频八股汇总——类加载和类加载器
目录 1. 讲一下类加载过程? 2. Java创建对象的过程? 3. 对象的生命周期? 4. 类加载器有哪些? 5. 双亲委派模型的作用(好处)? 6. 讲一下类的加载和双亲委派原则? 7. 双亲委派模…...
Oracle11g安装包
Oracle 11g安装包 适用于windows系统,64位 下载路径 oracle 11g 安装包...
HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散
前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说,在叠衣服的过程中,我会带着团队对比各种模型、方法、策略,毕竟针对各个场景始终寻找更优的解决方案,是我个人和我司「七月在线」的职责之一 且个人认为,…...
