Flink 大数据 学习详情
参考视频:
尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili
核心目标:
数据流上的有状态的计算
具体说明: Apache Flink是一个 框架 和 分布式处理引擎,用于对 无界(eg:kafka) 和 有界(eg:文本) 数据流进行有状态计算
有状态: 存储中间的结果或者计算结果,保存在flink内部(内存/RockSDB),定期存储到磁盘
状态在内存中: 速度快,但可靠性差
状态在分布式系统中:速度慢,但可靠性高
特点:
高吞吐和低延迟:
每秒处理数百万个事件,毫秒级延迟
结果的准确性:
Flink提供了事件时间(event-time) 和处理时间(processing-time)语义。对于乱序事件流,事件时间语义仍然能提供一致且准确的结果
精确一次(exactly-once)的状态一致性保证
可以连接到最常用的存储系统:
Kafka,Hive,JDBC,HDFS,Redis等
高可用:
本身高可用的设置,加上与 K8s,YARN和Mesos的紧密集成,再加上从故障中快速恢复和动态扩展任务的能力,Flink能做到以极少的停机时间7*24全天候运行
Flink和SparkStreaming比较
本质:spark streaming是批处理(RDD模型),flink是流处理
| Flink | Streaming | |
| 计算模型 | 流计算 | 微批处理 |
| 时间语义 | 事件时间,处理时间 | 处理时间 |
| 窗口 | 多,灵活 | 少,不灵活(窗口必须是批次的整数倍) |
| 状态 | 有 | 无 |
| 流式sql | 有 | 无 |
ps:
Flink提供了三种时间语义,以满足不同计算场景的需求:处理时间,事件时间和注入时间。
- 处理时间(Processing Time):一种直观的时间语义,表示数据进入算子并开始处理的实际时间点。
- 事件时间(Event Time):表示事件实际发生的时间,通常在消息的时间戳字段中找到。由于可能会有数据乱序的问题,但它能保证精确度高的计算场景。
- 注入时间(Ingestion Time):介于处理时间和事件时间之间的折中选择,代表数据进入Flink处理系统的时间。
Flink分层API
| 最高层 | SQL(最好用) |
| 声明式领域专用语言 | Table API(像表一样处理数据,还不够好用) |
| 核心APIs | DataStream(数据流,流计算,高版本一般都用流计算) / DataSet API(数据集,批处理) |
| 底层APIs(处理函数) | 有状态流处理 |
有状态流处理:
通过底层API(处理函数),对最原始数据加工处理。底层API与DataStream API相集成,可以处理复杂的计算
DataStream API(流处理) 和 DataSet API(批处理)
封装了底层处理函数,提供了通用的模块,比如转换(transformations,包括map,flatmap等) ,连接(join),聚合(aggregations),窗口(windows)操作等。
注意:Flink1.12以后,DataStream API已经实现真正的批流一体,所以DataSet API已经过时
Table API
以表未中心的声明式编程,其中表可能会动态变化。 Table API遵循关系模型:表有二维数据结构,类似于关系数据库中的表;同时API提供可比较的操作,例如:select,project,group-by,aggregate等。 我们可以在表与 DataStream / DataSet之间无缝切换,以允许程序将Table API 与DataStream / DataSet 混合使用
SQL
这一层在语法与表达能力上与Table API类似,但是以SQL查询表达式的形式表现程序。
SQL抽象与Table API交互密切,同时SQL查询可以直接在Table API定义的表上执行
Flink快速上手
<dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java</artifactId><version>1.17.0</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-clients_2.10</artifactId><version>1.17.0</version></dependency>
看视频吧,不同的引包写法有差异
Flink集群部署
组件流程介绍
flink提交作业和执行任务,需要几个关键组件:
客户端(client):代码由客户端获取并作转换,之后提交给 jobManager
JobManager:就是flink集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,会进一步处理转换,然后分发任务给众多的TaskManager
TaskManager:就是真正“干活的人”,数据的处理操作都是它们来做的
注意:
流程:
Flink Client -> 一个JobManager(协调调度中心) -> N个TaskManager(工作节点)
多个备用 JobManager
Flink是一个非常灵活的处理框架,它支持多种不同的部署场景,还可以和不同的资源管理平台方便地集成
集群搭建:
集群规划:
| 节点服务器 | hadoop102 | hadoop103 | hadoop104 |
| 角色 | JobManager,TaskManager | TaskManager | TaskManager |
下载解压安装包
eg:flink-1.17.0-bin-scala_2.12.tgz
vim flink-conf.yaml
jobmanager.rpc.address: hadoop102 (rpc连接的地址)
jobmanager.bind-host: 0.0.0.0 (任何机器都可以访问)
rest.address: hadoop102 (Rest Api访问地址)
rest.bind-address: 0.0.0.0taskmanager.bind-host: 0.0.0.0
taskmanager.host: hadoop102 (不同服务器配置相应的ip)还可更改
jobmanager.rpc.port:6123
jobmanager.memory.process.size:48g
taskmanager.memory.process.size:8g
taskmanager.numberOfTaskSlots: 24
parellelism.default: 8 # 并行数量
high-availability: zookeeper
high-availability.storageDir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/ha/
high-availability.zookeeper.quorum: zk01:2181,zk02:2181,zk03:2181
jobmanager.execution.failover-strategy: region
#历史服务器
jobmanager.archive.fs.dir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/completed-jobs/
historyserver.web.address: 0.0.0.0
historyserver.web.port: 8082
historyserver.archive.fs.dir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/completed-jobs/
heartbeat.timeout: 180000
akka.ask.timeout: 60s
web.timeout: 1000000
state.checkpoints.num-retained: 3
vim workers
hadoop102
hadoop103
hadoop104
vim masters(jobmanager)
hadoop102:8081
//可以多个
hadoop105:8081
hadoop106:8081
...
webUI访问:
http://hadoop:8081/
参考文档:
【大数据】Flink 架构(三):事件时间处理-CSDN博客
Flink架构、原理与部署测试_未来链flink-CSDN博客
相关文章:
Flink 大数据 学习详情
参考视频: 尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili 核心目标: 数据流上的有状态的计算 具体说明: Apache Flink是一个 框架 和 分布式处理引擎,用于对 无界(eg:kafka) 和…...
[项目设计] 从零实现的高并发内存池(四)
🌈 博客个人主页:Chris在Coding 🎥 本文所属专栏:[高并发内存池] ❤️ 前置学习专栏:[Linux学习] ⏰ 我们仍在旅途 目录 6.内存回收 6.1 ThreadCache回收内存 6.2 CentralCache回收内存 Rele…...
02.URL的基本知识和使用
一.认识 URL 1. 为什么要认识 URL ? 虽然是后端给我的一个地址,但是哪部分标记的是服务器电脑,哪部分标记的是资源呢?所以为了和服务器有效沟通我们要认识一下 2. 什么是 URL ? 统一资源定位符,简称网址ÿ…...
人工智能指数报告2023
人工智能指数报告2023 主要要点第 1 章 研究与开发第 2 章 技术性能第 3 章 人工智能技术伦理第 4 章 经济第 5 章 教育第 6 章 政策与治理第 7 章 多样性第 8 章 舆论 人工智能指数是斯坦福大学以人为本的人工智能研究所(HAI)的一项独立倡议,…...
Android如何对应用进行系统签名
一、使用命令 获取签名文件 从系统源码环境中获取签名相关文件: platform.x509.pem、platform.pk8 、signapk.jar platform.x509.pem、platform.pk8 位于 ../build/target/product/security 目录下。signapk.jar 位于 ../out/host/linux-x86/framework 目录下。 …...
【系统安全加固】Centos 设置禁用密码并打开密钥登录
文章目录 一,概述二,操作步骤1. 服务器端生成密钥2. 在服务器上安装公钥3.下载私钥到本地(重要,否则后面无法登录)4. 修改配置文件,禁用密码并打开密钥登录5. 重启sshd服务6. 配置xshell使用密钥登录 一&am…...
关于我在项目中封装的一些自定义指令
什么是指令 在Vue中提供了一套为数据驱动视图更为方便的操作,这些操作被称为指令系统。我们看到的v-来头的行内属性,都是指令,不同的指令可以完成或者实现不同的功能。 除了核心功能默认内置的指令(v-model和v-show)…...
react经验11:访问循环渲染的子组件内容
前有访问单个子组件的需求,现在进一步需要访问循环渲染中的子组件。 访问单个子组件的成员 实施步骤 子组件//child.tsx export declare type ChildInstance{childMethod:()>void } const Child(props:{value:stringonMounted?:(ref:ChildInstance)>void …...
Java开发工程师面试题(业务功能)
一、订单超时未支付自动关闭的几种实现方式。 定时任务扫描:在订单创建时,为订单创建一个定时任务,并设置一个超时时间。后端服务器会定期检查任务的创建时间是否超过了超时时间。如果是,则将订单设置为关闭状态。这种方案需要后…...
BUUCTF-Misc-百里挑一
题目链接:BUUCTF在线评测 (buuoj.cn) 下载附件打开是一个流量包文件: 全是在传图片时候的流量,先把图片保存出来文件–>导出对象–>HTTP–>保存到一个文件夹 然后使用kali下的exiftool找到了一半flag exiftool *|grep flag 另外一半…...
【力扣刷题练习】42. 接雨水
题目描述: 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 题目解答: class Solution {public int trap(int[] height) {int n height.length;int ans 0;if (n < 3)return…...
鸿蒙实战开发:数据交互【RPC连接】
概述 本示例展示了同一设备中前后台的数据交互,用户前台选择相应的商品与数目,后台计算出结果,回传给前台展示。 样例展示 基础信息 RPC连接 介绍 本示例使用[ohos.rpc]相关接口,实现了一个前台选择商品和数目,后台…...
QLC SSD:LDPC纠错算法的优化方案
随着NAND TLC和QLC出现,LDPC也在不断的优化研究,提升纠错能力。小编看到有一篇来自Microchip发布的比较详细的LDPC研究数据,根据自己的理解分析解读给大家,如有错误,请留言指正! 文档中测试LDPC(Low-Density Parity-Check)码是为了评估其在不同配置下对数据错误的有效…...
【Flutter 面试题】main()和runApp()函数在Flutter的作用分别是什么?有什么关系吗?
【Flutter 面试题】main()和runApp()函数在Flutter的作用分别是什么?有什么关系吗? 文章目录 写在前面解答补充说明 写在前面 关于我 ,小雨青年 👉 CSDN博客专家,GitChat专栏作者,阿里云社区专家博主&…...
ChatGPT高效提问——说明提示技巧
ChatGPT高效提问——说明提示技巧 现在,让我们开始体验“说明提示技巧”(IPT, Instructions Prompt Technique)和如何用它生成来自ChatGPT的高质量的文本。说明提示技巧是一个通过向ChatGPT提供需要依据的具体的模型的说明来指导ChatGPT输出…...
从零学算法41
41.给你一个未排序的整数数组 nums ,请你找出其中没有出现的最小的正整数。 请你实现时间复杂度为 O(n) 并且只使用常数级别额外空间的解决方案。 示例 1: 输入:nums [1,2,0] 输出:3 示例 2: 输入:nums […...
FPGA高端项目:FPGA基于GS2971的SDI视频接收+OSD动态字符叠加,提供1套工程源码和技术支持
目录 1、前言免责声明 2、相关方案推荐本博已有的 SDI 编解码方案本方案的SDI接收转HDMI输出应用本方案的SDI接收图像缩放应用本方案的SDI接收纯verilog图像缩放纯verilog多路视频拼接应用本方案的SDI接收HLS图像缩放HLS多路视频拼接应用本方案的SDI接收HLS多路视频融合叠加应用…...
UML-类图详解
UML中基本概念说明 UML类图中关系连接线说明 UML类图说明 号表示public、-表示表示private、#表示protected UML类关系详解 泛化(Generalization)关系 简单的讲就是类之间的继承关系。在UML中,泛化关系用空心三角形实线来表示&…...
Python 快速获取PDF文件的页数
有时在处理或打印一个PDF文档之前,你可能需要先知道该文档包含多少页。虽然我们可以使用Adobe Acrobat这样的工具来查看页数,但对于程序员来说,编写脚本来完成这项工作会更加高效。本文就介绍一个使用Python快速获取PDF文件页数的办法。 安装…...
uniapp开发小程序使用x-www-form-urlencoded; charset=UTF-8 编码格式请求案例
使用x-www-form-urlencoded,header要放在前面,第一行位置。 uni.request({ header: { content-type: application/x-www-form-urlencoded; charsetUTF-8},url: ,method:POST, //请求方式POST\GETdata:that.loginData,success: funct…...
深度学习在微纳光子学中的应用
深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...
java 实现excel文件转pdf | 无水印 | 无限制
文章目录 目录 文章目录 前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解 二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件 总结 前言 java处理excel转pdf一直没找到什么好用的免费jar包工具,自己手写的难度,恐怕高级程序员花费一年的事件,也…...
vscode(仍待补充)
写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...
CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
HTML前端开发:JavaScript 常用事件详解
作为前端开发的核心,JavaScript 事件是用户与网页交互的基础。以下是常见事件的详细说明和用法示例: 1. onclick - 点击事件 当元素被单击时触发(左键点击) button.onclick function() {alert("按钮被点击了!&…...
Element Plus 表单(el-form)中关于正整数输入的校验规则
目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入(联动)2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...
【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...
