当前位置: 首页 > news >正文

从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化

在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形势的转变,以海外大数据基础平台作为基石构建的数据中台面临着极为严峻的安全挑战。

● Cloudera 和 Hortonworks 产品开启付费订阅模式

自2021年1月31日起,Cloudera 旗下的所有软件不再提供社区版,转而采用需付费的订阅模式,并且订阅费用颇高。

● 企业版停止更新和服务

Cloudera 和 Hortonworks 合并后,推出的新平台 CDP 是 CDH 和 HDP 的最后版本,企业用户无法获取新功能和性能提升,并且2022年3月后停止售后支持。

● 国际事件导致的供应中断风险

如俄乌事件,Oracle、Google、苹果、英特尔等公司相继停止对俄业务,进一步暴露外国软件供应链的脆弱性和风险。

面对复杂多变的国际局势,我国陆续推出相应政策推动信创产业发展。比如国资委就要求,从23年初开始,每个季度要上报信创系统的替换进度。并要求在2027年底前,实现中央企业的信息化系统国产化替代。

因此,无论是因为 CDH 不再维护,还是为了实现国产化替代,或者是为了追求更高的性能和安全性,大数据集群迁移的需求都愈发迫切。

EasyMR 作为一款领先的大数据存储计算平台,深刻理解企业在集群迁移过程中面临的挑战和痛点,其 EasyManager 大数据运维管理平台推出了功能强大的「集群迁移」模块,为企业提供一站式的集群迁移解决方案,助力企业在确保数据安全和完整性的同时,轻松高效地完成集群迁移工作。

多集群配置支持:一站式管理

支持多种大数据平台的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。无论企业当前使用的是哪种平台,将要迁往哪种平台,EasyManager 都能无缝兼容,为企业提供灵活的迁移选择。

这种多集群配置支持,不仅简化了迁移操作,还提高了企业的灵活性,让企业能够根据实际业务需求,选择最合适的大数据平台。

file

集群跨域互信检测

集群迁移中源集群与目标集群可能分布在不同的物理位置或不同的网络环境中,甚至跨越不同的企业和组织。在这种复杂的环境下,确保集群之间的互信是保障数据安全和稳定运行的前提。

跨域互信检测的主要目的是:

· 确保集群间的安全通信:防止未经授权的访问和数据泄露

· 验证集群间的身份认证:确保只有可信的集群才能进行数据交换和协同计算

· 保障数据完整性和一致性:防止数据在传输过程中被篡改或丢失

迁移调度策略:灵活的任务控制

在集群迁移过程中,合理的任务调度和并发控制至关重要。EasyMR 提供了配置迁移调度策略的功能,允许企业根据自身的业务需求和资源状况,灵活地设定迁移任务的网络带宽和并发度。

通过灵活调度策略设定,企业可以最大化地利用现有网络、计算资源,确保迁移过程高效、有序地进行。同时,任务并发控制功能还能有效防止系统过载,保障系统的稳定运行。

file

数据一致性校验:保障数据准确性

在大数据集群迁移过程中,数据一致性校验是确保数据完整性和准确性的关键步骤。EasyMR 针对数据一致性校验提供了一整套详细而强大的功能,帮助企业在迁移过程中保证数据的准确性和一致性。

file

● Schema 采集和表结构对比

· Schema 采集

Schema 采集是指从源集群和目标集群中提取数据库的结构信息,包括表名、字段名、字段类型、索引、约束等。这些信息是进行表结构对比的基础。

· 表结构对比

在迁移过程中,对比源集群和目标集群的表结构是确保数据一致性的第一步。表结构对比包括以下几个方面:

1)字段数量对比:确保源表和目标表的字段数量一致

2)字段名称和类型对比:确保字段名称和数据类型一致,避免因类型不匹配导致的数据错误

3)索引和约束对比:确保索引和约束在迁移后保持一致,保证数据操作的效率和安全性

● 记录数采集和记录数对比

· 记录数采集

记录数采集是指统计源集群和目标集群中各表的记录数量,记录数的对比可以快速检测出是否有数据丢失或重复。

· 记录数对比

记录数对比主要是对比源表和目标表中的记录数量是否一致。记录数不一致可能表明数据在迁移过程中丢失或重复,需要进一步的检查和处理。

● 数值 SUM 采集和数值字段对比

· 数值 SUM 采集

数值 SUM 采集是对源集群和目标集群中所有数值类型的字段进行求和操作。通过 SUM值 的对比,可以检查出数值数据的一致性。

· 数值字段对比

数值字段对比是对比源表和目标表中数值字段的 SUM 值,确保数值数据在迁移后的总和一致。这可以有效地发现数值数据在迁移过程中可能发生的偏差和错误。

● 字符 Max 采集和字符字段对比

· 字符 Max 采集

字符 Max 采集是指对源集群和目标集群中所有字符类型的字段进行最大值的提取,通过 Max 值的对比,可以检查出字符数据的一致性。

· 字符字段对比

字符字段对比是对比源表和目标表中字符字段的 Max 值,确保字符数据在迁移后的最大值一致。这可以有效地发现字符数据在迁移过程中可能发生的错误和遗漏。

● 抽样采集和 MD5 对比

· 抽样采集

从源集群和目标集群中随机抽取一定数量的数据样本进行对比。抽样采集可以提高数据对比的效率,减少全量对比的时间和资源消耗。

· MD5 对比

通过对源集群和目标集群中的数据进行 MD5 哈希计算,将哈希值进行对比,确保数据的一致性。

实时监控与日志定位

为了帮助用户及时了解迁移进度和处理迁移过程中出现的问题,EasyMR 提供了详细的页面查看和日志记录功能。

● 迁移任务状态查看

用户可以在页面上实时查看迁移任务的状态,了解迁移进度和结果。

● 迁移日志记录和分析

系统会记录迁移过程中的详细日志,用户可以通过日志定位和解决迁移过程中出现的问题,确保迁移任务顺利完成。

file

总结

EasyMR 为企业提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务,同时支持一站式迁移解决方案。迁移流程产品化不仅简化了操作,还提升了迁移效率和安全性。无论是数据存储与管理,还是任务调度与控制,EasyMR 都能为企业提供全面支持。

特别是在集群国产化替代方面,EasyMR 通过优化的迁移流程和强大的技术支持,帮助企业顺利完成从现有环境到 EasyMR 国产环境的迁移,实现大数据集群的平稳过渡和国产化适配。 《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

相关文章:

从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化

在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP…...

【Mysql】第十二章 视图特性(概念+使用)

文章目录 一、概念二、使用1.创建视图2.修改视图会影响基表3.修改基表会影响视图4.删除视图 一、概念 视图不能添加索引,也不能有关联的触发器或者默认值。由于视图和基表用的本质是同一份数据,因此对视图的修改会影响到基表,对基表的修改也…...

【颠覆数据处理的利器】全面解读Apache Flink实时大数据处理的引擎-上篇

什么是 Apache Flink? Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 如何理解无界和有界数据? 无界数据&#…...

【C++】C++11(可变参数模板、lambda表达式、包装器)

文章目录 1. 可变参数模板1.1 介绍1.2 emplace系列接口实现 2. lambda表达式2.1 语法介绍2.2 原理 3. 包装器4. bind 1. 可变参数模板 1.1 介绍 可变参数我们在C语言阶段已经了解过了,C语言中叫做可变参数列表,其中使用 ... 代表可变参数。 C语言中的可…...

矩阵获客时代,云微客让你一个人成就一支队伍

短视频利用大家碎片化的时间让自身得到广泛的应用和发展,因此很多公司纷纷布局短视频赛道。但是一个账号的曝光量有限,并且能够出的爆款视频更是少之又少,这个时候就需要增加账号的数量,布局形成账号矩阵。 做账号矩阵&#xff0c…...

浅谈基础的图算法——Tarjan求强联通分量算法(c++)

文章目录 强联通分量SCC概念例子有向图的DFS树代码例题讲解[POI2008] BLO-Blockade题面翻译题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 思路AC代码 【模板】割点(割顶)题目背景题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示…...

【Godot4自学手册】第四十四节用着色器(shader)实现溶解效果

本小节,我将自学用用着色器(shader)实现溶解效果,最终效果如下: 一、进行shader初始设置 首先我们进入Player场景,选择AnimatedSprite2D节点,在检查器中找到CanvasItem属性,并在M…...

【画流程图工具】

画流程图工具 draw.io draw.io(现称为 diagrams.net)是一款在线图表绘制工具,可以用于创建各种类型的图表,如流程图、网络图、组织结构图、UML图、思维导图等。以下是关于它的一些优点、应用场景及使用方法: 优点&a…...

Revit二次开发选择过滤器,SelectionFilter

过滤器分为选择过滤器与规则过滤器 规则过滤器可以看我之前写的这一篇文章: Revit二次开发在项目中给链接模型附加过滤器 选择过滤器顾名思义就是可以将选择的构件ID集合传入并加入到视图过滤器中,有一些场景需要对某些构件进行过滤选择,但是没有共同的逻辑规则进行筛选的情况…...

【Linux】进程概念—环境变量

目录 一、冯诺依曼体系结构 二、操作系统(Operator System) 1 .概念 2 .设计OS的目的 3 . 定位 4 . 系统调用和库函数概念 三、进程 1 .基本概念 2 .描述进程-PCB(process control block)进程控制块 3 . 组织进程 4 . 查看进程 5 .通过系统调用获取进程…...

第十二章 Spring MVC 框架扩展和SSM框架整合(2023版本IDEA)

学习目标 12.1 Spring MVC 框架处理JSON数据12.1.1 JSON数据的传递处理12.1.2 JSON数据传递过程中的中文乱码和日期问题12.1.3 多视图解析器 12.2 Spring MVC 框架中的数据格式转换12.2.1 Spring MVC 框架数据转换流程12.2.2 编写自定义转换器12.2.3 使用InitBinder装配自定义编…...

js中的全局函数有这些

js中的全局函数有这些,记忆规则 6个编译 escape、‌‌unescape、decodeURI、decodeURIComponent、encodeURI、encodeURIComponent 2个数据处理 Number()、String() 4个数字处理 ‌isFinite、isNaN、‌parseFloat、parseInt 1个特殊情况 eval()...

Android SurfaceFlinger——重绘闪烁处理(四十六)

在帧数据准备完成后,下一步是调用 devOptRepaintFlash() 函数处理显示输出设备的可选重绘闪烁问题,这里我们就来看一下重绘闪屏问题的处理方案。 1.更新输出设备的色彩配置文件2.更新与合成相关的状态3.计划合成帧图层4.写入合成状态5.设置颜色矩阵6.开始帧7.准备帧数据以进行…...

罗马数字转整数 C++

罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如&#x…...

Day20_2--介绍同步加载和异步加载

同步加载和异步加载是处理程序或数据的两种不同方式,它们在处理任务的方式、效率和用户体验上有显著差异。下面是对这两种加载机制的详细介绍。 1. 同步加载(Synchronous Loading) 定义: 同步加载是一种加载数据或资源的方式&am…...

sftp做成一个池子

前言:开发中的需求要去对方的 ftp 服务器下载文件,这里下载文件采用 ftp 方式,下载之后程序再去解析文件的内容,然后再存数据库。下载过来的文件默认是 zip 格式,需要解压 unzip 一下,然后里面有一个 csv 文…...

全网最全-Netty从入门到精通

XiaoYongCai/2024/8/6 一:Netty入门 1.Netty概述 A.Netty的定义 Netty是一个提供异步事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。在Java领域,Netty被认为是除了Java原生NIO之外的最佳网络…...

C#知识|文件与目录操作:对象的创建、保存、读取

哈喽,你好啊,我是雷工! 面向对象编程的特点就是一切皆对象,操作的也是对象,本节学习文件与目录操作中,对象的保存; 以下为学习笔记。 01 对象的特点 ①:对象运行在内存中&#xff…...

自定义 SwiftUI 中符号图像的外观

文章目录 前言大小颜色渲染模式单色分层调色板多色 可变值设计变体示例代码结论 前言 符号图像是来自 Apple的SF Symbols 库的矢量图标,设计用于在 Apple 平台上使用。这些可缩放的图像适应不同的大小和重量,确保在我们的应用程序中具有一致的高质量图标…...

循环神经网络和自然语言处理一

目录 一.分词 1.分词工具 2.分词的方法 3.N-gram表示方法 二.向量化 1.one-hot编码 2.word embedding 3.word embedding API 4.数据形状改变 既然是自然语言,那么就有字,词,句了 一.分词 1.分词工具 tokenization,jie…...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...

XCTF-web-easyupload

试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

python/java环境配置

环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...

三体问题详解

从物理学角度,三体问题之所以不稳定,是因为三个天体在万有引力作用下相互作用,形成一个非线性耦合系统。我们可以从牛顿经典力学出发,列出具体的运动方程,并说明为何这个系统本质上是混沌的,无法得到一般解…...

C++ 求圆面积的程序(Program to find area of a circle)

给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面,避免重复抓取,以节省资源和时间。 在分布式环境下,增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路:将增量判…...

【C++特殊工具与技术】优化内存分配(一):C++中的内存分配

目录 一、C 内存的基本概念​ 1.1 内存的物理与逻辑结构​ 1.2 C 程序的内存区域划分​ 二、栈内存分配​ 2.1 栈内存的特点​ 2.2 栈内存分配示例​ 三、堆内存分配​ 3.1 new和delete操作符​ 4.2 内存泄漏与悬空指针问题​ 4.3 new和delete的重载​ 四、智能指针…...