从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化
在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP、HDP 为主。然而,由于国际形势的转变,以海外大数据基础平台作为基石构建的数据中台面临着极为严峻的安全挑战。
● Cloudera 和 Hortonworks 产品开启付费订阅模式
自2021年1月31日起,Cloudera 旗下的所有软件不再提供社区版,转而采用需付费的订阅模式,并且订阅费用颇高。
● 企业版停止更新和服务
Cloudera 和 Hortonworks 合并后,推出的新平台 CDP 是 CDH 和 HDP 的最后版本,企业用户无法获取新功能和性能提升,并且2022年3月后停止售后支持。
● 国际事件导致的供应中断风险
如俄乌事件,Oracle、Google、苹果、英特尔等公司相继停止对俄业务,进一步暴露外国软件供应链的脆弱性和风险。
面对复杂多变的国际局势,我国陆续推出相应政策推动信创产业发展。比如国资委就要求,从23年初开始,每个季度要上报信创系统的替换进度。并要求在2027年底前,实现中央企业的信息化系统国产化替代。
因此,无论是因为 CDH 不再维护,还是为了实现国产化替代,或者是为了追求更高的性能和安全性,大数据集群迁移的需求都愈发迫切。
EasyMR 作为一款领先的大数据存储计算平台,深刻理解企业在集群迁移过程中面临的挑战和痛点,其 EasyManager 大数据运维管理平台推出了功能强大的「集群迁移」模块,为企业提供一站式的集群迁移解决方案,助力企业在确保数据安全和完整性的同时,轻松高效地完成集群迁移工作。
多集群配置支持:一站式管理
支持多种大数据平台的集群配置,包括 EMR、CDH、CDP、HDP 和 NDH。无论企业当前使用的是哪种平台,将要迁往哪种平台,EasyManager 都能无缝兼容,为企业提供灵活的迁移选择。
这种多集群配置支持,不仅简化了迁移操作,还提高了企业的灵活性,让企业能够根据实际业务需求,选择最合适的大数据平台。
集群跨域互信检测
集群迁移中源集群与目标集群可能分布在不同的物理位置或不同的网络环境中,甚至跨越不同的企业和组织。在这种复杂的环境下,确保集群之间的互信是保障数据安全和稳定运行的前提。
跨域互信检测的主要目的是:
· 确保集群间的安全通信:防止未经授权的访问和数据泄露
· 验证集群间的身份认证:确保只有可信的集群才能进行数据交换和协同计算
· 保障数据完整性和一致性:防止数据在传输过程中被篡改或丢失
迁移调度策略:灵活的任务控制
在集群迁移过程中,合理的任务调度和并发控制至关重要。EasyMR 提供了配置迁移调度策略的功能,允许企业根据自身的业务需求和资源状况,灵活地设定迁移任务的网络带宽和并发度。
通过灵活调度策略设定,企业可以最大化地利用现有网络、计算资源,确保迁移过程高效、有序地进行。同时,任务并发控制功能还能有效防止系统过载,保障系统的稳定运行。
数据一致性校验:保障数据准确性
在大数据集群迁移过程中,数据一致性校验是确保数据完整性和准确性的关键步骤。EasyMR 针对数据一致性校验提供了一整套详细而强大的功能,帮助企业在迁移过程中保证数据的准确性和一致性。
● Schema 采集和表结构对比
· Schema 采集
Schema 采集是指从源集群和目标集群中提取数据库的结构信息,包括表名、字段名、字段类型、索引、约束等。这些信息是进行表结构对比的基础。
· 表结构对比
在迁移过程中,对比源集群和目标集群的表结构是确保数据一致性的第一步。表结构对比包括以下几个方面:
1)字段数量对比:确保源表和目标表的字段数量一致
2)字段名称和类型对比:确保字段名称和数据类型一致,避免因类型不匹配导致的数据错误
3)索引和约束对比:确保索引和约束在迁移后保持一致,保证数据操作的效率和安全性
● 记录数采集和记录数对比
· 记录数采集
记录数采集是指统计源集群和目标集群中各表的记录数量,记录数的对比可以快速检测出是否有数据丢失或重复。
· 记录数对比
记录数对比主要是对比源表和目标表中的记录数量是否一致。记录数不一致可能表明数据在迁移过程中丢失或重复,需要进一步的检查和处理。
● 数值 SUM 采集和数值字段对比
· 数值 SUM 采集
数值 SUM 采集是对源集群和目标集群中所有数值类型的字段进行求和操作。通过 SUM值 的对比,可以检查出数值数据的一致性。
· 数值字段对比
数值字段对比是对比源表和目标表中数值字段的 SUM 值,确保数值数据在迁移后的总和一致。这可以有效地发现数值数据在迁移过程中可能发生的偏差和错误。
● 字符 Max 采集和字符字段对比
· 字符 Max 采集
字符 Max 采集是指对源集群和目标集群中所有字符类型的字段进行最大值的提取,通过 Max 值的对比,可以检查出字符数据的一致性。
· 字符字段对比
字符字段对比是对比源表和目标表中字符字段的 Max 值,确保字符数据在迁移后的最大值一致。这可以有效地发现字符数据在迁移过程中可能发生的错误和遗漏。
● 抽样采集和 MD5 对比
· 抽样采集
从源集群和目标集群中随机抽取一定数量的数据样本进行对比。抽样采集可以提高数据对比的效率,减少全量对比的时间和资源消耗。
· MD5 对比
通过对源集群和目标集群中的数据进行 MD5 哈希计算,将哈希值进行对比,确保数据的一致性。
实时监控与日志定位
为了帮助用户及时了解迁移进度和处理迁移过程中出现的问题,EasyMR 提供了详细的页面查看和日志记录功能。
● 迁移任务状态查看
用户可以在页面上实时查看迁移任务的状态,了解迁移进度和结果。
● 迁移日志记录和分析
系统会记录迁移过程中的详细日志,用户可以通过日志定位和解决迁移过程中出现的问题,确保迁移任务顺利完成。
总结
EasyMR 为企业提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务,同时支持一站式迁移解决方案。迁移流程产品化不仅简化了操作,还提升了迁移效率和安全性。无论是数据存储与管理,还是任务调度与控制,EasyMR 都能为企业提供全面支持。
特别是在集群国产化替代方面,EasyMR 通过优化的迁移流程和强大的技术支持,帮助企业顺利完成从现有环境到 EasyMR 国产环境的迁移,实现大数据集群的平稳过渡和国产化适配。 《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn
相关文章:

从困境到突破,EasyMR 集群迁移助力大数据底座信创国产化
在大数据时代,企业对数据的依赖程度越来越高。然而,随着业务的不断发展和技术的快速迭代,大数据平台的集群迁移已成为企业数据中台发展途中无法回避的需求。在大数据平台发展初期,国内数据中台市场主要以国外开源 CDH、商业化 CDP…...
【Mysql】第十二章 视图特性(概念+使用)
文章目录 一、概念二、使用1.创建视图2.修改视图会影响基表3.修改基表会影响视图4.删除视图 一、概念 视图不能添加索引,也不能有关联的触发器或者默认值。由于视图和基表用的本质是同一份数据,因此对视图的修改会影响到基表,对基表的修改也…...

【颠覆数据处理的利器】全面解读Apache Flink实时大数据处理的引擎-上篇
什么是 Apache Flink? Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。 如何理解无界和有界数据? 无界数据&#…...

【C++】C++11(可变参数模板、lambda表达式、包装器)
文章目录 1. 可变参数模板1.1 介绍1.2 emplace系列接口实现 2. lambda表达式2.1 语法介绍2.2 原理 3. 包装器4. bind 1. 可变参数模板 1.1 介绍 可变参数我们在C语言阶段已经了解过了,C语言中叫做可变参数列表,其中使用 ... 代表可变参数。 C语言中的可…...

矩阵获客时代,云微客让你一个人成就一支队伍
短视频利用大家碎片化的时间让自身得到广泛的应用和发展,因此很多公司纷纷布局短视频赛道。但是一个账号的曝光量有限,并且能够出的爆款视频更是少之又少,这个时候就需要增加账号的数量,布局形成账号矩阵。 做账号矩阵,…...

浅谈基础的图算法——Tarjan求强联通分量算法(c++)
文章目录 强联通分量SCC概念例子有向图的DFS树代码例题讲解[POI2008] BLO-Blockade题面翻译题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 思路AC代码 【模板】割点(割顶)题目背景题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示…...

【Godot4自学手册】第四十四节用着色器(shader)实现溶解效果
本小节,我将自学用用着色器(shader)实现溶解效果,最终效果如下: 一、进行shader初始设置 首先我们进入Player场景,选择AnimatedSprite2D节点,在检查器中找到CanvasItem属性,并在M…...

【画流程图工具】
画流程图工具 draw.io draw.io(现称为 diagrams.net)是一款在线图表绘制工具,可以用于创建各种类型的图表,如流程图、网络图、组织结构图、UML图、思维导图等。以下是关于它的一些优点、应用场景及使用方法: 优点&a…...

Revit二次开发选择过滤器,SelectionFilter
过滤器分为选择过滤器与规则过滤器 规则过滤器可以看我之前写的这一篇文章: Revit二次开发在项目中给链接模型附加过滤器 选择过滤器顾名思义就是可以将选择的构件ID集合传入并加入到视图过滤器中,有一些场景需要对某些构件进行过滤选择,但是没有共同的逻辑规则进行筛选的情况…...

【Linux】进程概念—环境变量
目录 一、冯诺依曼体系结构 二、操作系统(Operator System) 1 .概念 2 .设计OS的目的 3 . 定位 4 . 系统调用和库函数概念 三、进程 1 .基本概念 2 .描述进程-PCB(process control block)进程控制块 3 . 组织进程 4 . 查看进程 5 .通过系统调用获取进程…...
第十二章 Spring MVC 框架扩展和SSM框架整合(2023版本IDEA)
学习目标 12.1 Spring MVC 框架处理JSON数据12.1.1 JSON数据的传递处理12.1.2 JSON数据传递过程中的中文乱码和日期问题12.1.3 多视图解析器 12.2 Spring MVC 框架中的数据格式转换12.2.1 Spring MVC 框架数据转换流程12.2.2 编写自定义转换器12.2.3 使用InitBinder装配自定义编…...
js中的全局函数有这些
js中的全局函数有这些,记忆规则 6个编译 escape、unescape、decodeURI、decodeURIComponent、encodeURI、encodeURIComponent 2个数据处理 Number()、String() 4个数字处理 isFinite、isNaN、parseFloat、parseInt 1个特殊情况 eval()...
Android SurfaceFlinger——重绘闪烁处理(四十六)
在帧数据准备完成后,下一步是调用 devOptRepaintFlash() 函数处理显示输出设备的可选重绘闪烁问题,这里我们就来看一下重绘闪屏问题的处理方案。 1.更新输出设备的色彩配置文件2.更新与合成相关的状态3.计划合成帧图层4.写入合成状态5.设置颜色矩阵6.开始帧7.准备帧数据以进行…...
罗马数字转整数 C++
罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。 字符 数值 I 1 V 5 X 10 L 50 C 100 D 500 M 1000 例如&#x…...
Day20_2--介绍同步加载和异步加载
同步加载和异步加载是处理程序或数据的两种不同方式,它们在处理任务的方式、效率和用户体验上有显著差异。下面是对这两种加载机制的详细介绍。 1. 同步加载(Synchronous Loading) 定义: 同步加载是一种加载数据或资源的方式&am…...
sftp做成一个池子
前言:开发中的需求要去对方的 ftp 服务器下载文件,这里下载文件采用 ftp 方式,下载之后程序再去解析文件的内容,然后再存数据库。下载过来的文件默认是 zip 格式,需要解压 unzip 一下,然后里面有一个 csv 文…...
全网最全-Netty从入门到精通
XiaoYongCai/2024/8/6 一:Netty入门 1.Netty概述 A.Netty的定义 Netty是一个提供异步事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务器和客户端程序。在Java领域,Netty被认为是除了Java原生NIO之外的最佳网络…...

C#知识|文件与目录操作:对象的创建、保存、读取
哈喽,你好啊,我是雷工! 面向对象编程的特点就是一切皆对象,操作的也是对象,本节学习文件与目录操作中,对象的保存; 以下为学习笔记。 01 对象的特点 ①:对象运行在内存中ÿ…...

自定义 SwiftUI 中符号图像的外观
文章目录 前言大小颜色渲染模式单色分层调色板多色 可变值设计变体示例代码结论 前言 符号图像是来自 Apple的SF Symbols 库的矢量图标,设计用于在 Apple 平台上使用。这些可缩放的图像适应不同的大小和重量,确保在我们的应用程序中具有一致的高质量图标…...

循环神经网络和自然语言处理一
目录 一.分词 1.分词工具 2.分词的方法 3.N-gram表示方法 二.向量化 1.one-hot编码 2.word embedding 3.word embedding API 4.数据形状改变 既然是自然语言,那么就有字,词,句了 一.分词 1.分词工具 tokenization,jie…...

vue3+vite项目中使用.env文件环境变量方法
vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量,这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

使用 SymPy 进行向量和矩阵的高级操作
在科学计算和工程领域,向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能,能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作,并通过具体…...
蓝桥杯 冶炼金属
原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述 小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V,是一个正整数,表示每 V V V 个普通金属 O O O 可以冶炼出 …...

用机器学习破解新能源领域的“弃风”难题
音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...
Spring是如何解决Bean的循环依赖:三级缓存机制
1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间互相持有对方引用,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...

TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?
在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...
go 里面的指针
指针 在 Go 中,指针(pointer)是一个变量的内存地址,就像 C 语言那样: a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10,通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...

tauri项目,如何在rust端读取电脑环境变量
如果想在前端通过调用来获取环境变量的值,可以通过标准的依赖: std::env::var(name).ok() 想在前端通过调用来获取,可以写一个command函数: #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...
Leetcode33( 搜索旋转排序数组)
题目表述 整数数组 nums 按升序排列,数组中的值 互不相同 。 在传递给函数之前,nums 在预先未知的某个下标 k(0 < k < nums.length)上进行了 旋转,使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

若依登录用户名和密码加密
/*** 获取公钥:前端用来密码加密* return*/GetMapping("/getPublicKey")public RSAUtil.RSAKeyPair getPublicKey() {return RSAUtil.rsaKeyPair();}新建RSAUti.Java package com.ruoyi.common.utils;import org.apache.commons.codec.binary.Base64; im…...