如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离,以确保数据生产的可靠性、可用性和安全性。具体到真实的企业环境,生产域的规划则更为复杂。
本文聚焦独立生产域的规划与新建,分享标准流程和注意事项。
为什么应该关注新建数据生产域?
企业在发展过程中,出于业务扩张、安全合规、组织调整等要求,常需要对现有的大数据平台进行独立的生产域规划,来匹配新涌现的数据需求。
举几个例子:
1. 业务快速扩张,数据生产域能否同步快速复制?
业务的快速复制是企业规模化扩张的常见做法。相对应的,大数据平台也要提供出足够的数据空间,以便这些业务投入使用。譬如,制造企业在某地建厂有成熟实践后,随后新建的各地工厂同样需要新建的数据生产域,工厂之间的数据作业互不影响。
2. 安全合规要求,能否确保独立的数据隔离和管理?
企业在开展跨境业务时,需遵守业务所在地的数据安全相关法律法规,且各地数据不允许无原则地传输交换。因此企业需创建多个物理隔离、数据独立的生产域,确保在当地的数据业务安全合规。在国内,对上市公司的财务数据往往也有数据独立管理的合规要求,也就意味着财务应有独立的数据生产域。
3. 匹配组织架构,各业态能否互不干扰、独立运营?
旗下有多个子公司、子品牌及业态的大型集团企业,必须在大数据平台分别设立多个独立的数据生产域,同时,也便于集团层面对每个子公司完成独立的数据成本核算。
在上述场景中必须注意的是,一个又一个的数据生产域代表着安全、隔离、稳定,但并不意味着重新建起了数据孤岛。
以“既隔离又统一”的集团数据云服务为例,集团大数据平台统一为各子公司、子品牌(独立数据生产域)提供存算资源、运维服务及安全保障,并保留对全集团数据资产分析洞察的能力。技术更为成熟的大数据平台,还应支持在合规前提下的“复用”,例如,支持复制标准空间的数据业务逻辑到新的空间中,以跟上业务快速扩张的节奏,避免一次又一次从头重建。
5步走,搞定新建数据生产域的规划
奇点云数据云平台DataSimba具备跨云多域多租户能力。依托DataSimba,企业可以统一建设并管理全域数据资产,也可以创建多个Workspace(工作空间,即独立的数据生产域),来完成多云、多品牌、多业态等管理需求。
DataSimba的权限管控体系有序、灵活、精细化,租户可以在一个Workspace下建立自己的Project(项目)并进行权限划分,也可以在不同Workspace建立不同的项目。一个Workspace中可以有多个租户建立项目,也可以被一个租户独占。
在数据云平台DataSimba中,规划并创建一个新的Workspace可归纳为以下5个环节:
1. 大数据集群评估
1.1 整体调研:调研企业业务和数据现状
确认业务整体目标以及业务范围;探查数据现状,明确数据分布及数据流向;IT系统调研,调研企业IT基础设施的现状;组织架构调研,了解企业整体组织架构。
1.2 资源评估:评估出需要的资源总量
通过调研的数据情况,估算未来数年整体的数据量;基于整体业务未来发展情况,估算整体任务数量。
1.3 组件评估:基于调研的业务场景,进行组件选型,满足业务的需求。
2. Account规划
Account(账号)指租户账号,此账号会绑定若干User(用户子账号),每个子账号可以被分配不同的Role(角色),每个角色可以控制能访问的功能权限。同时,每个子账号可以进行数据权限的绑定。
具体步骤包括:基于组织架构调研,明确需要建立子账号的用户;基于用户的职位职责,规划出不同的角色和所需要的功能权限;根据企业的数据安全要求,规划数据权限的设定;最后,Account与资源节点对应绑定。
3. Project规划
Project(项目)是一种对任务、作业、数据逻辑上的管理单位。
首先根据企业业务情况,选择适合的划分维度进行Project规划。划分完毕后,将上述Account相关的用户分配到对应的Project中。
规划Project的常见维度如下:
· 环境用途维度:例如开发环境、测试环境、预发环境、正式环境等。从经济性角度出发,通常分为开发环境、正式环境。
· 业务领域维度:例如订单域,财务域等。
· 组织架构维度:例如生产部门、市场运营部门、电商部门等。
· 地理位置维度:根据业务所在的地理位置划分,例如欧洲、北美洲等。
4. Quota规划
Quota(配额)指对不同用户或部门使用资源(如CPU、内存、GPU等)的分配及限制。
结合上述规划的资源和项目,可以开始进行Quota规划,通常遵循以下原则:
· 业务优先原则:重要的业务空间具有更高的配额,以确保任务能有效执行完毕。
· 资源利用率原则:在不影响业务使用的前提下,可以尽可能使用Quota共享的方式来提升资源利用率。
结合上述原则和业务场景,判断高优先级的业务。在确保高优先级业务有效执行的前提下,配置Quota。随后判断中优先级的业务,可以根据实际业务要求选择和低优先级的业务共同使用一个Quota。规划好Quota后,分配给对应的Project使用。
5. 任务和数据迁移
上述环节规划完毕后,开始正式迁移相关的任务以及数据。
DataSimba内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba。
此外,DataSimba提供完备工具,将现有Workspace的数据业务逻辑完整复制到新的Workspace中,以满足快速新建、复制独立生产域的需求。
写在最后:创建数据生产域,就是创建对象体系的实例
数据云平台DataSimba底层为数据云操作系统内核(SimbaOS Kernel)。内核将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块。这组标准对象加上对象之间的关联关系,能几乎满足所有业务场景的需要。
如上图所示,Workspace(工作空间)、Account(账号)、Project(项目)、User(子账号)等均为“对象”,在DataSimba创建数据生产域,也就是创建对象体系的实例:
- 创建Account实例,并关联Workspace;
- 选择并创建Project实例;
- 创建对应Quota实例;
- 最后进行数据迁移,并创建Task(任务)、Job(作业)等实例。
通过创建对象体系(的实例)的方式来构建数据生产域,更有利于:
· 封装底层技术,提高易用性:以Project(项目)为例,数据云平台用户(工程师)只需通过该对象创建项目,完成对项目的各种修改,无需关注底层技术细节;
· 提高系统的可维护性:单个对象调整对整体影响小,例如Workspace(工作空间)这一对象需要支持新的特性,只需要对该对象改动,不会影响其他对象及关系。
相关文章:

如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离ÿ…...

工程车云管家|叉车智能管家安卓主板方案
工程车云管家是一款功能强大的设备管理和调度系统,它可以实时追踪工程车或机械设备的地理位置、视频、行驶轨迹、油位油耗、工作时长和地点、以及运行状况等信息,并将这些数据通过云平台存储、分析,并发送到管理者的手机上。这使得管理者能够…...

大数据学习之Spark性能优化
文章目录 Spark三种任务提交模式宽依赖和窄依赖StageSpark Job的三种提交模式 Shuffle机制分析未优化的Hash Based Shuffle优化后的Hash Based ShuffleSort-Based Shuffle Spark之checkpointcheckpoint概述checkpoint与持久化的区别checkPoint的使用checkpoint源码分析 Spark程…...

个人服务器到期,项目下线,新的开始
告别旧服务器 2023.11.06服务器到期,所有项目正式下线 时间真的过的很快,从开始踏入编程的大门,到现在不知不觉已经陆续经手了两台服务器了,目前这台服务器是一年前的阿里云活动白嫖的嘿嘿嘿,该服务器上目前运行的项…...

arcgis 网络分析 生成可达范围/等时线
需求:生成从地铁站步行10分钟可达的范围面图层。 线图层预处理 在精度要求不是很高的情况下,可采用OSM路网,从中剔除不允许步行的道路类型:高速公路、快速路。 在路网图层中新增一个字段“步行时间”,用字段计算器&…...

npm切换镜像源
一,切换 npm 镜像源 npm 存储包文件的服务器在国外,速度很慢,所以我们需要解决这个问题。 国内淘宝的开发团队把 npm 在国内做了一个备份,网址是:http://npm.taobao.org/。 # 查看当前的源 npm config ls # 在上面命令…...

Python简单学习
Python List # python 列表可以加入所有类型 如列表,字典,数字,字符串等bicycles [trek, cannondale, redline, specialized] print(bicycles)# 访问列表元素,使用索引 print(bicycles[0])# 访问最后一个元素下标-1. 以此类推 p…...

2000-2021年全国各省资本存量测算数据(含原始数据+测算过程+计算结果)
2000-2021年全国各省资本存量测算数据(含原始数据测算过程计算结果) 1、时间:2000-2021年(以2000年为基期) 2、范围:30个省市(不含西藏) 3、指标:固定资产形成总额、固…...

Vue.js 中的异步组件是什么?
在 Vue.js 中,异步组件是一种延迟加载组件的方式。允许将组件的加载推迟到组件真正需要被渲染时再进行,而不是在初始化时立即加载所有组件。 通过使用异步组件,可以提高应用的初始加载速度,尤其是当应用包含大量组件时。只有当组…...

Luckysheet 实现excel多人在线协同编辑
前言 前些天看到Luckysheet支持协同编辑Excel,正符合我们协同项目的一部分,故而想进一步完善协同文章,但是遇到了一下困难,特此做声明哈,若侵权,请联系我删除文章! 若侵犯版权、个人隐私&#x…...

C++线程库的基本使用(初级)
#include<iostream> #include<thread> #include<string> void printHelloWorld(std::string msg) {std::cout << msg<< std::endl;return; } int main() {std::thread threadl(printHelloWorld,"Hello Thread");//第一个参数是函数名&…...

2023最新版JavaSE教程——第1天:Java语言概述
目录 一、抽丝剥茧话Java1.1 当前大学生就业形势1.2 IT互联网是否依旧靠谱1.3 IT行业岗位分析1.4 软件开发之Java开发1.5 到底多少人在用Java 二、计算机的硬件与软件2.1 计算机组成:硬件软件2.2 CPU、内存与硬盘2.3 输入设备:键盘输入 三、软件相关介绍…...

PTL货位指引标签为仓储管理打开新思路
PTL货位指引标签是一种新型的仓储管理技术,它通过LED灯光指引和数字显示,为仓库管理带来了全新的管理思路和效率提升,成为现代物流仓库管理中的重要工具。 首先,PTL货位指引标签为仓储管理业务带来了管理新思路。传统的仓库管理中…...

IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Maven核心概念
一.Maven的POM POM全称:Project Object Model【项目对象模型】,将项目封装为对象模型,便于使用Maven管理【构建】项目 pom.xml常用标签 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://m…...

Unity的粒子总是丢材质
1)Unity的粒子总是丢材质 2)C#传给C的Byte数组如何释放 3)CommandBuffer.DrawProcedural在手机上为什么不生效 4)游戏加载场景碰撞,会弹出显卡报错,驱动程序超时 这是第359篇UWA技术知识分享的推送…...

P5906 【模板】回滚莫队不删除莫队
这一题,虽说在洛谷标的是模板题,但可能没有“历史研究”那一题更加模板。 这一题相对于回滚莫队的模板题,可能在回滚的处理上稍微复杂了一点。对于回滚莫队就不多解释了,可以看一下 回滚莫队模板题 这一篇博客,稍微简单…...

1. Collection,List, Map, Queue
1. java集合框架体系结构图 2. Collection派生的子接口 其中最重要的子接口是: 1)List 表示有序可重复列表,重要的实现类有:ArrayList, LinkedList ArrayList特点:底层数组实现,随机查找快,增删…...

rabbitmq 交换机相关实例代码
1.扇形交换机 定义扇形交换机和队列 package com.macro.mall.portal.config;import org.springframework.amqp.core.Binding; import org.springframework.amqp.core.BindingBuilder; import org.springframework.amqp.core.FanoutExchange; import org.springframework.amqp.…...

第四章IDEA操作Maven
文章目录 创建父工程开启自动导入配置Maven信息创建Java模块工程创建 Web 模块工程 在IDEA中执行Maven命令直接执行手动输入 在IDEA中查看某个模块的依赖信息工程导入来自版本控制系统来自工程目录 模块导入情景重现导入 Java 类型模块 导入 Web 类型模块 创建父工程 开启自动导…...

Go语言函数签名和匿名函数
函数签名 函数类型又叫做函数签名,一个函数的类型就是函数定义首行去掉函数名、参数名和{},可以用fmt.Printf的“%T”格式化参数打印函数的类型。 两个函数类型相同的条件是:拥有相同的形参列表和返回值列表,形参名可以不同。 ty…...

Pytest系列(16)- 分布式测试插件之pytest-xdist的详细使用
前言 平常我们功能测试用例非常多时,比如有1千条用例,假设每个用例执行需要1分钟,如果单个测试人员执行需要1000分钟才能跑完当项目非常紧急时,会需要协调多个测试资源来把任务分成两部分,于是执行时间缩短一半&#…...

基于JavaWeb的网上销售系统设计与实现
项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问…...

wpf添加Halcon的窗口控件报错:下列控件已成功添加到工具箱中,但未在活动设计器中启用
报错截图如下: 注意一下新建工程的时候选择wpf应用而不是wpf应用程序。 添加成功的控件:...

antv/x6 自定义html节点并且支持动态更新节点内容
antv/x6 自定义html节点 效果图定义一个连接桩公共方法注册图形节点创建html节点动态更新节点内容 效果图 定义一个连接桩公共方法 const ports {groups: {top: {position: top,attrs: {circle: {r: 4,magnet: true,stroke: #cf1322,strokeWidth: 1,fill: #fff,style: {visib…...

设计模式之命令模式
阅读建议 嗨,伙计!刷到这篇文章咱们就是有缘人,在阅读这篇文章前我有一些建议: 本篇文章大概4000多字,阅读时间长可能需要4-5分钟,请结合示例耐心读完,绝对有收获。设计模式属于程序的设计思…...

Linux学习笔记--高级
Shell概述 1,shell概述 是一个c语言编写的脚本语言,是linux和用户的桥梁,用户输入命令交给shell处理。shell,将相应的操作传递给内核(kernel),内核把处理的结果输出给用户 1.1Shell解释器有哪…...

在Java中操作Redis
Redis中如何的去存放一个Java对象? 直接存放Json类型即可,因为我们Json类型最终就是一个String类型。 Redis的Java客户端 Redis的常用命令是我们操作Redis的基础,那么我们在Java程序当中如何来操作Redis呢? 要想基于Java语言…...

【服务器】fiber协程模块
fiber协程模块 以下是从sylar服务器中学的,对其的复习; sylar的fiber协程模块是基于ucontext_t实现非对称协程 函数只有两个行为:调用与返回。一旦函数返回后,它在栈上所拥有的状态将被销毁。协程相比函数多了两个动作…...

SparkML
SparkML SparkML_lr_train :读取py处理后的train表用于训练,将训练模型保存好。 SparkML_lr_predict :读取训练好的模型,读取py处理后的test表用于预测。将预测结果写入normal_data中,根据id修改stream_is_normal的值。…...

实时定位与路径优化:跑腿App系统开发中的地理信息技术
本文将介绍如何使用地理信息技术实现实时定位和路径优化功能,以提高跑腿服务的效率。 实时定位 用户位置获取 # 示例:获取用户的实时位置 def get_user_location(user_id):# 使用GPS或网络定位技术获取用户的地理坐标# 返回经度和纬度信息return lon…...