如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离,以确保数据生产的可靠性、可用性和安全性。具体到真实的企业环境,生产域的规划则更为复杂。
本文聚焦独立生产域的规划与新建,分享标准流程和注意事项。

为什么应该关注新建数据生产域?
企业在发展过程中,出于业务扩张、安全合规、组织调整等要求,常需要对现有的大数据平台进行独立的生产域规划,来匹配新涌现的数据需求。
举几个例子:
1. 业务快速扩张,数据生产域能否同步快速复制?
业务的快速复制是企业规模化扩张的常见做法。相对应的,大数据平台也要提供出足够的数据空间,以便这些业务投入使用。譬如,制造企业在某地建厂有成熟实践后,随后新建的各地工厂同样需要新建的数据生产域,工厂之间的数据作业互不影响。
2. 安全合规要求,能否确保独立的数据隔离和管理?
企业在开展跨境业务时,需遵守业务所在地的数据安全相关法律法规,且各地数据不允许无原则地传输交换。因此企业需创建多个物理隔离、数据独立的生产域,确保在当地的数据业务安全合规。在国内,对上市公司的财务数据往往也有数据独立管理的合规要求,也就意味着财务应有独立的数据生产域。
3. 匹配组织架构,各业态能否互不干扰、独立运营?
旗下有多个子公司、子品牌及业态的大型集团企业,必须在大数据平台分别设立多个独立的数据生产域,同时,也便于集团层面对每个子公司完成独立的数据成本核算。
在上述场景中必须注意的是,一个又一个的数据生产域代表着安全、隔离、稳定,但并不意味着重新建起了数据孤岛。
以“既隔离又统一”的集团数据云服务为例,集团大数据平台统一为各子公司、子品牌(独立数据生产域)提供存算资源、运维服务及安全保障,并保留对全集团数据资产分析洞察的能力。技术更为成熟的大数据平台,还应支持在合规前提下的“复用”,例如,支持复制标准空间的数据业务逻辑到新的空间中,以跟上业务快速扩张的节奏,避免一次又一次从头重建。
5步走,搞定新建数据生产域的规划
奇点云数据云平台DataSimba具备跨云多域多租户能力。依托DataSimba,企业可以统一建设并管理全域数据资产,也可以创建多个Workspace(工作空间,即独立的数据生产域),来完成多云、多品牌、多业态等管理需求。
DataSimba的权限管控体系有序、灵活、精细化,租户可以在一个Workspace下建立自己的Project(项目)并进行权限划分,也可以在不同Workspace建立不同的项目。一个Workspace中可以有多个租户建立项目,也可以被一个租户独占。
在数据云平台DataSimba中,规划并创建一个新的Workspace可归纳为以下5个环节:
1. 大数据集群评估
1.1 整体调研:调研企业业务和数据现状
确认业务整体目标以及业务范围;探查数据现状,明确数据分布及数据流向;IT系统调研,调研企业IT基础设施的现状;组织架构调研,了解企业整体组织架构。
1.2 资源评估:评估出需要的资源总量
通过调研的数据情况,估算未来数年整体的数据量;基于整体业务未来发展情况,估算整体任务数量。
1.3 组件评估:基于调研的业务场景,进行组件选型,满足业务的需求。
2. Account规划
Account(账号)指租户账号,此账号会绑定若干User(用户子账号),每个子账号可以被分配不同的Role(角色),每个角色可以控制能访问的功能权限。同时,每个子账号可以进行数据权限的绑定。
具体步骤包括:基于组织架构调研,明确需要建立子账号的用户;基于用户的职位职责,规划出不同的角色和所需要的功能权限;根据企业的数据安全要求,规划数据权限的设定;最后,Account与资源节点对应绑定。
3. Project规划
Project(项目)是一种对任务、作业、数据逻辑上的管理单位。
首先根据企业业务情况,选择适合的划分维度进行Project规划。划分完毕后,将上述Account相关的用户分配到对应的Project中。
规划Project的常见维度如下:
· 环境用途维度:例如开发环境、测试环境、预发环境、正式环境等。从经济性角度出发,通常分为开发环境、正式环境。
· 业务领域维度:例如订单域,财务域等。
· 组织架构维度:例如生产部门、市场运营部门、电商部门等。
· 地理位置维度:根据业务所在的地理位置划分,例如欧洲、北美洲等。
4. Quota规划
Quota(配额)指对不同用户或部门使用资源(如CPU、内存、GPU等)的分配及限制。
结合上述规划的资源和项目,可以开始进行Quota规划,通常遵循以下原则:
· 业务优先原则:重要的业务空间具有更高的配额,以确保任务能有效执行完毕。
· 资源利用率原则:在不影响业务使用的前提下,可以尽可能使用Quota共享的方式来提升资源利用率。
结合上述原则和业务场景,判断高优先级的业务。在确保高优先级业务有效执行的前提下,配置Quota。随后判断中优先级的业务,可以根据实际业务要求选择和低优先级的业务共同使用一个Quota。规划好Quota后,分配给对应的Project使用。
5. 任务和数据迁移
上述环节规划完毕后,开始正式迁移相关的任务以及数据。

DataSimba内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba。
此外,DataSimba提供完备工具,将现有Workspace的数据业务逻辑完整复制到新的Workspace中,以满足快速新建、复制独立生产域的需求。
写在最后:创建数据生产域,就是创建对象体系的实例
数据云平台DataSimba底层为数据云操作系统内核(SimbaOS Kernel)。内核将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块。这组标准对象加上对象之间的关联关系,能几乎满足所有业务场景的需要。

如上图所示,Workspace(工作空间)、Account(账号)、Project(项目)、User(子账号)等均为“对象”,在DataSimba创建数据生产域,也就是创建对象体系的实例:
- 创建Account实例,并关联Workspace;
- 选择并创建Project实例;
- 创建对应Quota实例;
- 最后进行数据迁移,并创建Task(任务)、Job(作业)等实例。
通过创建对象体系(的实例)的方式来构建数据生产域,更有利于:
· 封装底层技术,提高易用性:以Project(项目)为例,数据云平台用户(工程师)只需通过该对象创建项目,完成对项目的各种修改,无需关注底层技术细节;
· 提高系统的可维护性:单个对象调整对整体影响小,例如Workspace(工作空间)这一对象需要支持新的特性,只需要对该对象改动,不会影响其他对象及关系。
相关文章:
如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离ÿ…...
工程车云管家|叉车智能管家安卓主板方案
工程车云管家是一款功能强大的设备管理和调度系统,它可以实时追踪工程车或机械设备的地理位置、视频、行驶轨迹、油位油耗、工作时长和地点、以及运行状况等信息,并将这些数据通过云平台存储、分析,并发送到管理者的手机上。这使得管理者能够…...
大数据学习之Spark性能优化
文章目录 Spark三种任务提交模式宽依赖和窄依赖StageSpark Job的三种提交模式 Shuffle机制分析未优化的Hash Based Shuffle优化后的Hash Based ShuffleSort-Based Shuffle Spark之checkpointcheckpoint概述checkpoint与持久化的区别checkPoint的使用checkpoint源码分析 Spark程…...
个人服务器到期,项目下线,新的开始
告别旧服务器 2023.11.06服务器到期,所有项目正式下线 时间真的过的很快,从开始踏入编程的大门,到现在不知不觉已经陆续经手了两台服务器了,目前这台服务器是一年前的阿里云活动白嫖的嘿嘿嘿,该服务器上目前运行的项…...
arcgis 网络分析 生成可达范围/等时线
需求:生成从地铁站步行10分钟可达的范围面图层。 线图层预处理 在精度要求不是很高的情况下,可采用OSM路网,从中剔除不允许步行的道路类型:高速公路、快速路。 在路网图层中新增一个字段“步行时间”,用字段计算器&…...
npm切换镜像源
一,切换 npm 镜像源 npm 存储包文件的服务器在国外,速度很慢,所以我们需要解决这个问题。 国内淘宝的开发团队把 npm 在国内做了一个备份,网址是:http://npm.taobao.org/。 # 查看当前的源 npm config ls # 在上面命令…...
Python简单学习
Python List # python 列表可以加入所有类型 如列表,字典,数字,字符串等bicycles [trek, cannondale, redline, specialized] print(bicycles)# 访问列表元素,使用索引 print(bicycles[0])# 访问最后一个元素下标-1. 以此类推 p…...
2000-2021年全国各省资本存量测算数据(含原始数据+测算过程+计算结果)
2000-2021年全国各省资本存量测算数据(含原始数据测算过程计算结果) 1、时间:2000-2021年(以2000年为基期) 2、范围:30个省市(不含西藏) 3、指标:固定资产形成总额、固…...
Vue.js 中的异步组件是什么?
在 Vue.js 中,异步组件是一种延迟加载组件的方式。允许将组件的加载推迟到组件真正需要被渲染时再进行,而不是在初始化时立即加载所有组件。 通过使用异步组件,可以提高应用的初始加载速度,尤其是当应用包含大量组件时。只有当组…...
Luckysheet 实现excel多人在线协同编辑
前言 前些天看到Luckysheet支持协同编辑Excel,正符合我们协同项目的一部分,故而想进一步完善协同文章,但是遇到了一下困难,特此做声明哈,若侵权,请联系我删除文章! 若侵犯版权、个人隐私&#x…...
C++线程库的基本使用(初级)
#include<iostream> #include<thread> #include<string> void printHelloWorld(std::string msg) {std::cout << msg<< std::endl;return; } int main() {std::thread threadl(printHelloWorld,"Hello Thread");//第一个参数是函数名&…...
2023最新版JavaSE教程——第1天:Java语言概述
目录 一、抽丝剥茧话Java1.1 当前大学生就业形势1.2 IT互联网是否依旧靠谱1.3 IT行业岗位分析1.4 软件开发之Java开发1.5 到底多少人在用Java 二、计算机的硬件与软件2.1 计算机组成:硬件软件2.2 CPU、内存与硬盘2.3 输入设备:键盘输入 三、软件相关介绍…...
PTL货位指引标签为仓储管理打开新思路
PTL货位指引标签是一种新型的仓储管理技术,它通过LED灯光指引和数字显示,为仓库管理带来了全新的管理思路和效率提升,成为现代物流仓库管理中的重要工具。 首先,PTL货位指引标签为仓储管理业务带来了管理新思路。传统的仓库管理中…...
IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Maven核心概念
一.Maven的POM POM全称:Project Object Model【项目对象模型】,将项目封装为对象模型,便于使用Maven管理【构建】项目 pom.xml常用标签 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://m…...
Unity的粒子总是丢材质
1)Unity的粒子总是丢材质 2)C#传给C的Byte数组如何释放 3)CommandBuffer.DrawProcedural在手机上为什么不生效 4)游戏加载场景碰撞,会弹出显卡报错,驱动程序超时 这是第359篇UWA技术知识分享的推送…...
P5906 【模板】回滚莫队不删除莫队
这一题,虽说在洛谷标的是模板题,但可能没有“历史研究”那一题更加模板。 这一题相对于回滚莫队的模板题,可能在回滚的处理上稍微复杂了一点。对于回滚莫队就不多解释了,可以看一下 回滚莫队模板题 这一篇博客,稍微简单…...
1. Collection,List, Map, Queue
1. java集合框架体系结构图 2. Collection派生的子接口 其中最重要的子接口是: 1)List 表示有序可重复列表,重要的实现类有:ArrayList, LinkedList ArrayList特点:底层数组实现,随机查找快,增删…...
rabbitmq 交换机相关实例代码
1.扇形交换机 定义扇形交换机和队列 package com.macro.mall.portal.config;import org.springframework.amqp.core.Binding; import org.springframework.amqp.core.BindingBuilder; import org.springframework.amqp.core.FanoutExchange; import org.springframework.amqp.…...
第四章IDEA操作Maven
文章目录 创建父工程开启自动导入配置Maven信息创建Java模块工程创建 Web 模块工程 在IDEA中执行Maven命令直接执行手动输入 在IDEA中查看某个模块的依赖信息工程导入来自版本控制系统来自工程目录 模块导入情景重现导入 Java 类型模块 导入 Web 类型模块 创建父工程 开启自动导…...
Go语言函数签名和匿名函数
函数签名 函数类型又叫做函数签名,一个函数的类型就是函数定义首行去掉函数名、参数名和{},可以用fmt.Printf的“%T”格式化参数打印函数的类型。 两个函数类型相同的条件是:拥有相同的形参列表和返回值列表,形参名可以不同。 ty…...
使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
DIY|Mac 搭建 ESP-IDF 开发环境及编译小智 AI
前一阵子在百度 AI 开发者大会上,看到基于小智 AI DIY 玩具的演示,感觉有点意思,想着自己也来试试。 如果只是想烧录现成的固件,乐鑫官方除了提供了 Windows 版本的 Flash 下载工具 之外,还提供了基于网页版的 ESP LA…...
【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)
升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求ÿ…...
微信小程序云开发平台MySQL的连接方式
注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...
【JavaWeb】Docker项目部署
引言 之前学习了Linux操作系统的常见命令,在Linux上安装软件,以及如何在Linux上部署一个单体项目,大多数同学都会有相同的感受,那就是麻烦。 核心体现在三点: 命令太多了,记不住 软件安装包名字复杂&…...
Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...
基于TurtleBot3在Gazebo地图实现机器人远程控制
1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...
