如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离,以确保数据生产的可靠性、可用性和安全性。具体到真实的企业环境,生产域的规划则更为复杂。
本文聚焦独立生产域的规划与新建,分享标准流程和注意事项。

为什么应该关注新建数据生产域?
企业在发展过程中,出于业务扩张、安全合规、组织调整等要求,常需要对现有的大数据平台进行独立的生产域规划,来匹配新涌现的数据需求。
举几个例子:
1. 业务快速扩张,数据生产域能否同步快速复制?
业务的快速复制是企业规模化扩张的常见做法。相对应的,大数据平台也要提供出足够的数据空间,以便这些业务投入使用。譬如,制造企业在某地建厂有成熟实践后,随后新建的各地工厂同样需要新建的数据生产域,工厂之间的数据作业互不影响。
2. 安全合规要求,能否确保独立的数据隔离和管理?
企业在开展跨境业务时,需遵守业务所在地的数据安全相关法律法规,且各地数据不允许无原则地传输交换。因此企业需创建多个物理隔离、数据独立的生产域,确保在当地的数据业务安全合规。在国内,对上市公司的财务数据往往也有数据独立管理的合规要求,也就意味着财务应有独立的数据生产域。
3. 匹配组织架构,各业态能否互不干扰、独立运营?
旗下有多个子公司、子品牌及业态的大型集团企业,必须在大数据平台分别设立多个独立的数据生产域,同时,也便于集团层面对每个子公司完成独立的数据成本核算。
在上述场景中必须注意的是,一个又一个的数据生产域代表着安全、隔离、稳定,但并不意味着重新建起了数据孤岛。
以“既隔离又统一”的集团数据云服务为例,集团大数据平台统一为各子公司、子品牌(独立数据生产域)提供存算资源、运维服务及安全保障,并保留对全集团数据资产分析洞察的能力。技术更为成熟的大数据平台,还应支持在合规前提下的“复用”,例如,支持复制标准空间的数据业务逻辑到新的空间中,以跟上业务快速扩张的节奏,避免一次又一次从头重建。
5步走,搞定新建数据生产域的规划
奇点云数据云平台DataSimba具备跨云多域多租户能力。依托DataSimba,企业可以统一建设并管理全域数据资产,也可以创建多个Workspace(工作空间,即独立的数据生产域),来完成多云、多品牌、多业态等管理需求。
DataSimba的权限管控体系有序、灵活、精细化,租户可以在一个Workspace下建立自己的Project(项目)并进行权限划分,也可以在不同Workspace建立不同的项目。一个Workspace中可以有多个租户建立项目,也可以被一个租户独占。
在数据云平台DataSimba中,规划并创建一个新的Workspace可归纳为以下5个环节:
1. 大数据集群评估
1.1 整体调研:调研企业业务和数据现状
确认业务整体目标以及业务范围;探查数据现状,明确数据分布及数据流向;IT系统调研,调研企业IT基础设施的现状;组织架构调研,了解企业整体组织架构。
1.2 资源评估:评估出需要的资源总量
通过调研的数据情况,估算未来数年整体的数据量;基于整体业务未来发展情况,估算整体任务数量。
1.3 组件评估:基于调研的业务场景,进行组件选型,满足业务的需求。
2. Account规划
Account(账号)指租户账号,此账号会绑定若干User(用户子账号),每个子账号可以被分配不同的Role(角色),每个角色可以控制能访问的功能权限。同时,每个子账号可以进行数据权限的绑定。
具体步骤包括:基于组织架构调研,明确需要建立子账号的用户;基于用户的职位职责,规划出不同的角色和所需要的功能权限;根据企业的数据安全要求,规划数据权限的设定;最后,Account与资源节点对应绑定。
3. Project规划
Project(项目)是一种对任务、作业、数据逻辑上的管理单位。
首先根据企业业务情况,选择适合的划分维度进行Project规划。划分完毕后,将上述Account相关的用户分配到对应的Project中。
规划Project的常见维度如下:
· 环境用途维度:例如开发环境、测试环境、预发环境、正式环境等。从经济性角度出发,通常分为开发环境、正式环境。
· 业务领域维度:例如订单域,财务域等。
· 组织架构维度:例如生产部门、市场运营部门、电商部门等。
· 地理位置维度:根据业务所在的地理位置划分,例如欧洲、北美洲等。
4. Quota规划
Quota(配额)指对不同用户或部门使用资源(如CPU、内存、GPU等)的分配及限制。
结合上述规划的资源和项目,可以开始进行Quota规划,通常遵循以下原则:
· 业务优先原则:重要的业务空间具有更高的配额,以确保任务能有效执行完毕。
· 资源利用率原则:在不影响业务使用的前提下,可以尽可能使用Quota共享的方式来提升资源利用率。
结合上述原则和业务场景,判断高优先级的业务。在确保高优先级业务有效执行的前提下,配置Quota。随后判断中优先级的业务,可以根据实际业务要求选择和低优先级的业务共同使用一个Quota。规划好Quota后,分配给对应的Project使用。
5. 任务和数据迁移
上述环节规划完毕后,开始正式迁移相关的任务以及数据。

DataSimba内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba。
此外,DataSimba提供完备工具,将现有Workspace的数据业务逻辑完整复制到新的Workspace中,以满足快速新建、复制独立生产域的需求。
写在最后:创建数据生产域,就是创建对象体系的实例
数据云平台DataSimba底层为数据云操作系统内核(SimbaOS Kernel)。内核将大数据领域的存储、计算、服务、调度、安全、租户等常用功能,抽象为一组标准对象模块。这组标准对象加上对象之间的关联关系,能几乎满足所有业务场景的需要。

如上图所示,Workspace(工作空间)、Account(账号)、Project(项目)、User(子账号)等均为“对象”,在DataSimba创建数据生产域,也就是创建对象体系的实例:
- 创建Account实例,并关联Workspace;
- 选择并创建Project实例;
- 创建对应Quota实例;
- 最后进行数据迁移,并创建Task(任务)、Job(作业)等实例。
通过创建对象体系(的实例)的方式来构建数据生产域,更有利于:
· 封装底层技术,提高易用性:以Project(项目)为例,数据云平台用户(工程师)只需通过该对象创建项目,完成对项目的各种修改,无需关注底层技术细节;
· 提高系统的可维护性:单个对象调整对整体影响小,例如Workspace(工作空间)这一对象需要支持新的特性,只需要对该对象改动,不会影响其他对象及关系。
相关文章:
如何规划并新建大数据平台的独立生产域?5步走
一般来说,大数据平台包括以下4类数据生产域——生产生态环境(正式生产环境)、开发和测试环境、培训和演示环境、灾备环境。各生产域在由平台提供资源、安全、监控、故障恢复等保障的同时,不同的生产域之间还需要严格隔离ÿ…...
工程车云管家|叉车智能管家安卓主板方案
工程车云管家是一款功能强大的设备管理和调度系统,它可以实时追踪工程车或机械设备的地理位置、视频、行驶轨迹、油位油耗、工作时长和地点、以及运行状况等信息,并将这些数据通过云平台存储、分析,并发送到管理者的手机上。这使得管理者能够…...
大数据学习之Spark性能优化
文章目录 Spark三种任务提交模式宽依赖和窄依赖StageSpark Job的三种提交模式 Shuffle机制分析未优化的Hash Based Shuffle优化后的Hash Based ShuffleSort-Based Shuffle Spark之checkpointcheckpoint概述checkpoint与持久化的区别checkPoint的使用checkpoint源码分析 Spark程…...
个人服务器到期,项目下线,新的开始
告别旧服务器 2023.11.06服务器到期,所有项目正式下线 时间真的过的很快,从开始踏入编程的大门,到现在不知不觉已经陆续经手了两台服务器了,目前这台服务器是一年前的阿里云活动白嫖的嘿嘿嘿,该服务器上目前运行的项…...
arcgis 网络分析 生成可达范围/等时线
需求:生成从地铁站步行10分钟可达的范围面图层。 线图层预处理 在精度要求不是很高的情况下,可采用OSM路网,从中剔除不允许步行的道路类型:高速公路、快速路。 在路网图层中新增一个字段“步行时间”,用字段计算器&…...
npm切换镜像源
一,切换 npm 镜像源 npm 存储包文件的服务器在国外,速度很慢,所以我们需要解决这个问题。 国内淘宝的开发团队把 npm 在国内做了一个备份,网址是:http://npm.taobao.org/。 # 查看当前的源 npm config ls # 在上面命令…...
Python简单学习
Python List # python 列表可以加入所有类型 如列表,字典,数字,字符串等bicycles [trek, cannondale, redline, specialized] print(bicycles)# 访问列表元素,使用索引 print(bicycles[0])# 访问最后一个元素下标-1. 以此类推 p…...
2000-2021年全国各省资本存量测算数据(含原始数据+测算过程+计算结果)
2000-2021年全国各省资本存量测算数据(含原始数据测算过程计算结果) 1、时间:2000-2021年(以2000年为基期) 2、范围:30个省市(不含西藏) 3、指标:固定资产形成总额、固…...
Vue.js 中的异步组件是什么?
在 Vue.js 中,异步组件是一种延迟加载组件的方式。允许将组件的加载推迟到组件真正需要被渲染时再进行,而不是在初始化时立即加载所有组件。 通过使用异步组件,可以提高应用的初始加载速度,尤其是当应用包含大量组件时。只有当组…...
Luckysheet 实现excel多人在线协同编辑
前言 前些天看到Luckysheet支持协同编辑Excel,正符合我们协同项目的一部分,故而想进一步完善协同文章,但是遇到了一下困难,特此做声明哈,若侵权,请联系我删除文章! 若侵犯版权、个人隐私&#x…...
C++线程库的基本使用(初级)
#include<iostream> #include<thread> #include<string> void printHelloWorld(std::string msg) {std::cout << msg<< std::endl;return; } int main() {std::thread threadl(printHelloWorld,"Hello Thread");//第一个参数是函数名&…...
2023最新版JavaSE教程——第1天:Java语言概述
目录 一、抽丝剥茧话Java1.1 当前大学生就业形势1.2 IT互联网是否依旧靠谱1.3 IT行业岗位分析1.4 软件开发之Java开发1.5 到底多少人在用Java 二、计算机的硬件与软件2.1 计算机组成:硬件软件2.2 CPU、内存与硬盘2.3 输入设备:键盘输入 三、软件相关介绍…...
PTL货位指引标签为仓储管理打开新思路
PTL货位指引标签是一种新型的仓储管理技术,它通过LED灯光指引和数字显示,为仓库管理带来了全新的管理思路和效率提升,成为现代物流仓库管理中的重要工具。 首先,PTL货位指引标签为仓储管理业务带来了管理新思路。传统的仓库管理中…...
IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Maven核心概念
一.Maven的POM POM全称:Project Object Model【项目对象模型】,将项目封装为对象模型,便于使用Maven管理【构建】项目 pom.xml常用标签 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://m…...
Unity的粒子总是丢材质
1)Unity的粒子总是丢材质 2)C#传给C的Byte数组如何释放 3)CommandBuffer.DrawProcedural在手机上为什么不生效 4)游戏加载场景碰撞,会弹出显卡报错,驱动程序超时 这是第359篇UWA技术知识分享的推送…...
P5906 【模板】回滚莫队不删除莫队
这一题,虽说在洛谷标的是模板题,但可能没有“历史研究”那一题更加模板。 这一题相对于回滚莫队的模板题,可能在回滚的处理上稍微复杂了一点。对于回滚莫队就不多解释了,可以看一下 回滚莫队模板题 这一篇博客,稍微简单…...
1. Collection,List, Map, Queue
1. java集合框架体系结构图 2. Collection派生的子接口 其中最重要的子接口是: 1)List 表示有序可重复列表,重要的实现类有:ArrayList, LinkedList ArrayList特点:底层数组实现,随机查找快,增删…...
rabbitmq 交换机相关实例代码
1.扇形交换机 定义扇形交换机和队列 package com.macro.mall.portal.config;import org.springframework.amqp.core.Binding; import org.springframework.amqp.core.BindingBuilder; import org.springframework.amqp.core.FanoutExchange; import org.springframework.amqp.…...
第四章IDEA操作Maven
文章目录 创建父工程开启自动导入配置Maven信息创建Java模块工程创建 Web 模块工程 在IDEA中执行Maven命令直接执行手动输入 在IDEA中查看某个模块的依赖信息工程导入来自版本控制系统来自工程目录 模块导入情景重现导入 Java 类型模块 导入 Web 类型模块 创建父工程 开启自动导…...
Go语言函数签名和匿名函数
函数签名 函数类型又叫做函数签名,一个函数的类型就是函数定义首行去掉函数名、参数名和{},可以用fmt.Printf的“%T”格式化参数打印函数的类型。 两个函数类型相同的条件是:拥有相同的形参列表和返回值列表,形参名可以不同。 ty…...
MFC内存泄露
1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...
论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)
笔记整理:刘治强,浙江大学硕士生,研究方向为知识图谱表示学习,大语言模型 论文链接:http://arxiv.org/abs/2407.16127 发表会议:ISWC 2024 1. 动机 传统的知识图谱补全(KGC)模型通过…...
SpringCloudGateway 自定义局部过滤器
场景: 将所有请求转化为同一路径请求(方便穿网配置)在请求头内标识原来路径,然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...
如何在最短时间内提升打ctf(web)的水平?
刚刚刷完2遍 bugku 的 web 题,前来答题。 每个人对刷题理解是不同,有的人是看了writeup就等于刷了,有的人是收藏了writeup就等于刷了,有的人是跟着writeup做了一遍就等于刷了,还有的人是独立思考做了一遍就等于刷了。…...
项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
基于matlab策略迭代和值迭代法的动态规划
经典的基于策略迭代和值迭代法的动态规划matlab代码,实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...
云原生玩法三问:构建自定义开发环境
云原生玩法三问:构建自定义开发环境 引言 临时运维一个古董项目,无文档,无环境,无交接人,俗称三无。 运行设备的环境老,本地环境版本高,ssh不过去。正好最近对 腾讯出品的云原生 cnb 感兴趣&…...
Python 包管理器 uv 介绍
Python 包管理器 uv 全面介绍 uv 是由 Astral(热门工具 Ruff 的开发者)推出的下一代高性能 Python 包管理器和构建工具,用 Rust 编写。它旨在解决传统工具(如 pip、virtualenv、pip-tools)的性能瓶颈,同时…...
iOS性能调优实战:借助克魔(KeyMob)与常用工具深度洞察App瓶颈
在日常iOS开发过程中,性能问题往往是最令人头疼的一类Bug。尤其是在App上线前的压测阶段或是处理用户反馈的高发期,开发者往往需要面对卡顿、崩溃、能耗异常、日志混乱等一系列问题。这些问题表面上看似偶发,但背后往往隐藏着系统资源调度不当…...
