以数据编织,重构数据管理新范式
大数据产业创新服务媒体
——聚焦数据 · 改变商业
人工智能几乎统一了全球最顶尖科技公司的认知:这个时代,除了AI,没有第二条路可走。
人工智能的技术逻辑颇有一种“暴力美学”,它依托于海量大数据和超高算力的训练和推理,进而实现智能分析、“智慧涌现”。但在实际应用中,创造一个智能模型的过程并不美妙,整个过程涉及到数据处理、模型搭建、模型训练、测试以及最终部署等多个繁琐的环节,往往要大量数据分析、算法等方面技术人员的高度手工参与,业界一直流传着有多少“人工”,就有多少“智能”的说法。
而在诸多的环节中,数据处理是较为麻烦的,大约6-7成的时间成本都花费在了数据处理环节。数据、算力和算法是人工智能这座伟岸大厦的三根支柱。现在谈到人工智能,让人兴奋的多是算力和算法的进步;让人沮丧的多是数据相关的问题,比如数据管理、合规安全,精准性等。
毫不夸张的说,人工智能发展遇到的挑战,一半可能都与数据处理相关。正如同我们难以想象没有石油革命的工业革命,没有数据革命的AI革命可能也将举步维艰。在这样的背景下,作为数据管理的全新技术理念--数据编织,开始走进了人们的视线之中。
在这样的背景下,亚马逊云科技解决方案架构师许晓亮、深圳市伊登软件有限公司CTO孙军远、丹诺德软件渠道销售总监张博,与数据猿联合创始人兼主编张艳飞进行了一场对话,畅谈“以数据编织,重构数据管理新范式”,从不同视角解析数据编织对产业的变革。
为什么是数据编织?
数据编织是什么?为什么会在近几年异军突起,受到业界的广泛关注?
张博认为:“数据编织不是一种产品而是一种治理理念,或者说是一种数据架构、治理理念和落地软件的结合体。”
数据编织能提供自动编织、动态集成的能力,兼容各种数据集成方式,实现对数据的统一化、集约化、合规化管理。同时,数据编织还有一个核心能力,就是“数据虚拟化”。数据虚拟化是指建立一个虚拟层来实时连接数据,虚拟层记录了数据的关键要素,将数据实现虚拟化,这样无需像数据仓库那般物理地复制、移动数据。
张博形象地指出,我们可以把数据编织理解成一个网状结构,这张网是由不同数据源的点构成的。而点与点之间的连接,不是通过一个实际存在的物理管道实现的。数据编织提供了一种虚拟连接的方式,也正是这种虚拟的连接,不需要格式或者标准的统一,每个节点可以来自不同系统,不同系统间的数据在这张网上都可以被迅速定位和发现。。从技术逻辑的角度看,数据编织改变了传统的数据管理模式,能够把正确的数据,在精准的时间,传递给正确的人,把传统模式下的人找数据变成了数据找人。
数据编织技术的出现不是偶然。大约十几年前,互联网上流传着这样一种说法:软件正在吞噬一切。以现在的形势来看,这句话可以改写成:数据正在吞噬一切。人工智能时代,数据就像我们的呼吸一样,每个人每一秒无不在产出大量数据,哪怕我们只是躺在家里什么都不做,在这个时代这也是一种有一定价值的数据,更不要说诸如线上购物、金融交易、交通出行、浏览短视频等各种“强数据相关”行为了。
这些源源不绝而又无处不在的数据,使得企业数据管理的环境变得越来越复杂。来自企业内外部的多源头数据、结构化和半结构化的数据,实时的和批量化的数据,而且这些数据还可能分散在不同系统,多云环境中。数据的复杂化、多样化、规模化等特征前所未有,对于企业管理能力和使用能力提出了巨大的挑战。
一直以来,面对日益复杂的数据问题,产业界不断地寻找各种解决方案。数据编织技术路线的出现会带来新的曙光吗?真正落实到产业,数据编织能为数据处理带来哪些变化呢??从国内市场上首批尝鲜者的反馈来看,数据编织的能力主要体现在三个层面:降本增效,多源异构数据的集成和强大的扩展性。
降本增效
数据编织能够减少一部分数据物理集成的工作,降低一些不必要的开销和成本。同时也加快了数据到价值之间的进程,缩短数据价值实现的时间。
张博表示:“我们把模型运行在数据编织的框架下,在三年之内,整体的投资效益会提升300%~500%。一年之内,数据集成的工作量和耗时都会减少到原来的1/3,在业务端的降本增效是立竿见影的。”
多源异构数据的集成
很多企业的数据要在终端、应用、云上、数据中心之间流动和运转,这些数据可能存在于ERP系统、CRM系统或人力资源系统。这些数据也可能是非结构化数据,如音频、视频、PDF或者报表等。面对这种多源异构的数据,数据编织可以通过虚拟连接的方式,自由连接各种数据源,还可以从公共数据(如社交媒体)等外部系统中提取数据,高效实现多源异构的数据集成。
高扩展性
随着业务的快速增长,企业数据量必将随之增长。这意味着ETL作业数量将会大幅增加,然而一家企业的工程师是有限的,工程师的工作量也是有限的,靠着人力永远追不上飞速增长的数据处理工作需求。
孙军远表示,在现实条件下,企业扩展业务要妥协于当前的应用系统及架构,因为企业不可能把原来的数据仓库或者大数据系统给推倒重来,或者重复建设。而通过ETL的方式进行拓展成本将不堪重负,我们可以用数据编织来改善这一现状。
数据编织超越了传统的ETL技术逻辑。ETL侧重于数据的抽取和转换,数据编织则侧重多元数据资产的融合,强调自动化的集成和智能数据编排。
孙军远形象地指出,基于数据编织,企业就好像站在山顶上俯瞰山脚下的各个楼宇,每个楼宇就像一个数据的原始系统,站在山顶的企业能把所有楼宇尽收眼底,站在顶楼构建整个逻辑视图,为不同的应用人员、决策人员或者数据科学家,通过访问控制的方式,构建他们专属的业务视图,进而再去建立起楼宇之间的一系列关系。
“在不影响原有系统的同时,数据编织能够集成各种各样的数据源。还能基于现有的湖仓一体化架构构建未来的业务视图,像应用视图、决策视图、分析视图等,为企业未来业务的扩展带来非常大的想象空间。
我认为从技术理念的视角来看,数据编织是对ETL的取代,但从实际应用的角度来看,两者实际上是互相补偿的关系。”孙军远说。
生于多云、服务于多云
当前,多云、混合云已经是大势所趋。任何上了规模的企业可能都是类似的布局:一部分业务数据放在亚马逊云上、一部分放在微软云上、一部分放在阿里云上、还有一部分放在自建的本地云上。
许晓亮认为:“在合规的基础上,我建议企业尽可能把数据放到云上。事实上,越核心的数据数据量反倒越不大,比如关系型数据,这些数据可以存储在本地。大部分的行为数据,单条数据的价值都很低,但这些数据具有规模效应,规模上来后价值就会浮现出来。这些数量巨大但暂时没有价值的数据,要找一个成本低、性能稳定、吞吐量大的地方存起来,公有云就是天然之选。”
在日益兴起的混合云和多云环境中,这些彼此孤立,但又互相关联的数据散落在不同环境中。企业必须找到能高效实现数据价值化,促进业务转型的关键工具。
数据编织能够在所有环境(包括混合云和多云平台、本地平台)中设计、部署和利用数据。可以说,数据编织生于多云环境,也服务于多云环境。在传统模式下,无论是数据仓库还是数据湖技术,都需要把数据汇总到一起进行分析。但在多云时代,要想将分布在不同云上的数据集中在一起不仅成本奇高,而且工程量巨大。而通过数据编织,无需数据的集中处理就可以实现价值的释放。
张博举了一个例子,一个澳大利亚的矿业公司,在亚太、美洲、欧洲都建有数据中心。数据中心中存储了大量的非交易型、非关键数据,比如环保相关的数据。由于企业担心在各国当地受到环保处罚,需要这些数据实现全球洞察,实现环保合规经营。
在这样的数据架构下,丹诺德联合亚马逊云科技为这家矿业公司搭建了公有云和私有云系统,帮助其实现全球性的数据洞察。
张博说道,“在安全合规的约束下,企业不可能把全量数据都分享出来,它只会对我们开放一些访问权限。这个时候,数据编织的价值就体现出来了。通过数据编织,数据依然留在本地,我们将数据价值从全球不同的地方提取出来,汇总到分析师。这样既满足了客户本身的数据合规要求,同时也帮助他实现了业务的诉求。”
大模型与数据编织,互相成就和需要
如开头所言,数据处理是人工智能发展的重要一环,而数据编织同样与人工智能紧密相关。一方面,数据编织的诞生就是为了促进人工智能的发展。另一方面,人工智能也能促进数据编织技术的完善。两者之间互相影响、彼此成就,其中一方的技术进步,也势必将带来另一方的变化。当下大模型时代正扑面而来,这将为数据编织带来哪些变化?
许晓亮表示,原来传统数据库的迭代周期大约是三年,但是进入大模型时代,迭代周期可能要以月为单位了。大模型带来了多模态场景,也带来了多模态数据,这对于数据编织而言有了绝佳的用武之地,同时大模型的自身发展也产生了多模态数据的处理需求。在大模型时代,数据编织将会扮演重要角色。
孙军远指出:“我们在企业内部构建了自己的垂直大模型,但即使这样,也没有办法直接跟大数据系统或者相关的各个数据库系统直接进行互联。因为大模型需要构建一个上下文字段的关系描述,以及一系列业务的定义,需要像数据编织这样的技术进行完善。”
张博表示:“毋庸置疑,大模型是大势所趋,但其实有时候机会反而藏在小趋势里,小趋势跟自身业务息息相关。比如今天所谈到的数据编织的概念,在这种小的趋势里反而更能快速找到大趋势的突破口。”
值得一提的是,数据编织作为一种新兴的数据管理理念,在国内市场仍处于起步阶段,能否编织起千丝万缕的数字世界,仍待时间和市场的检验。
点击文末左下角“阅读原文”获取“Denodo”案例集
文:俊驰 / 数据猿
责编:凝视深空 / 数据猿
相关文章:

以数据编织,重构数据管理新范式
大数据产业创新服务媒体 ——聚焦数据 改变商业 人工智能几乎统一了全球最顶尖科技公司的认知:这个时代,除了AI,没有第二条路可走。 人工智能的技术逻辑颇有一种“暴力美学”,它依托于海量大数据和超高算力的训练和推理ÿ…...

在linux x86服务器安装jdk
安装JDK(Java Development Kit)在Linux x86 服务器上可以按照以下步骤进行操作。以下步骤假设你有root权限或者sudo权限。 1. 下载JDK安装包 首先,你需要从Oracle官网或者OpenJDK官网下载JDK的安装包。可以选择对应的版本,比如J…...

2024智慧竞技游戏俱乐部线下面临倒闭?
在2024年的中国,智慧竞技游戏俱乐部如雨后春笋般在二三线城市中兴起,它们不仅是年轻人娱乐的场所,更是智慧与技巧的较量场。然而,随着疫情的冲击,这些俱乐部面临着前所未有的挑战。本文将通过一个小镇上的故事…...

jmeter分布式(四)
一、gui jmeter的gui主要用来调试脚本 1、先gui创建脚本 先做一个脚本 演示:如何做混合场景的脚本? 用211的业务比例 ①启动数据库服务 数据库服务:包括mysql、redis mysql端口默认3306 netstat -lntp | grep 3306处于监听状态…...

如何解决手机游戏因IP代理被封禁无法正常游戏的问题?
在当前的网络环境下,许多手机游戏为了维护游戏的公平性和安全性,会采取措施对使用IP代理的玩家进行封禁,导致他们无法正常访问游戏。这种情况对于一些需要使用IP代理的用户来说可能显得很棘手,但实际上有几种技术性的解决方案可以…...

windows10 安装Anaconda
文章目录 1. 下载2. 安装3. 配置环境变量4. 检查是否安装成功 1. 下载 官网下载 https://www.anaconda.com/download 下载的最新版本,要求python的版本也高一些 清华大学开源软件镜像站 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 所有版本在这个网…...

[图解]SysML和EA建模住宅安全系统-14-黑盒系统规约
1 00:00:02,320 --> 00:00:07,610 接下来,我们看下一步指定黑盒系统需求 2 00:00:08,790 --> 00:00:10,490 就是说,把这个系统 3 00:00:11,880 --> 00:00:15,810 我们的目标系统,ESS,看成黑盒 4 00:00:18,030 --> …...

frp内网穿透xtcp安全点对点p2p部署记录打洞失败解决方法
环境 一、有公网IP、nas主机(需要穿透里面的服务)、安卓手机、frps-0.58.1、frpc-0.59.0(群晖NAS套件)、安卓版frpc-0.56.0 二、两端frpc必须要有一端nat网络类型不是非对称nat 开始 有公网的主机上配置frps.toml bindPort 7000nas主机端frpc.toml配…...

C++基础篇(2)
目录 前言 1.缺省参数 2.函数重载 2.1函数重载的基本规则 编辑2.2注意事项 2.3 重载解析(Overload Resolution)--补充内容 3.引用 3.1引用的概念和定义 3.2引用的特性 3.3引用的使用 3.4const引用 4.指针和引用的关系 结束语 前言 上节小编…...

c++ primer plus 第16章string 类和标准模板库,16.1.3 使用字符串
c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串 c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串 文章目录 c primer plus 第16章string 类和标准模板库,16.1.3 使用字符串16.1.3 使用字符串程序清单16.3 hangman.cpp 16.1.3 使用字符串 现在&a…...

使用mybatis的statementHander拦截器监控表和字段并发送钉钉消息
新建mybatis的statementHander拦截器拦截器 类 面试题: 2.实现 解析Sql时引入JSqlParser JSqlParser 是一个 SQL 语句解析器。 它将 SQL转换为可遍历的 Java 类层次结构。 <dependency><groupId>com.github.jsqlparser</groupId><artifac…...

信贷系统——基础信贷概念
摘要 信贷是金融领域中的一个重要概念,指的是金融机构(如银行、信用合作社等)向个人、企业或政府提供资金的过程。在信贷过程中,金融机构向借款人提供资金,借款人则承诺在未来的某个时间点按照约定的条件和利率偿还借款。这种借款通常是在合同中明确约定的,包括贷款金额、…...

分页查询及其拓展应用案例
分页查询 分页查询是处理大量数据时常用的技术,通过分页可以将数据分成多个小部分,方便用户逐页查看。SQLAlchemy 提供了简单易用的方法来实现分页查询。 本篇我们也会在最终实现这样的分页效果: 1. 什么是分页查询 分页查询是将查询结果按照…...

【UE5.1】NPC人工智能——02 NPC移动到指定位置
效果 步骤 1. 新建一个蓝图,父类选择“AI控制器” 这里命名为“BP_NPC_AIController”,表示专门用于控制NPC的AI控制器 2. 找到我们之前创建的所有NPC的父类“BP_NPC” 打开“BP_NPC”,在类默认值中,将“AI控制器类”一项设置为“…...

有关电力电子技术的一些相关仿真和分析:⑤交-直-交全桥逆变+全波整流结构电路(MATLAB/Siumlink仿真)
全桥逆变+全波整流结构 参数:Vin=500V, Vo=200V, T=2:1:1, RL=10Ω, fs=100kHz, L=1mH, C=100uF (1)给定输入电压,输出电压和主电路参数,仿真研究电路工作原理,分析工作时序; (2)调节负载电阻,实现电流连续和断续,并仿真验证; (3)调节占空比,分析占空比与电…...

记录一次Android推流、录像踩坑过程
背景: 按照需求,需要支持APP在手机息屏时进行推流、录像。 技术要点: 1、手机在息屏时能够打开camera获取预览数据 2、获取预览数据时进行编码以及合成视频 一、息屏时获取camera预览数据: ①Camera.setPreviewDisplay(SurfaceH…...

VsCode 与远程服务器 ssh免密登录
首先配置信息 加入下列信息 Host qb-zn HostName 8.1xxx.2xx.3xx User root ForwardAgent yes Port 22 IdentityFile ~/.ssh/id_rsa 找到自己的公钥,不带pub是私钥,打死都不能给别人。复制公钥 拿到公钥后,来到远程服务器 vim ~/.ss…...

7/13 - 7/15
vo.setId(rs.getLong("id"))什么意思? vo.setId(rs.getLong("id")); 这行代码是在Java中使用ResultSet对象(通常用于从数据库中检索数据)获取一个名为"id"的列,并将其作为long类型设置为一个对象…...

烟雾监测与太阳能源:实验装置在其中的作用
太阳光在烟雾中的散射效应研究实验装置是一款模拟阳光透过烟雾环境的设备。此装置能帮助探究阳光在烟雾中的传播特性、散射特性及其对阳光的影响。 该装置主要包括光源单元、烟雾发生装置、光学组件、以及系统。光源单元负责产生类似于太阳光的光线,通常选用高亮度的…...

QT下,如何获取控制台输入
最近工作中为了测试某个模块,需要把原先输入模块部分,改成控制台输入来方便测试。在QT中,我们可以使用 QTextStream 类来读取用户的输入来达到目的。下面是一个简单的例子: #include <QCoreApplication> #include <QTex…...

mybatis动态传入参数 pgsql 日期 Interval ,day,minute
mybatis动态传入参数 pgsql 日期 Interval 在navicat中,标准写法 SELECT * FROM test WHERE time > (NOW() - INTERVAL 5 day)在mybatis中,错误写法 SELECT * FROM test WHERE time > (NOW() - INTERVAL#{numbers,jdbcTypeINTEGER} day)报错内…...

常见CSS属性
常见CSS属性。 1. display: 定义:display 属性控制元素如何渲染在文档流中,影响了元素是否占用空间、位置及盒子模型的行为。 使用说明:它可以设置为如block, inline, inline-block, flex, grid, none等值,用于决定元素显示模式…...

WSL-Ubuntu20.04训练环境配置
1.YOLOv8训练环境配置 训练环境配置的话就仍然以YOLOv8为例,来说明如何配置深度学习训练环境。这部分内容比较简单,主要是安装miniAnaconda以及安装torch和torchvision. 首先是miniAnaconda的安装(参考官网的教程Miniconda — Anaconda ),执行…...

运维检查:mysql表自增id是否快要用完
数据库表中最大自增ID用完会报错。判断是否接近或达到自增ID类型的最大值: 对于MySQL中的自增ID,如果使用的是int类型,其无符号(unsigned)的最大值可以达到2^32 - 1,即4294967295。如果使用的…...

深入理解FFmpeg--libavformat接口使用(一)
libavformat(lavf)是一个用于处理各种媒体容器格式的库。它的主要两个目的是去复用(即将媒体文件拆分为组件流)和复用的反向过程(以指定的容器格式写入提供的数据)。它还有一个I/O模块,支持多种…...

坚持日更的意义何在?
概述 日更,就是每天更新一次或一篇文章。 坚持日更,就是坚持每天更新一次或一篇文章。 这里用了坚持,实际上不是恰当的表述,正确的感觉应该是让日更当作习惯,然后,让自己习惯每天去更新一篇文章。 日更…...

内容长度不同的div如何自动对齐展示
平时我们经常会遇到页面内容div结构相同页,这时为了美观我们会希望div会对齐展示,但当div里的文字长度不一时又不想写固定高度,就会出现div长度长长短短,此时实现样式可以这样写: .e-commerce-Wrap {display: flex;fle…...

Qt中https的使用,报错TLS initialization failed和不能打开ssl.lib问题解决
前言 在现代应用程序中,安全地传输数据变得越来越重要。Qt提供了一套完整的网络API来支持HTTP和HTTPS通信。然而,在实际开发过程中,开发者可能会遇到SSL相关的错误,例如“TLS initialization failed”,cantt open ssl…...

P2p网络性能测度及监测系统模型
P2p网络性能测度及监测系统模型 网络IP性能参数 IP包传输时延时延变化误差率丢失率虚假率吞吐量可用性连接性测度单向延迟测度单向分组丢失测度往返延迟测度 OSI中的位置-> 网络层 用途 面相业务的网络分布式计算网络游戏IP软件电话流媒体分发多媒体通信 业务质量 通过…...

zookeeper相关总结
1. ZooKeeper 的架构 ZooKeeper 采用主从架构(Leader-Follower 模型),包括以下组件: Leader:负责处理所有写请求和协调事务一致性。Follower:处理读请求并转发写请求给 Leader。参与 Leader 选举和事务提…...