当前位置: 首页 > news >正文

OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。
欢迎到现场了解更多“SQL + AI ” 的探讨与分享!


近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多顶尖金融机构、科技企业代表、行业专家及政府领导。大会通过展示最新的研究成就与技术动向,研讨了在大数据与人工智能等科技迅猛发展的环境下,金融行业如何利用数据库技术的创新来推动高质量发展。

 OceanBase 首席科学家阳振坤受邀出席,并发表了《大模型时代的数据库思考》主题演讲。在演讲中,阳振坤指出:大模型时代下,海量数据带来高昂成本,云和分布式技术可以提高资源利用率,降低数据库使用成本,将是数据库技术未来的发展方向。以下为演讲实录:

图片

1、海量数据和分布式数据库是大模型时代的基石

各位领导,各位专家,很高兴跟大家分享我对大模型时代数据库的一些想法。大模型的时代,一个很大的挑战就是海量数据。海量数据同时也带来了高昂的成本。数据库应该如何应对海量数据和高昂成本的挑战,我觉得有两个基本点,一个是分布式,第二是云化。

可能有人对此有不同的看法,认为金融出于安全、保密等各方面原因,离云很远。我认为,不完全如此。最核心数据还会放在自己的机房里,但是会有更多的东西会逐步走向云。后面我也会跟大家分享云的价值。

我们先看分布式。大家的认知里,可能有两种分布式,一种是乐高积木搭出来分布式,一种是真正的原生分布式。乐高积木搭出来的分布式就像小飞机,小飞机可以运载一些人员和轻型设备,真正的重型设备需要大飞机运输,这是小飞机无法做到的。乐高积木式的分布式在大模型、实时报表、实时分析等场景下,也难以实现复杂的数据分析与管理。

2、上云是降本增效的战略选择

为什么很多企业在一段时间内大量采用云服务?原因逃不过四个字:降本增效。如果我们可以帮助企业提升业务效率、降低运营成本,那么企业一定是欢迎的。云在降本增效这两个方面成效显著。

一个是效率。因为企业需要的计算资源、存储资源,如果自己去购买,最小也是以天为单位计费,但在云上就是以秒计算,多了随时可以退掉,少了可以随时追加,规模效应下的动态伸缩、按需使用的计算与存储服务,将极大提升企业的效率。

另外是成本。好的技术如果增加了企业成本,也很难被人接受。云通过规模效应下资源的池化与复用,大幅降低了企业成本。

资源复用在生活中很常见。举个例子,大家都有 5G 手机,带宽是几十兆至一百兆。实际上,我们所有人都在共享这一个 5G 平台的带宽。有线网络也一样,北京几百万家庭,如果每家家庭网络是独栈的,这将一个巨大的负担。

大负载企业的计算机的利用率通常是个位数,如果云通过集中化把这个比例提高一倍到 20%,用一份硬件投资买两份硬件,这里产生多余的一份硬件几乎是纯利用,但是这个纯利用不可能自己获得,还有一部分返给了相应企业,一定程度也可以降低企业成本。

存储也是如此。当很多台机器每个都是本地硬盘的时候,为了防止本地硬盘写满爆掉,很难把利用率做到 70%-80%。如果把这些硬盘池化,将资源集中使用,那么有 20%-30% 的池化富余作为缓冲给所有资源使用,相当于整个池子可达70%-80% 的利用率。

另外是人的成本。我们派一个技术人员去金融机构,大量时间耗费在路上,还有门口的安全、保卫、登记措施,浪费大量的时间,假如跨地域服务还涉及到差旅。原来我们一个人一天最多服务一两个客户,但在云上,一个专家一天可以服务 8-10 个客户,在线就可以解决相关问题。

图片

从全球数据库的市场份额可以看到,今天全世界云上的数据库的市场份额占有率超过 60%,已经显著超过云下,且每年的增量份额,云上占了超过 90%,这意味着云上数据库市场未来几年还会进一步扩大。

如何做好资源复用?单机数据库和分布式数据库之间存在巨大的差异,云上资源的复用至关重要。资源复用率高,整个成本就能降低。这些 CPU 被申请之后,单台的物理机上 CPU 一定会呈现碎片化的趋势,整体还有余量,但单台 CPU 已不够用。如一个 711 的便利店,晚上流量很小,中午、早上流量很大。业务低峰 2 个 CPU 就够用,但是业务高峰要需 6 个 CPU。这里有 5 台机器,每一台机器的 CPU 都不足以支撑业务。如果是分布式数据库,则可以利用更多的资源,6 个 CPU 不够,用 8 -10 个就可以支撑业务,提升整个系统的资源利用率。

最后,我对今天的分享做一个简单的总结。数据库其实和 IT 三大件、CPU、操作系统一样,和地域文化相关度非常小。过去很多年,是别人引领潮流,无论是商业数据库还是开源数据库,是别人构筑了这个潮流带领我们使用。分布式数据库和大模型、互联网一样,其实是给我们提供了一个机会,让我们能真正构建分布式数据库,来引领这个世界的潮流。


10 月 23 号,OceanBase 年度发布会将在北京召开,想了解更多 OceanBase 在 SQL+AI 的最新技术与实践,欢迎关注下午的「云和 AI 时代的数据库实践专场」。欢迎大家通过 大会官网了解全部议程详情和报名参与本次年度发布会,进一步走近 OceanBase,认识 OceanBase!💪

点击链接立即报名 >> OceanBase 年度发布会

相关文章:

OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。 欢迎到现场了解更多“SQL AI ” 的探讨与分享! 近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多…...

国内知名的几个镜像源

在国内,有许多常用的Python库镜像源可以帮助加速库的下载。以下是几个知名的镜像源: 1. 清华大学TUNA协会 网址: https://pypi.tuna.tsinghua.edu.cn/simple命令示例:pip install numpy --index-url https://pypi.tuna.tsinghua.edu.cn/simple2. 阿里云…...

海外著名新闻门户媒体软文发稿之华盛顿独立报-大舍传媒

在当今全球化的时代,信息传播的速度和范围达到了前所未有的程度。对于企业和个人而言,如何在国际舞台上有效地展示自己、传递信息,成为了一项至关重要的任务。而海外媒体发稿,特别是通过像华盛顿独立报这样的知名新闻门户&#xf…...

青少年编程与数学 02-002 Sql Server 数据库应用 13课题、函数的编写

青少年编程与数学 02-002 Sql Server 数据库应用 13课题、函数的编写 课题摘要:一、函数内置函数用户定义的函数 (User-Defined Functions, UDFs)使用示例主要特点 二、内置函数数学函数(Mathematical Functions)字符串函数(String Functions…...

关于LaTeX的floatrow包导入后标题无法直接放到浮动体上方

排版一个文章,标题怎么弄都弄不到表格上方,经过阅读帮助文档才发现问题。又是一个坑。 标题位置控制 使用floatrow包之后,类似 \begin{table}[htbp]\caption{xxx。}\label{table1}\centering\begin{tabular}{lcccc}\toprule& \multicol…...

Flutter Image和Text图文组件实战案例

In this section, we’ll go through the process of building a user interface that showcases a product using the Text and Image widgets. We’ll follow Flutter’s best practices to ensure a clean and effective UI structure. 在本节中,我们将使用“Te…...

使用 xlrd 和 xlwt 库进行 Excel 文件操作

使用 xlrd 和 xlwt 库进行 Excel 文件操作 在数据分析和处理的过程中,Excel 文件是最常用的数据存储格式之一。Python 提供了多种库来处理 Excel 文件,其中 xlrd 和 xlwt 是两个经典的库,分别用于读取和写入 Excel 文件。本文将详细介绍如何使用这两个库进行 Excel 文件的操…...

03.04、化栈为队

03.04、化栈为队 1、题目描述 实现一个 MyQueue 类,该类用两个栈来实现一个队列。 2、解题思路 本题要求使用两个栈来实现一个队列。队列遵循先进先出(FIFO)的原则,而栈遵循后进先出(LIFO)的原则。因此…...

Coppelia Sim (v-REP)仿真 机器人3D相机手眼标定与实时视觉追踪 (二)

coppelia sim[V-REP]仿真实现 机器人于3D相机手眼标定与实时视觉追踪 二 zmq API接口python调用python获取3D相机的数据获取彩色相机的数据获取深度相机的数据用matpolit显示 python控制机器人运动直接控制轴的位置用IK运动学直接移动到末端姿态 相机内参的标定记录拍照点的位置…...

苏州金龙技术创新赋能旅游新质生产力

2024年10月23日,备受瞩目的“2024第六届旅游出行大会”在云南省丽江市正式开幕。作为客车行业新质生产力标杆客车,苏州金龙在大会期间现场展示了新V系V12商旅版、V11和V8E纯电车型,为旅游出行提供全新升级方案。 其中,全新15座V1…...

ceph pg stale 恢复

问题 如果 ceph -s 看到 ceph 有类似如下状态的 pg data:volumes: 1/1 healthypools: 5 pools, 113 pgsobjects: 6.94k objects, 22 GiBusage: 24 GiB used, 33 TiB / 33 TiB availpgs: 0.885% pgs not active366/13880 objects degraded (2.637%)...

Openlayers高级交互(8/20):选取feature,平移feature

本示例介绍如何在vue+openlayers中使用Translate,选取feature,平移feature。选择的时候需要按住shift。Translate 功能通常是指在地图上平移某个矢量对象的位置。在 OpenLayers 中,可以通过修改矢量对象的几何位置来实现这一功能。 效果图 配置方式 1)查看基础设置:http…...

uniapp renderjs页面传值

scrip标签里加 lang“renderjs” ,可以使用原生js的dom,但是我在使用中发现以下问题,导致数据不能动态获取 1. onLoad获取上级页面传值 // APP不会触发,h5可以 2. props不会触发 解决办法添加 script 逻辑层数据传入渲染层 ren…...

AI赋能R-Meta分析核心技术:从热点挖掘到高级模型、助力高效科研与论文发表

Meta分析是针对某一科研问题,根据明确的搜索策略、选择筛选文献标准、采用严格的评价方法,对来源不同的研究成果进行收集、合并及定量统计分析的方法,现已广泛应用于农林生态,资源环境等方面,成为Science、Nature论文的…...

AMD锐龙8845HS+780M核显 虚拟机安装macOS 15 Sequoia 15.0.1 (2024.10)

最近买了机械革命无界14X,CPU是8845HS,核显是780M,正好macOS 15也出了正式版,试试兼容性,安装过程和之前差不多,这次我从外网获得了8核和16核openCore,分享一下。 提前发一下ISO镜像地址和open…...

当事人单方委托专业机构或个人出具的书面意见,证据效力如何认定?

裁判要旨:当事人就专门性问题单方自行委托专业机构或者个人出具的书面意见,虽然不属于民事诉讼法上所称的由人民法院经由司法鉴定程序所获得的鉴定意见,但法律并未排除其作为证据的资格。对一方当事人就专门性问题自行委托有关机构或者人员出…...

AUTOSAR CP 中 BswM 模块功能与使用介绍(2/2)

三、 AUTOSAR BswM 模块详解及 ARXML 示例 BswM 模块的主要功能 BswM(Basic Software Mode Manager)模块在 AUTOSAR 架构中扮演着模式管理的核心角色。它负责管理车辆的各种模式(如启动、运行、停车等),并根据不同的…...

PCB电路板为什么大多是绿色的

PCB电路板为什么大多是绿色的 1.绿色油墨为什么最常用?1.1.性能角度1.2.经济和历史角度1.3.人文和环保角度 2.误区:黑色PCB板更高端?3.总结 PCB电路板上面的绿色是一层阻焊油墨(solder mask),主要作用&…...

Golang | Leetcode Golang题解之第508题出现次数最多的子树元素和

题目: 题解: func findFrequentTreeSum(root *TreeNode) (ans []int) {cnt : map[int]int{}maxCnt : 0var dfs func(*TreeNode) intdfs func(node *TreeNode) int {if node nil {return 0}sum : node.Val dfs(node.Left) dfs(node.Right)cnt[sum]if…...

【安全解决方案】深入解析:如何通过CDN获取用户真实IP地址

一、业务场景 某大型互联网以及电商公司为了防止客户端获取到真实的ip地址,以及达到保护后端业务服务器不被网站攻击,同时又可以让公安要求留存网站日志和排查违法行为,以及打击犯罪的时候,获取不到真实的ip地址,发现…...

RK3568金融自助终端方案:AI边缘计算与高可靠设计实践

1. 项目概述:当金融自助终端遇上RK3568最近几年,如果你留意过银行网点或者一些商业中心,会发现自助终端的形态正在发生一些微妙的变化。从传统的ATM机,到如今功能繁多的VTM(远程视频柜员机)、智能柜台、自助…...

5分钟掌握foo2zjs:让Linux完美支持100+打印机型号的终极方案

5分钟掌握foo2zjs:让Linux完美支持100打印机型号的终极方案 【免费下载链接】foo2zjs A linux printer driver for QPDL protocol - copy of http://foo2zjs.rkkda.com/ 项目地址: https://gitcode.com/gh_mirrors/fo/foo2zjs 在Linux系统中使用打印机常常会…...

【Oracle数据库指南】第45篇:Oracle SQL优化基础

上一篇【第44篇】Oracle性能监控——关键指标与工具 下一篇【第46篇】# Oracle内存与参数调优 摘要 SQL优化是Oracle DBA和开发人员必须掌握的核心技能。一条低效的SQL不仅自身执行慢,还会消耗大量CPU、I/O和内存资源,影响整个数据库的性能。本文从执行…...

Python小红书数据采集终极指南:xhs工具完整使用教程

Python小红书数据采集终极指南:xhs工具完整使用教程 【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 小红书作为中国领先的生活方式分享平台,蕴含着丰…...

3大突破性功能解析:MGWR如何重塑空间数据分析工作流

3大突破性功能解析:MGWR如何重塑空间数据分析工作流 【免费下载链接】mgwr Multiscale Geographically Weighted Regression (MGWR) 项目地址: https://gitcode.com/gh_mirrors/mg/mgwr 当城市规划师试图理解房价为何在市中心与郊区呈现截然不同的影响因素时…...

答辩前 3 天,我用 PaperXie 的 AI PPT 功能,把答辩 PPT 从 0 改到了能直接上台

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPThttps://www.paperxie.cn/ppt/createhttps://www.paperxie.cn/ppt/create 凌晨两点的宿舍里,电脑屏幕的蓝光映着你布满红血丝的眼睛。文件夹里躺着写了半个月的毕业论文终稿,旁…...

避开这些坑!ADS1115差分测量PT1000的电路设计与程序调试心得

ADS1115差分测量PT1000的实战避坑指南:从电路设计到程序调试的深度解析 在工业级温度测量领域,PT1000凭借其出色的线性度和稳定性成为首选传感器之一。而将16位高精度ADC芯片ADS1115与PT1000结合使用,看似简单的电路背后却暗藏诸多技术陷阱。…...

开发者的文件对比神器:Beyond Compare 4在Linux下从安装、汉化到‘延长试用’的完整指南

Beyond Compare 4在Linux环境下的高效应用指南 对于开发者而言,文件与目录的高效对比是不可或缺的日常工作。无论是代码版本管理、配置文件同步还是数据校验,一个强大的对比工具都能显著提升工作效率。Beyond Compare作为业界公认的专业对比工具&#xf…...

SwarmVault:去中心化AI数据存储与管理的实践指南

1. 项目概述与核心价值最近在探索分布式存储和AI应用结合的前沿领域时,我遇到了一个非常有意思的项目:swarmclawai/swarmvault。这个名字本身就透露了它的野心——将去中心化存储网络Swarm与人工智能(AI)能力相结合,构…...

单片机开发者如何通过Taotoken快速接入大模型API提升代码效率

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 单片机开发者如何通过Taotoken快速接入大模型API提升代码效率 对于单片机开发者而言,嵌入式开发工作往往伴随着大量重复…...