超级独角兽 Databricks 的崛起之路
在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。
随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。
然而,他们面临着复杂的遗留基础设施、数据孤岛的解决以及高延迟的管理等挑战。因此,数据湖的需求逐渐增长。数据湖是一种存储库,能够以本机格式摄取大量原始数据,使企业能够在需要时轻松地访问它们。
Databricks 是目前一级市场中的超级独角兽公司。其帮助企业准备用于分析的数据,支持采用机器学习和数据驱动的决策。它还使数据科学能够与数据工程和其他业务部门协作来构建数据产品。今天,它已经扩展成为一个更广泛的湖仓一体的 Databricks Marketplace。
01 旅程始于 Apache Spark
Databricks 团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的 Spark 引擎。该项目在 2014 年创造了数据排序速度的世界纪录。
为了让更多用户使用 Spark,他们选择将其开源,并在 2013 年创立了 Databricks 公司。同年,该公司完成了 A 轮融资,由 A16z 领投。2016 年 1 月,Databricks 更换了新的 CEO。一年后,该公司完成了第一笔百万美元的交易。
总体而言,Databricks 团队是 Apache Spark 的核心开发者,具有绝对的影响力和理解力,因此作为 Spark 的商业化公司,Databricks 名正言顺。
02 拓展产品线助力收入多元化
Databricks 最初专注于 Spark,用于查询存储在数据湖中的大型非结构化数据集。此后,为迎合市场,Databricks 升级为湖仓一体平台,其基于 Spark 构建,提供为数据湖提供 ACID 事务和数据版本控制的 Delta Lake;用于管理机器学习工作流程的开源平台 MLflow;以及基于 SQL 的数据分析协作工具 Redash。
总体来看,Databricks 湖仓一体平台结合了数据湖和数据仓库的元素。它具有数据湖的灵活性、成本效益和规模,同时还提供数据仓库的数据管理和 ACID 事务。用户可以在所有数据上启用商业智能和机器学习。
Databricks 产品在 AWS、Azure、GCP 等主要云服务上提供,其平台为数据、分析和机器学习工作提供了一个统一的环境。可视化可以成为这些不同活动的组成部分。
来源:Databricks
03 数据湖市场增长,用户横跨大中小
Databricks 相信企业正在摆脱孤立的系统来存储数据,而是选择集中式的数据存储。这种方法帮助企业通过商业智能和预测分析深入了解过去和未来的趋势。
数据湖技术正是基于此,其允许将所有数据类型和来源存储在一起。数据表明,数据湖市场将由 2019 年的 79 亿$增长到 2024 年的 201 亿$。
来源:marketsandmarkets
此外,Databricks 的客户横跨大中小企业,以及各个行业。截至 2023 年 03 月,其全球已有超过 9000 家企业用户。包括 AT&T、壳牌、巴宝莉、丰田、Adobe、康泰纳仕和再生元制药等。
如果我们用 Databricks 2022 年 Q2 末的 ARR 10亿$除以它 2022 年 Q2 末 7000+的客户数量,我们可以粗略估算 Databricks 的 ACV(平均合同价值)约为 14.3 万美元,相比 Snowflake 的 30.1 万$ (2023.Q3 估算),仍有提升空间。
04 三类对手的夹击
2012 年,前 Oracle 架构师创立的 Snowflake 是 Databricks 不可忽视的对手。最初,Snowflake 将自己定位为提供数仓和分析计算工作负载的云数据平台,主要面向业务分析师和数据工程师等用户。同期,Databricks 则一直受数据科学家和机器学习工程师的青睐。
但现在二者的界限在模糊,比如 Snowflak 发布了 Snowpark for Data Science、事务数据库以及 Python 支持功能,希望以此吸引数据科学家。而 Databricks 则推出了 Databricks SQL、Delta Lake 功能和 Unity 目录等产品,以满足数据存储和注重安全的客户。
从模式来看,Snowflake 是闭源生态,而 Databricks 是开源的。Databricks 的主要产品线都可以免费使用,当客户需要获得更高级的功能和支持时,可以选择 Databricks 的企业产品。Snowflake 提供现成的解决方案,使公司能够快速开展基本分析,而 Databricks 提供更好的定制和配置,让客户能够完全控制他们的设置。
2022 年底,Snowflake 的年收入 21 亿$,而 Databricks 预计年收入 14亿$。预计两家的竞争会愈发激烈。
第二类竞争对手是云厂商。Databricks 与云厂商的专有产品存在竞争。比如在大数据处理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在业务分析解决方案层面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都与 Databricks 存在竞争。
最后,Databricks 与特定的数据管理和科学领域解决方案公司也存在竞争。比如 Databricks 的调度程序类似 Apache Airflow,MLflow 产品与 DataRobot 和 Alteryx 竞争。
05 收入持续增长,资本认可的超级独角兽
Databricks 本身是开源软件,其会通过提供附加功能收费。Databricks 会为企业提供其开源软件的完全托管版本,以及其他辅助工具,如用于编写查询的 SaaS 工具和用于连接数据源的连接器等。
付费模式方面,Databricks 根据客户每秒消耗的计算资源量收费。为此,其使用了一种自己独创的 DBU 作为其标准化单位,工作负载消耗的 DBU 数量取决于多个指标,包括使用的计算资源、处理的数据量、区域、所处的分级定价层以及正在使用的服务类型等。
此外,为了吸引用户,与其他开源公司类似,Databricks 也为用户提供了 14 天免费试用期。
来源:Databricks
财务方面,Databricks 也实现了跨越式的增长。2019.Q3 结束时其 ARR 为 2 亿$,2020 全年收入 4.25 亿$,2021 年 ARR 超 8 亿$。截至 2022 年 08 月,Databricks 的 ARR 已经超 10 亿$,并且年增长超过 70%。
截至 2021 年 08 月 Databricks 的估值 380 亿$,总共在资本市场筹集了 35 亿$,其投资者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。
当然也有消息透露,2022 年 10 月 Databricks 降低了内部股价,使其估值下调至 310 亿$,比 2021 年同期下降约 7%。但无论如何,Databricks 仍然是一级市场中的超级独角兽。
06 趋势、机遇与风险
随着云存储成本下降和网速提升,企业越来越多地选择将所有数据存储在中央存储库,而不是将不同的数据类型单独存储。这种集中化趋势帮助公司通过实时商业智能和预测分析更好地了解业务运营。同时,数据爆炸式增长也使公司维护多个大型数据存储变得不切实际,从而导致数据湖和数据仓库融合到一个平台中。
ChatGPT 一直是各行业的热点。Databricks 也迎接了这一浪潮,其湖仓一体平台允许数据团队存储和保护数据、生成分析和见解,并推动机器学习工具的开发。此外,Databricks 还提供与 TensorFlow、PyTorch 等流行人工智能框架的集成,使构建和部署机器学习模型变得容易。
Databricks 依靠 AWS、Azure 和 GCP 这类云基础设施供应商来提供服务。回望过去,与微软的合作是 Databricks 的里程碑,这帮助其收入从 2017 年初的不到 100 万$增长到 2018 年的超过 1 亿$。如果与主要云厂商关系发生变化,将影响 Databricks 的服务能力。
综上所述,我们有理由相信虽然面临挑战,但在这个数据扩张以及 AI 兴起的时代,Databricks 为企业提供的单一的数据存储和分析平台是有价值的,其很有机会和能力抓住这一浪潮。
作者简介
郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。
CnosDB简介
CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。
欢迎关注我们的社区网站:https://www.cnosdb.com
相关文章:

超级独角兽 Databricks 的崛起之路
在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。 然而,他…...

python 3.8 + tensorflow 2.4.0 + cuda11.0 的问题
版本匹配 🔗从源代码构建 | TensorFlow 报错:Could not load dynamic library ‘cupti64_110.dll’; dlerror: cupti64_110.dll not found 是因为我电脑中的 cuda 版本以前是 10,现在是 11.4 ,所以需要安装对应版本的 cudatoolk…...
华为杯”研究生数学建模竞赛2021 年中国研究生数学建模竞赛 E 题: 信号干扰下的超宽带(UWB)精确定位问题-参考思路
一、背景 UWB ( Ultra-Wideband )技术也被称之为“超宽带”,又称之为脉冲无线电技术。这是一 种无需任何载波,通过发送纳秒级脉冲而完成数据传输的短距离范围内无线通信技术,并且信 号传输过程中的功耗仅仅有几十 W 。 UWB 因其独有的特点,使其在军事、物联网等各个领…...
Java 中的访问修饰符有什么区别?
Java 中的访问修饰符用于控制类、类的成员变量和方法的访问权限,主要有以下四种: public:公共访问修饰符,可以被任何类访问。public 修饰的类、成员变量和方法可以在任何地方被访问到。 protected:受保护的访问修饰符…...

Go基础篇:接口
目录 前言✨一、什么是接口?二、空接口 interface{}1、eface的定义2、需要注意的问题 三、非空接口1、iface的定义2、itab的定义3、itab缓存 前言✨ 前段时间忙着春招面试,现在也算告一段落,找到一家比较心仪的公司实习,开始慢慢回…...
边缘计算:数字时代的新战场
随着数字化时代的到来,云计算已经成为了各行各业不可或缺的技术支持。但是,由于云计算涉及到数据的传输和存储,对于网络带宽和延迟的要求也非常高,这使得云计算难以满足一些低延迟、高实时性要求的场景。在这种情况下,…...
PBDB Data Service:Fossil occurrences(化石产出记录)
Fossil occurrences(化石产出记录) 描述摘要1. [Single fossil occurrence(单条化石产出记录)](https://blog.csdn.net/whitedrogen/article/details/130519180)2. [List of fossil occurrences(化石产出记录列表&…...

虾皮Shopee商品详情接口(item_get-根据ID取商品详情)代码封装
item_get-根据ID取商品详情接口 通过代码封装该接口可以拿到商品标题,商品价格,商品促销信息,商品优惠价,商品库存,sku属性,商品图片,desc图片,desc描述,sku图片…...

原生js手动实现一个多级树状菜单效果(高度可过渡变化) + 模拟el-menu组件实现(简单版)
文章目录 学习链接效果图代码要点 简单模拟el-menu实现TestTree.vueMenu.vueSubMenu.vue 学习链接 vue实现折叠展开收缩动画 - 自己的链接 elment-ui/plus不定高度容器收缩折叠动画组件 - 自己的链接 vue的过渡与动画理解 Vue transition 折叠类动画自动获取隐藏层高度以及…...

RK3568平台开发系列讲解(Linux内存篇)Linux内存管理框架
🚀返回专栏总目录 文章目录 一、内核态内存分配二、用户态内存分配三、内存篇章更新哪些内容沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇我们一起将整个内存管理的体系串起来。 对于内存的分配需求,可能来自内核态,也可能来自用户态。 一、内核态内存分配…...
你的编程能力从什么时候开始突飞猛进?
关于编程能力突飞猛进的原因和如何突破自己,以下是我的建议。 在过去的几年中,编程领域发生了很多变化。新的语言和技术不断涌现,使得程序员们需要不断学习和提高。作为一名程序员,编程能力的提高是非常重要的,有助于…...
滨州高企认定条件
认定为高新技术企业必须同时满足以下条件: (一)企业在申请认定时需要注册一年以上。 (二)公司通过自主开发、转让、赠与、并购等方式,获得对其主要产品(服务)在技术上发挥核心支持作用的知识产权所有权。 (三)对企业主要产品(服…...

Azkaban学习——单机版安装与部署
目录 1.解压改名 2.修改装有mysql的虚拟机的my.cnf文件 3.重启装有mysql的虚拟机 4.Datagrip创建azkaban数据库,执行脚本文件 5.修改/opt/soft/azkaban-exec/conf/azkaban.properties文件 6.修改commonprivate.properties 7.传入mysql-connector-java-8.0.29…...
table标签-移动端适配
封装一个组件,该组件需要根据不同设备屏幕宽度自适应调整展示方式。对于 PC 端,以类似 el-table 的形式展示数据,而移动端则以一个类似 item 的形式展示每行数据。 可以先在组件中判断设备类型,如以下示例代码所示: …...

Yolov8改进---注意力机制:DoubleAttention、SKAttention,SENet进阶版本
目录 🏆🏆🏆🏆🏆🏆Yolov8魔术师🏆🏆🏆🏆🏆🏆 1. DoubleAttention 2. SKAttention 3.总结...

【逆向工程核心原理:TLS回调函数】
TLS 代码逆向分析领域中,TLS(Thread Local Storage,线程局部存储)回调函数(Callback Function)常用反调试。TLS回调函数的调用运行要先于EP代码的执行,该特征使它可以作为一种反调试技术的使用…...

“Shell“Awk命令
文章目录 一.Awk二.Awk按行输出文本三.Awk按字段输出文本四.通过管道,双引号调用shell命令五.总结: 一.Awk Awk的工作原理: 逐行读取文本,默认以空格或tab键为分隔符进行分隔,将分隔所得的各个字段保存到内建变量中&a…...

射频放大器的原理和作用(射频放大器和功率放大器的区别)
射频放大器是一种电子电路,用于将输入信号增强到足够高的电平以驱动射频输出负载。其原理和作用如下: 射频放大器的工作原理是利用晶体管的三极管效应,将输入信号放大到足够的电平以驱动输出负载。在射频放大器中,输入信号经过输入…...
揭秘KubeEdge边缘网络项目EdgeMesh:如何打造高速、安全、低延迟的互联网连接
KubeEdge是由百度主导的边缘计算项目,旨在为物联网设备提供一种高效、安全的互联网连接方式。EdgeMesh是KubeEdge的核心组件之一,它是一种基于OpenDaylight的边缘网络协议,能够在物联网设备之间提供高速、可靠的互联网连接。 EdgeMesh的设计目…...

Java设计模式 14-访问者模式
访问者模式 这个模式用的很少,《设计模式》的作者评价为: 大多情况下,你不需要使用访问者模式,但是一旦需要使用它时,那就真的需要使用了 一、测评系统的需求 1)将观众分为男人和女人,对歌手进行测评&…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录
ASP.NET Core 是一个跨平台的开源框架,用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录,以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

(二)原型模式
原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...

从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...
聊一聊接口测试的意义有哪些?
目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...

Linux --进程控制
本文从以下五个方面来初步认识进程控制: 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程,创建出来的进程就是子进程,原来的进程为父进程。…...

Reasoning over Uncertain Text by Generative Large Language Models
https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...

免费PDF转图片工具
免费PDF转图片工具 一款简单易用的PDF转图片工具,可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件,也不需要在线上传文件,保护您的隐私。 工具截图 主要特点 🚀 快速转换:本地转换,无需等待上…...
关于uniapp展示PDF的解决方案
在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项: 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库: npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...
WebRTC从入门到实践 - 零基础教程
WebRTC从入门到实践 - 零基础教程 目录 WebRTC简介 基础概念 工作原理 开发环境搭建 基础实践 三个实战案例 常见问题解答 1. WebRTC简介 1.1 什么是WebRTC? WebRTC(Web Real-Time Communication)是一个支持网页浏览器进行实时语音…...
人工智能--安全大模型训练计划:基于Fine-tuning + LLM Agent
安全大模型训练计划:基于Fine-tuning LLM Agent 1. 构建高质量安全数据集 目标:为安全大模型创建高质量、去偏、符合伦理的训练数据集,涵盖安全相关任务(如有害内容检测、隐私保护、道德推理等)。 1.1 数据收集 描…...