撕掉Hadoop标签,Cloudera未来可期吗?
Cloudera:大数据的弄潮儿
- 1、Cloudera发展史
- 2、透过Cloudera看清大数据时代的转变
- 3、参考文章
1、Cloudera发展史
说起Cloudera,就不得不提起Hadoop,Cloudera的过去就是Hadoop时代中的一个缩影。作为全球第一家也是最大一家Hadoop商业化公司,Cloudera一直是Hadoop生态的领导者
1.1、Hadoop之父与Cloudera之父
2006年,计算机科学家Doug Cutting和Mike Cafarella创建了Apache Nutch项目并带着项目加入了雅虎,希望能在雅虎的帮助下为世界提供一个开源、可靠、可扩展的计算框架,于是成立了一个新项目Hadoop,Doug Cutting也认识了当时的雅虎副总裁Amr Awadallah
Amr当时正在研究如何让雅虎搜索更智能,也碰到很多性能、成本与弹性的问题。在Doug Cutting的建议下,他开始尝试Hadoop
在随后的两年里,Amr基于Hadoop改造了之前的数据处理系统,结果出乎意料的好。新系统成本不仅是之前的十分之一,更重要是还能完成之前根本无法想象的事情,这让Amr大为惊喜
他敏锐地觉察到Hadoop这种革命性的数据处理能力里蕴含着巨大商机。于是他萌生了再度创业的想法。这并不是Amr的第一次创业,实际上他在很早之前就创立了一家叫做VivaSmart的公司,2000年被雅虎收购,他也随之加入雅虎
2008年,Amr召集了几位来自谷歌、Facebook和Oracle的志同道合的伙伴,一起在硅谷创立了Cloudera,自己担任CTO。一年后,Hadoop的创始人Doug Cutting也加Cloudera,成为新的CTO,之后他很快被选为Apache基金会主席
天时、地利、人和,独角兽的羽翼丰满,只等风来
1.2、Hadoop势不可挡,Cloudera乘风破浪
Hadoop一问世便以燎原之势蔓延,不仅席卷了硅谷,也燃烧到了大洋彼岸的淘宝和百度等巨型互联网公司,很快就成了Apache的顶级项目
接下来的几年里,Hadoop成为大数据时代的宠儿,只要搜索“Hadoop is”,自动填充就会显示“future”。所有人都关注着它,生怕错过什么
2009年到2013年是Hadoop的繁盛时期,也是Cloudera的快速发展的时期
Cloudera先后与Oracle、Intel、微软等IT巨头达成战略合作。2013年,Cloudera表示已经找到了在Hadoop上成功的商业模式。那时的Cloudera作为大数据领域最耀眼的明星,同样也是资本的宠儿。5年内拿到三笔投资,在2015年华尔街日报的独角兽排名Cloudera排名21,超越了大众点评,而且是唯一上榜的大数据公司
2017年,Cloudera成功上市
1.3、Hadoop风光不再,Cloudera绝地重生
随着大数据技术的发展,Hadoop最赖以成名的HDFS和MapReduce技术逐渐被新的技术取代。被Hadoop深刻影响了十几年的IT界感受到了这个时代的落幕
于是有人开始宣称Hadoop已死,如果这时你搜索“Hadoop is”,自动填充就会显示“dead"。尤其到了2019年,往日的Hadoop三巨头的日子都不太好过。MapR裁员,然后卖给了HPE。Cloudera也与Hortonworks合并,合并后股价连续下跌,CEO离职
Cloudera意识到Hadoop的红利时代已经过去,真正的Cloud Era(云纪元)已经开启,需要开发下一代数据产品以拥抱企业云计算
2019年,合并之后的Cloudera推出了全新一代的大数据平台产品CDP,这是世界上第一款企业数据云平台产品。最大化地整合了Cloudera原来的产品CDH和Hortonworks原来的产品HDP,把这两条产品线里最优势的部分进行整合,并对已有技术提供了增强功能
2022年,原有的CDH和HDP用户均可升级到CDP。Cloudera新一代CDP的数据架构,意味着数据管理方式向混合云的方向转变。CDP可以跨多个主流公有云平台以及私有云平台进行数据管理。无论数据位于何处,企业都能跨多个云处理复杂的数据流程,管理数据并实现多功能分析。对于企业来说,也可以摆脱被单一云平台供应商锁定的风险
2021年Cloudera宣布与阿里云达成合作。CDP将正式入驻阿里云,成为阿里云中的企业数据云,方便国内的企业能更有效地运用数据赋能业务
Cloudera在过去十几年之间的沉沉浮浮让人唏嘘不已,宛如一颗流星划过天空。但有一点Cloudera做的非常明智,那就是审时度势,紧跟技术趋势持续革新,拿得起放得下方显英雄本色
2、透过Cloudera看清大数据时代的转变
2.1、Hadoop大数据时代
2021年10月8日,大数据行业的一个标志性事件发生:Cloudera正式宣布完成了从纳斯达克摘牌和私有化退市
这家曾在开源Hadoop大数据生态下风光一时的开源商业化公司,面对那条再无波澜的价格曲线,想来应是无奈且不甘的
无奈的是,退市当日Cloudera市值只剩47亿美元,才与2014年Intel投资时的估值相当,七年南柯一梦。更不甘的是,和2020年刚上市的另外一家大数据公司SnowFlake市值相比,差了近20倍,凭什么?
要知道在当初,言大数据必言Hadoop。Hadoop大数据时代里,Hadoop也依然没能让Cloudera走向辉煌,仅如一颗流星划过行业的天空,空留一声惆怅。到底问题出在哪里?
让我们先来简单回顾一下Cloudera在过去的十几年经过的一番挣扎
Cloudera成立于2008年,次年便推出了首个Hadoop发行版CDH。CDH产品以企业版收费和开源版免费的方式拓展业务。2014年获得了Intel公司7.4亿美元的投资,估值高达41亿美元。就在同一年,Hadoop体系下的另一家完全开源的软件,以服务收费的Hortonworks成功上市,市值达20亿美元。Cloudera在此轮融资中以41亿美元的估值牢牢坐稳了Hadoop发行商的头把交椅,成为了Hadoop生态的历史高光时刻。Cloudera共计为Hadoop贡献了五六十个组件
但随后的形势转变却让整个行业大跌眼镜,Hortonworks的股价一路下跌,而Cloudera则在2017年经历了一场称为流血的上市。上市估值为19亿美元,远低于Intel三年前投资的估值,近乎腰斩。这一切说明不管大数据多火,但这两家公司事实上的业务增长却如此无力
仅一年后的2018年,这对难兄难弟就宣布合并以试图挽回发展的颓势,合并时的总市值为52亿美元,仅比2014年的高光时刻高出约10亿美元
到了Cloudera宣布完成退市时的市值仅剩47亿美元,这其中还包含了合并Hortonworks的市值,也才仅仅和七年前Intel投资时的那个Cloudera估值相近。这真是一场游戏一场梦,游戏结束了,梦却还在原地打转
而Hadoop生态体系里一度曾经出现过三家商业化公司。除了Cloudera和Hortonworks之外,还有一家公司叫MapR。但MapR也没能逃过经营惨淡的命运,因为无法融到资金,早在2019年就经历了一系列裁员后不得不卖身于HPE而收场
对于这三家公司的惨淡命运,我们不禁想问:问题到底出在哪里?
2.2、云计算与云服务时代
让我们先来看看Hadoop体系:它是一个开源组件生态系统,一套技术工具集的总称。最初改变了企业存储、处理和分析数据的方式,主要包含分布式文件存储(HDFS)、分布式计算(MapReduce)和资源调度(Yarn)等功能,随着技术的演进,组件也随后越来越多,变得相当复杂
如果仅从技术的角度来看,Hadoop让Cloudera身处尴尬的境地,应当说还是存在一定的责任的,主要是技术的局限性和生态的复杂性
-
Hadoop的技术局限性
成本节约和分析性能是Hadoop最吸引人的两个点。但随着企业需求的变化,面对复杂的业务、数据结构及数据源,这两个优势转变成制约企业发展的因素。本地硬件扩容虽然可以满足高峰期的使用需求,但大多数时间这些资源都会被闲置。本地Hadoop环境中无法将存储和计算分离,因此成本也会随着数据集的增加而增加。此时,云成了企业们的首选 -
Hadoop开源生态的复杂性
作为一项开源技术,虽然免费下载,但Hadoop本身却很复杂,对于许多有大数据处理需求的公司来说,让IT部门基于Hadoop进行开发的成本太高,难度也太大。一个Hadoop生态里的开源项目多达几十个,这对于开源社区治理的挑战无疑是巨大的
对于一项生意来说,如果要保证商业上的成功,技术确实是重要的,但技术却绝不是唯一重要的
我们观察到,依赖于Hadoop开源生态的Cloudera遭遇的困境,除了技术之外,更有其业务模式上的致命弱点
开源是一种哲学,但开源并不能保证你能获得足够多的资金来发展和维持你的产品。开源如何发展生意,让企业能盈利,基本上有两条路可选:服务型公司或软件型公司。但还得找到一个可以让用户付费的方式:可持续的技术服务费或软件订阅费
然而不得不承认,没有弹性资源供给、扩展成本快速增加等问题已经成为企业发展的主要矛盾,但Hadoop无法完全解决,而云计算可以很好的解决
2016年,Cloudera试图转型成云计算大数据服务提供商,但由于资金等问题未能实现
2019年,Cloudera与Hortonworks合并后彻底完成了转型。Cloudera果断宣布,对CDH和HDP两条产品线将仅支持到2022年。对于两个产品高度重合的部分会做删减和融合,结果就是推出新的数据平台CDP(Cloudera Data Platform)。2022年后,原CDH和HDP的用户会被转移到CDP上
2019年,Cloudera推出了CDP公有云平台,2020年又推出了CDP私有云平台。Cloudera希望通过统一的平台界面,对数据进行整个生命周期管理,并提供一致的安全和治理服务
但在此过程中,大数据已不再是过去的大数据,它已经经历了从Hadoop时代演变成云时代。由于业务模式没有及时而坚决地向云转型而错失了宝贵的机会,另外,面临公有云产商的竞争时,Cloudera也没有有效利用许可证模式来狙击云厂商
随着云服务的崛起,基于云的大数据解决方案越来越多,并一定程度上体现了更高的效率。可以说,云计算的侵蚀是让Cloudera陷入困境的主要原因
虽然Cloudera自第一天上市时就意识到了它的竞争对手来自AWS云服务和Microsoft Azure这样的公有云巨头,但其自身在转型的过程中却拖泥带水。而当面临那些云巨头的竞争时,由于Hadoop的开源许可证采用Apache的开源许可证,导致它不能像MongoDB那样的开源数据库公司在同样面临云厂商的竞争时可以更容易修改开源许可证以阻击公有云厂商的竞争
现在,Cloudera在做选择时会更加倾向开放的生态
目前,CDP总共引入了三十多个开源组件,这些组件构成了CDP的五大模块:
- 数据仓库(CDW,Cloudera Data Warehouse):计算引擎包括Hive、Impala等。
- 机器学习(CML - Cloudera Machine Learning):CDP集成了Spark 3.0的RAPIDS加速器,加速数据管道并大幅提升数据和机器学习工作流
- 数据工程(CDE,Cloudera Data Engineering):主要包括Spark等在数据工程方面能力很强的组件。其中Spark是Cloudera的重点项目,但在方向上会做一些调整
- 数据流式处理(CDF,Cloudera Data Flow):主要包括Kafka来保证数据加工传输,Flink做流式数据计算,Nifi在边缘(Edge)节点上做加工处理
- 操作型数据库(COD,Cloudera Operational Database):主要是HBase负责历史数据海量存储和查询。目前HBase支持Phoenix二级索引等功能
此外,在存储上,CDP公有云上支持对象存储S3和ADSL;私有云上支持传统的Kudu、HDFS、HBase和对象存储Ozone
针对安全问题,Cloudera提出了SDX(Shared Data Experience)框架
云原生是一个不能回避的话题,Cloudera将拥抱云原生,把云原生支持做的更好
3、参考文章
1)https://zhuanlan.zhihu.com/p/530076039
2)https://zhuanlan.zhihu.com/p/423789403
3)https://cloud.tencent.com/developer/article/1926450
相关文章:

撕掉Hadoop标签,Cloudera未来可期吗?
Cloudera:大数据的弄潮儿 1、Cloudera发展史2、透过Cloudera看清大数据时代的转变3、参考文章 1、Cloudera发展史 说起Cloudera,就不得不提起Hadoop,Cloudera的过去就是Hadoop时代中的一个缩影。作为全球第一家也是最大一家Hadoop商业化公司&…...

排序算法(1)
这里写目录标题 排序插入排序直接插入排序希尔排序 选择排序直接选择排序堆排序向下调整堆排序 交换排序冒泡排序 排序 插入排序 直接插入排序 直接插入排序是O(N^2)的排序算法 从0下标开始往后排 void InsertSort(int* a,int n)//直接插入排序 {fo…...

Top 5 Cutting-edge technology examples 2023
文章目录 Top 5 Cutting-edge technology examples 20231、Computer Vision2、Natural Language Processing3、Virtual Reality & Augmented Reality4、Deep Machine Learning5、Neuralink Top 5 Cutting-edge technology examples 2023 Cutting-edge technology in 2023 …...

【算法|滑动窗口No.3】leetcode3. 无重复字符的最长子串
个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【LeetCode】 🍔本专栏旨在提高自己算法能力的同时,记录一下自己的学习过程,希望…...

元素的水平居中和垂直几种方案
总结一下各种元素的水平居中和垂直居中方案。 水平居中: 1.行内元素水平居中 text-align: center 定义行内内容(例如文字)如何相对它的块父元素对齐;不仅可以让文字水平居中,还可以让行内元素水平居中 注意:给行内…...

JS和JQuery的区别
JS和jQuery都是用于前端开发的工具,但是它们有一些重要的区别。主要区别如下: JS是一种编程语言,而jQuery是一个JS库。JS可以与其他语言一起使用(如PHP、Python等),而jQuery是JS的一个扩展,只能…...

延时摄影视频制作工具 LRTimelapse mac中文版特点介绍
lrTimelapse mac是一款适用于 Windows 和 macOS 系统的延时摄影视频制作软件,可以帮助用户创建高质量的延时摄影视频。该软件提供了直观的界面和丰富的功能,支持多种时间轴摄影工具和文件格式,并具有高度的可定制性和扩展性。 lrTimelapse ma…...

Mac电脑怎么运行 Office 办公软件
虽然 Office 软件也有 Mac 版本的,但是有蛮多小伙伴用起来还是感觉不得劲,毕竟接触了太久的 Windows,所以想要使用 Windows 版本的 Office 软件。 今天就给大家介绍一下怎么在 Mac 电脑中运行 Windows 版本的办公软件,在这里就需…...

FPGA 如何 固化程序到 FLASH中
1、导出Hardware 2、导出bit文件 3、打开SDK 4、 点击Ok 5、创建工程 6、 输入工程名称:guhua 7、选择 Zynq FSBL 8、单击 guhua、然后点击 build 点击:build all 9、 右键之后,点击:Creat Boot Image 10、点击 Cr…...

电源管理(PMIC)MAX20428ATIA/VY、MAX20428ATIC/VY、MAX20428ATIE/VY适合汽车ADAS应用的开关稳压器
一、概述 MAX20428是一款高效率、八路输出、低压PMIC。OUT1将输入电源升压至5V,电流高达500mA,而三个同步降压转换器的输入电压范围为3.0V至4.2V,输出电压范围为0.8V至3.9875V,峰值电流分别高达1.3A、1.3A和3.5A。三个300mA pMOS…...

十年JAVA搬砖路——Linux搭建Ldap服务器。
1.安装命令 yum -y install openldap compat-openldap openldap-clients openldap-servers openldap-servers-sql openldap-devel2.启动ldap systemctl start slapd systemctl enable slapd3.修改密码 slappasswd Aa123456获得返回的密码加密密码串: {SSHA}DkSw0…...

论文 辅助笔记:t2vec train.py
1 train 1.1 加载training和validation数据 def train(args):logging.basicConfig(filenameos.path.join(args.data, "training.log"), levellogging.INFO)设置了日志的基本配置。将日志信息保存到名为 "training.log" 的文件中日志的级别被设置为 INFO&…...

同时标注分割、检测、多分类属性的工具
1、 https://blog.csdn.net/minstyrain/article/details/82385580/ 2、 https://zhuanlan.zhihu.com/p/656703406...

LeetCode75——Day24
文章目录 一、题目二、题解 一、题目 2390. Removing Stars From a String You are given a string s, which contains stars *. In one operation, you can: Choose a star in s. Remove the closest non-star character to its left, as well as remove the star itself.…...

B端企业形象设计的正确姿势,你学会了吗?
如今,企业形象设计在B端市场中变得越来越重要。它是企业与客户之间建立联系的桥梁,也是吸引目标客户的重要方式。为了帮助您打造一个独特而专业的企业形象设计,我将为您提供十个步骤。 步骤1:了解企业定位和目标 在设计B端企业形…...

我在Vscode学OpenCV 基本的加法运算
根据上一篇我们可知__图像的属性 链接:《我在Vscode学OpenCV 处理图像》 属性— API 形状 img.shape 图像大小 img.size 数据类型 img.dtype shape:如果是彩色图像,则返回包含行数、列数、通道数的数组;如果是二值图像或者灰度…...

数据结构与算法解析(C语言版)--线性表
本栏目致力于从0开始使用纯C语言将经典算法转换成能够直接上机运行的程序,以项目的形式详细描述数据存储结构、算法实现和程序运行过程。 参考书目如下: 《数据结构C语言版-严蔚敏》 《数据结构算法解析第2版-高一凡》 软件工具: dev-cpp 0…...

pthread 名字设置及线程标识符获取
pthread 名字设置及ID获取 pthread_setname_np 函数原型: int pthread_setname_np(pthread_t thread, const char *name);thread:要设置名称的线程标识符(pthread_t)。name:要设置的线程名称(以字符串形式…...

17、Flink 之Table API: Table API 支持的操作(1)
Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…...

Ubuntu:解决PyCharm中不能输入中文或者输入一个中文解决方法
1.问题: Ubuntu22.04中,在pycharm里打字输入中文,每次都是只能输入第一个中文,后面输入的都变成了英文字母。。。无论咋调输入法,都没用,反正除了第一个字其他的输进去都是英文,而且汉字下面还…...

Vue3.0 reactive与ref :VCA模式
简介 Vue3 最大的一个变动应该就是推出了 CompositionAPI,可以说它受ReactHook 启发而来;它我们编写逻辑更灵活,便于提取公共逻辑,代码的复用率得到了提高,也不用再使用 mixin 担心命名冲突的问题。 ref 与 reactive…...

项目实战 | 使用Linux宝塔面板搭建商城公众号小程序基础框架
项目实战 | 使用Linux宝塔面板搭建商城公众号&小程序基础框架 1. 小程序/公众号运行的必备条件2. 准备阿里云ECS主机3. 宝塔面板基本配置4. 通过宝塔面板安装相关服务5. 新建站点并进行初始配置6. 服务配置6.1. PHP配置6.2. 数据库配置6.3. Redis配置6.4. 消息队列Supervis…...

IDEA远程调试代码
IDEA->RUN->Edit Configurations 端口随便选一个,选择调试模块,然后用IDEA生成的命令调试 java -agentlib:jdwptransportdt_socket,servery,suspendn,address*:8081 -jar backend-1.18.11.jar &...

目标检测 图像处理 计算机视觉 工业视觉
目标检测 图像处理 计算机视觉 工业视觉 工业表盘自动识别(指针型和数值型)智能水尺识别电梯中电动车识别,人数统计缺陷检测(半导体,电子元器件等)没带头盔检测基于dlib的人脸识别抽烟检测和睡岗检测/驾驶疲…...

【1day】宏景OA get_org_tree.jsp接口SQL注入漏洞学习
注:该文章来自作者日常学习笔记,请勿利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与作者无关。 目录...

设计模式-迭代子模式
迭代子模式是一种行为设计模式,它提供了一种访问和遍历聚合对象中各个元素的方法,而不需要暴露聚合对象的内部表示。迭代子模式将遍历聚合对象的责任交给了迭代子对象,从而实现了聚合对象和迭代子对象的解耦。 在Java中,迭…...

绿色通道 快速理赔,渤海财险用实干书写服务品牌
7月底,受台风“杜苏芮”影响,北京市连续强降雨,西部、西南部、南部遭遇特大暴雨,房山、门头沟、丰台等地陆续出现山洪暴发现象。 灾害无情人有情,为更好地保障人民群众生命财产安全,渤海财险北京分…...

微信小程序怎么制作?【小程序开发平台教学】
随着移动互联网的快速发展,微信小程序已经成为了人们日常生活中不可或缺的一部分。从购物、支付、出行到社交、娱乐、教育,小程序几乎涵盖了我们生活的方方面面。那么,对于有营销需求的企业商家来说,如何制作一个自己的微信小程序…...

HTML、CSS和JavaScript,实现换肤效果的原理
这篇涉及到HTML DOM的节点类型、节点层级关系、DOM对象的继承关系、操作DOM节点和HTML元素 还用到HTML5的本地存储技术。 换肤效果的原理:是在选择某种皮肤样式之后,通过JavaScript脚本来加载选中的样式,再通过localStorage存储。 先来回忆…...

2103. 环和杆
2103. 环和杆 难度: 简单 来源: 每日一题 2023.11.02 总计有 n 个环,环的颜色可以是红、绿、蓝中的一种。这些环分别穿在 10 根编号为 0 到 9 的杆上。 给你一个长度为 2n 的字符串 rings ,表示这 n 个环在杆上的分布。rings 中每两个字符形成一个…...