探索Doris:日志分析的新宠,是否能取代老牌ES?
在大数据时代,日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch(简称 ES)作为一款广泛应用的开源分布式搜索和分析引擎,长期以来在日志管理领域占据着举足轻重的地位。然而,随着技术的不断发展,新的解决方案层出不穷,其中Apache Doris 凭借其卓越特性,在日志存储与分析领域迅速崛起,引发业界热议:Doris 是否会成为新一代王者,取代传统的 Elasticsearch(ES)?
1.ES在日志存储与分析中的现状
ES 凭借其强大的全文搜索功能、高扩展性和灵活的架构,成为了众多企业处理日志数据的首选。它能够快速索引海量日志,使得用户可以通过简单的查询语句,在秒级甚至毫秒级内获取到所需的日志信息。同时,ES 与 Kibana 等可视化工具的紧密集成,为用户提供了直观、便捷的日志分析界面,方便用户进行数据探索、监控和告警。
例如,在互联网公司的运维场景中,ES 可以收集来自各个服务器、应用程序的日志,运维人员通过 ES 的搜索功能,能够迅速定位系统故障时的关键日志信息,从而快速解决问题,保障服务的稳定性。在金融行业,ES 用于分析交易日志,帮助金融机构监测异常交易行为,防范风险。
2.Doris的崛起与特点
Apache Doris 是一款基于 MPP(大规模并行处理)架构的高性能分析型数据库。它专为海量数据分析场景设计,在日志存储与分析方面展现出了诸多令人瞩目的特点。
1.极速查询性能
Doris 采用了向量化执行引擎和高效的存储格式,能够对大规模日志数据进行快速扫描和计算。在复杂查询场景下,Doris 的性能优势尤为明显。例如,当需要对数十亿条日志记录进行多维度分析时,Doris 能够在极短的时间内返回结果,相比传统的数据库和部分分析引擎,查询速度提升了数倍甚至数十倍。这种极速的查询性能,使得运维人员和数据分析人员能够实时获取日志分析结果,及时做出决策。
2.简单易用
Doris 提供了标准的 SQL 接口,对于熟悉 SQL 语言的开发人员和数据分析师来说,几乎没有学习成本。用户可以使用他们熟悉的 SQL 语法进行日志数据的查询和分析,无需学习复杂的查询语法和工具。同时,Doris 的部署和管理也相对简单,降低了企业在技术运维方面的成本和难度。例如,企业只需按照简单的安装步骤,即可快速搭建起 Doris 集群,投入日志分析工作。
3.高扩展性
Doris 的分布式架构支持水平扩展,企业可以根据日志数据量的增长情况,灵活地添加节点来提升系统的存储和计算能力。在面对日志数据量爆发式增长的情况下,Doris 能够轻松应对,保障系统性能不受影响。而且,Doris 在扩展过程中,数据的均衡分布和负载均衡机制能够自动完成,无需人工过多干预,大大提高了系统的可维护性。
3.Doris替换ES进行日志存储与分析的优势
1.成本效益
从硬件成本来看,ES 在处理大规模日志数据时,由于其索引结构和存储方式的特点,往往需要较多的内存和磁盘空间来存储索引数据。而 Doris 以其高效的存储格式,能够在相同的数据量下,占用更少的硬件资源,降低了企业的硬件采购成本。在运维成本方面,Doris 简单易用的特性使得运维人员无需花费大量时间进行复杂的配置和维护工作,减少了人力成本的投入。
2.实时分析能力
日志数据的价值在于实时性,企业需要及时从日志中获取有价值的信息,以便做出快速响应。Doris 的极速查询性能使得它在实时分析日志数据方面表现出色。与 ES 相比,Doris 能够更快地对新写入的日志数据进行分析,为企业提供更及时的决策支持。例如,在电商促销活动期间,企业可以通过 Doris 实时分析用户行为日志,及时调整营销策略,提高销售转化率。
3.数据融合与分析
在实际业务场景中,企业往往需要将日志数据与其他业务数据进行融合分析,以获取更全面的洞察。Doris 作为一款分析型数据库,能够很好地与企业现有的数据仓库、业务数据库等进行集成,方便用户在同一平台上对多种类型的数据进行统一分析。而 ES 主要专注于日志搜索和简单的分析,在数据融合方面相对较弱。
4.案例见证
腾讯音乐:存储成本大瘦身,性能飙升
腾讯音乐拥有海量的音乐内容数据,原先采用 Elasticsearch 与 Doris 的混合架构,前者负责全文检索和标签圈选,后者专注 OLAP 分析。但随着数据量增长,Elasticsearch 存储空间占用大、写入性能受限等问题凸显,混合架构还导致维护成本增加与数据不一致风险。鉴于 Doris 自 2.0 版本起支持倒排索引和全文检索,腾讯音乐将架构统一为 Doris。升级后效果立竿见影,存储成本大幅降低 80%,如某表单日全量数据在 Elasticsearch 需 697.7GB 空间,在 Doris 仅需 195.4GB 。全量数据导入时间从超 10 小时缩至 3 小时内,写入性能提升至 Elasticsearch 的 4 倍,还支持复杂自定义标签计算,极大改善用户体验。
科大讯飞:查询效率飞跃,成本显著降低
科大讯飞的星迹日志中心,起初基于 Elasticsearch 搭建日志处理架构,随着日志数据迅猛增长,CPU 占用高、存储成本高、稳定性差等问题接踵而至。后来尝试采用基于 Grafana Loki 的轻量化架构,依然存在 CPU 使用率高、查询分析效率低等状况。最终,科大讯飞引入 Apache Doris 作为可观测性存储底座。Doris 展现出强大实力,可支撑日均 600 亿条、10TB 的写入流量,与 Elasticsearch 相比,存储成本降至其六分之一,查询效率至少提升 10 倍,尤其是在聚合分析、短语模糊匹配及 topn 命中前缀索引等场景下表现卓越。借助 Doris Manager,集群管理变得便捷轻松,系统还提供 Grafana 和自研 web 查询界面,方便用户进行日志检索与分析。
中信银行:借 Doris 之力,打破 ES 日志处理困境
中信银行信用卡中心每日新增日志达 140 亿条、约 80TB,全量归档超 40PB。早期基于 Elasticsearch 的日志云平台,在数据量激增时,存储成本高、写入慢、检索缓,难满足复杂业务需求。引入 Apache Doris 后,局面扭转。Doris 每日稳定处理百 TB 级日志写入,延迟 1 秒内,支持 PB 级存储,较 ES 存储成本降 60%-80%,还能将冷数据存至低成本介质。在日志检索上,常见查询可秒级响应,具备强大的检索、聚合等分析能力。
5.结语
Apache Doris 凭借其在查询性能、易用性、扩展性以及成本效益等方面的优势,在日志存储与分析领域展现出了强大的竞争力,为企业提供了一种替换 ES 的可行选择。当然,ES 也在不断发展和完善,在某些特定场景下仍然具有不可替代的价值。但无论如何,Doris 的出现为企业的日志管理带来了新的思路和解决方案,促使我们重新审视和优化日志存储与分析的架构。
相关文章:
探索Doris:日志分析的新宠,是否能取代老牌ES?
在大数据时代,日志存储与分析对于企业的运营和决策起着至关重要的作用。Elasticsearch(简称 ES)作为一款广泛应用的开源分布式搜索和分析引擎,长期以来在日志管理领域占据着举足轻重的地位。然而,随着技术的不断发展&a…...
HCIA/HCIP基础知识笔记汇总
HCIA/HCIP基础知识笔记汇总 ICT产业链: 上游:芯片制造、元器件生产、光纤光缆制造 中游:硬件组装、软件开发、网络建设维护 下游:电信服务、互联网服务、终端产品 VLAN端口类型: access :…...
AI战略群与星际之门:软银AI投资版图计划深度解析
一、星际之门:万亿美元级 AI 基础设施革命 1.1 项目背景与战略定位 在 AI 技术迅猛发展的今天,算力已成为推动其前进的核心动力。软银联合 OpenAI、甲骨文、英伟达、微软、arm推出的 “星际之门”(Stargate)计划,无疑是 AI 领域的一颗重磅炸弹。作为 AI 领域史上最大单笔…...
系统思考与时间管理
时间管理的真正秘诀:主动浪费时间? 巴菲特的私人飞机驾驶员觉得自己不够成功,于是向巴菲特请教应该怎么做。巴菲特让他列出了自己人生中最想实现的25个目标,并按重要程度排序,接着安排时间专注做前五件最重要的事情。…...
mac air m系列arm架构芯片安装虚拟机 UTM+debian 浏览器firefox和chrome
成果展示:debian虚拟机,你值得拥有! 预期结果 1、mac的m系列芯片,arm 架构且内存小,安装虚拟机。 考虑到mac m系列芯片8g内存,arm架构想安装一个轻量的虚拟机,偶然之间发现了debian,…...
大模预测法洛四联症的全方位研究报告
目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、法洛四联症概述 2.1 病理特征 2.2 临床表现 2.3 现有治疗手段 三、大模预测法洛四联症的原理与模型构建 3.1 大模预测基本原理 3.2 模型构建的数据收集与处理 3.3 模型训练与优化 四、术前风险预测与准…...
Keepalived+LVS+nginx高可用架构
注明:所有软件已经下载好,防火墙和SELinux已经全部关闭 一.搭建NFS 1.服务端 1.创建文件 [rootnfs ~]# mkdir -p /nfs/data 2、修改权限 [rootnfs ~]# chmod orw /nfs/data 3、写配置文件 [rootnfs ~]# cat /etc/exports /nfs/data 192.168.111.118(r…...
【力扣hot100题】(034)LRU缓存
做完这题已经没有任何力气写链表题了。 思路很简单,就是调试特别的痛苦。 老是频频报错,唉。 class LRUCache { public:struct ListNode{int key,val;ListNode* next; ListNode* prev;ListNode() : key(0), val(0), next(nullptr), prev(nullptr) {}L…...
【redis】缓存 更新策略(定期、实时生存),缓存预热、穿透、雪崩、击穿详解
什么是缓存 redis 最常用的场景 核心思路就是把一些常用的数据,放到触手可及(访问速度更快)的地方 ⽐如我需要去⾼铁站坐⾼铁. 我们知道坐⾼铁是需要反复刷⾝份证的 (进⼊⾼铁站, 检票, 上⻋,乘⻋过程中, 出站…)正常来说, 我的⾝份证是放在…...
好文和技术网站记录
后续不断记录一些本人觉得的好文和一些技术网站 技术网站 Java 全栈知识体系 https://www.pdai.tech/ 文章 利用 NginxKeepalived 实现高可用技术 https://cloud.tencent.com/developer/article/1647182?policyId1004...
使用STM32CubeMX和Keil在STM32上创建并运行一个简单的FreeRTOS多任务程序
目标 利用FreeRTOS运行两个任务,分别为点灯和OLED屏的显示。 利用STM32CubeMX生成Keil工程和相关初始化代码 知识回顾 之前已经利用STM32CubeMX生成过Keil工程和相关初始化代码了,可以去回顾一下,详情见:https://blog.csdn.ne…...
从查重报告入手的精准论文降重秘籍
每个同学在使用论文查重时,为何同一篇文章,可能重复率从10%—30%不等?归根结底还是使用了不同查重系统。其实不同的论文查重与论文AIGC检测系统的算法、数据及模型都不一样,那如何针对这些系统的“个性”精准降重,这篇…...
车辆控制解决方案
车辆控制解决方案 /* * Purpose: 优化车辆控制的功能 -> 用户在控制车辆状态时,实现控制按钮点击状态改变只触发一次onSwitchChange事件,不再下发控制指令,同时清除加载车辆实时状态的定时器status_interval直到有返回值再开启࿰…...
【机器学习】嘿马机器学习(算法篇)第14篇:决策树算法,学习目标【附代码文档】
本教程的知识点为:机器学习算法定位、 K-近邻算法 1.4 k值的选择 1 K值选择说明 1.6 案例:鸢尾花种类预测--数据集介绍 1 案例:鸢尾花种类预测 1.8 案例:鸢尾花种类预测—流程实现 1 再识K-近邻算法API 1.11 案例2:预测…...
Uubuntu20.04复现SA-ConvONet步骤
项目地址: tangjiapeng/SA-ConvONet: ICCV2021 Oral SA-ConvONet: Sign-Agnostic Optimization of Convolutional Occupancy Networks 安装步骤: 一、系统更新 检查系统是否已经更新到最新版本: sudo apt-get update sudo apt-get upgra…...
设计模式 三、结构型设计模式
一、代理模式 代理设计模式(Proxy Design Pattern)是一种结构型设计模式,它为其他对象提供了一个代理,以控制对这个对象的访问。 代理模式可以用于实现懒加载、安全访问控制、日志记录等功能。简单来说,代理模式 就是通…...
C语言函数实战指南:从零到一掌握函数设计与10+案例解析(附源码)
一、函数基础:程序的“积木块” (一)什么是函数? 函数是可重复使用的代码块,用于实现特定功能。如同乐高积木,通过组合不同函数,可快速构建复杂程序。例如: #include <stdio.h>// 函数定义:计算两数之和 int add(int a, int b) {return a + b; }int main() {…...
Prompt攻击是什么
什么是Prompt攻击 Prompt攻击(Prompt Injection/Attack) 是指通过精心构造的输入提示(Prompt),诱导大语言模型(LLM)突破预设安全限制、泄露敏感信息或执行恶意操作的攻击行为。其本质是利用模型对自然语言的理解漏洞,通过语义欺骗绕过防护机制。 Prompt攻击的精髓:学…...
【Linux网络#18】:深入理解select多路转接:传统I/O复用的基石
📃个人主页:island1314 🔥个人专栏:Linux—登神长阶 目录 一、前言:🔥 I/O 多路转接 为什么需要I/O多路转接? 二、I/O 多路转接之 select 1. 初识 select2. select 函数原型2.1 关于 fd_set 结…...
华院计算3项应用成果入选钢铁行业智能制造解决方案推荐目录(2024年)
近日,中国钢铁工业协会发布《钢铁行业智能制造解决方案推荐目录(2024年)》。由中国钢铁工业协会、钢铁行业智能制造联盟共同开展了2024年钢铁行业智能制造解决方案及数字化转型典型场景应用案例遴选、智能制造创新大赛(钢铁行业赛…...
python使用cookie、session、selenium实现网站登录(爬取信息)
一、使用cookie 这段代码演示了如何使用Python的urllib和http.cookiejar模块来实现网站的模拟登录,并在登录后访问需要认证的页面。 # 导入必要的库 import requests from urllib import request, parse# 1. 导入http.cookiejar模块中的CookieJar类,用…...
vector模拟实现2
文章目录 vector的模拟实现erase函数resize拷贝构造赋值重载函数模版构造及其细节结语 我们今天又见面啦,给生活加点impetus!!开启今天的编程之路 今天我们来完善vector剩余的内容,以及再探迭代器失效! 作者ÿ…...
观察者模式在Java单体服务中的运用
观察者模式主要用于当一个对象发生改变时,其关联的所有对象都会收到通知,属于事件驱动类型的设计模式,可以对事件进行监听和响应。下面简单介绍下它的使用: 1 定义事件 import org.springframework.context.ApplicationEvent;pu…...
详解相机的内参和外参,以及内外参的标定方法
1 四个坐标系 要想深入搞清楚相机的内参和外参含义, 首先得清楚以下4个坐标系的定义: 世界坐标系: 名字看着很唬人, 其实没什么大不了的, 这个就是你自己定义的某一个坐标系。 比如, 你把房间的某一个点定…...
在线sql 转 rust 模型(Diesel、SeaORM),支持多数据 mysql, pg等
SQL 转 Rust 在 Rust 语言中,常用 Diesel 和 SeaORM 进行数据库操作。手写 ORM 模型繁琐,gotool.top 提供 SQL 转 Diesel、SeaORM 工具,自动生成 Rust 代码,提高开发效率。 特色 支持 Diesel / SeaORM,生成符合规范…...
高并发内存池(二):Central Cache的实现
前言:本文将要讲解的高并发内存池,它的原型是Google的⼀个开源项⽬tcmalloc,全称Thread-Caching Malloc,近一个月我将以学习为目的来模拟实现一个精简版的高并发内存池,并对核心技术分块进行精细剖析,分享在…...
[Windows] VutronMusic v1.6.0 音乐播放器纯净版,可登录同步
VutronMusic-简易好看的PC音乐播放器 链接:https://pan.xunlei.com/s/VOMq7P_fTyhLUXeGerDVhrCTA1?pwduvut# VutronMusic v1.6.0 音乐播放器纯净版,可登录同步...
macvlan 和 ipvlan 实现原理及设计案例详解
一、macvlan 实现原理 1. 核心概念 macvlan 允许在单个物理网络接口上创建多个虚拟网络接口,每个虚拟接口拥有 独立的 MAC 地址 和 IP 地址。工作模式: bridge 模式(默认):虚拟接口之间可直接通信,类似交…...
【蓝桥杯】每日练习 Day19,20
目录 前言 蒙德里安的梦想 分析 最短Hamilton路径 分析 代码 乌龟棋 分析 代码 松散子序列 分析 代码 代码 前言 今天不讲数论(因为上课学数论真是太难了,只学了高斯消元)所以今天就不单独拿出来讲高斯消元了。今天讲一下昨天和…...
《AI大模型应知应会100篇》第7篇:Prompt Engineering基础:如何与大模型有效沟通
第7篇:Prompt Engineering基础:如何与大模型有效沟通 摘要 Prompt Engineering(提示工程)是与大模型高效沟通的关键技能。通过精心设计的Prompt,可以让模型生成更准确、更有用的结果。本文将从基础知识到高级策略&…...
