当前位置：首页 > news >正文

【大数据】Doris：基于 MPP 架构的高性能实时分析型数据库

news 2026/5/23 21:59:42

Doris：基于 MPP 架构的高性能实时分析型数据库

1.Doris 介绍

Apache Doris 是一个基于 MPP（Massively Parallel Processing，大规模并行处理）架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。基于此，Apache Doris 能够较好的满足 报表分析、即席查询、统一数仓构建、数据湖联邦查询加速 等使用场景，用户可以在此之上构建 用户行为分析、AB 实验平台、日志检索分析、用户画像分析、订单分析 等应用。

Apache Doris 最早是诞生于百度广告报表业务的 Palo 项目， $2017$ 年正式对外开源， $2018$ 年 $7$ 月由百度捐赠给 Apache 基金会进行孵化，之后在 Apache 导师的指导下由孵化器项目管理委员会成员进行孵化和运营。目前 Apache Doris 社区已经聚集了来自不同行业数百家企业的 $400$ 余位贡献者，并且每月活跃贡献者人数也超过 $100$ 位。 $2022$ 年 $6$ 月，Apache Doris 成功从 Apache 孵化器毕业，正式成为 Apache 顶级项目（Top-Level Project，TLP）

Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体，截止目前， Apache Doris 已经在全球超过 $2000$ 家企业的生产环境中得到应用，在中国市值或估值排行前 $50$ 的互联网公司中，有超过 $80\%$ 长期使用 Apache Doris，包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。同时在一些传统行业如金融、能源、制造、电信等领域也有着丰富的应用。

在这里插入图片描述

2.使用场景

如下图所示，数据源经过各种数据集成和加工处理后，通常会入库到 实时数仓 Doris 和 离线湖仓（Hive、Iceberg、Hudi 中），Apache Doris 被广泛应用在以下场景中。

在这里插入图片描述

报表分析
- 实时看板（Dashboards）
- 面向企业内部分析师和管理者的报表
- 面向用户或者客户的高并发报表分析（Customer Facing Analytics）。比如面向网站主的站点分析、面向广告主的广告报表，并发通常要求成千上万的 QPS ，查询延时要求毫秒级响应。著名的电商公司京东在广告报表中使用 Apache Doris ，每天写入 $100$ 亿行数据，查询并发 QPS 上万， $99$ 分位的查询延时 $150$ $m s$ 。
即席查询（Ad-hoc Query）：面向分析师的自助分析，查询模式不固定，要求较高的吞吐。小米公司基于 Doris 构建了增长分析平台（Growing Analytics，GA），利用用户行为数据对业务进行增长分析，平均查询延时 $10$ $s$ ， $95$ 分位的查询延时 $30$ $s$ 以内，每天的 SQL 查询量为数万条。
统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。海底捞基于 Doris 构建的统一数仓，替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构，架构大大简化。
数据湖联邦查询：通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据，在避免数据拷贝的前提下，查询性能大幅提升。

3.技术概述

Doris 整体架构如下图所示，Doris 架构非常简单，只有两类进程

Frontend（FE），主要负责用户请求的接入、查询解析规划、元数据的管理、节点管理相关工作。
Backend（BE），主要负责数据存储、查询计划的执行。

这两类进程都是可以横向扩展的，单集群可以支持到数百台机器，数十 PB 的存储容量。并且这两类进程通过一致性协议来保证服务的高可用和数据的高可靠。这种高度集成的架构设计极大的降低了一款分布式系统的运维成本。
在这里插入图片描述
在 使用接口 方面，Doris 采用 MySQL 协议，高度兼容 MySQL 语法，支持标准 SQL，用户可以通过各类客户端工具来访问 Doris，并支持与 BI 工具的无缝对接。Doris 当前支持多种主流的 BI 产品，包括不限于 SmartBI、DataEase、FineBI、Tableau、Power BI、SuperSet 等，只要支持 MySQL 协议的 BI 工具，Doris 就可以作为数据源提供查询支持。

在 存储引擎 方面，Doris 采用列式存储，按列进行数据的编码压缩和读取，能够实现极高的压缩比，同时减少大量非相关数据的扫描，从而更加有效利用 IO 和 CPU 资源。

Doris 也支持比较丰富的索引结构，来减少数据的扫描：

Sorted Compound Key Index：可以最多指定三个列组成复合排序键，通过该索引，能够有效进行数据裁剪，从而能够更好支持高并发的报表场景。
Z-order Index：使用 Z-order 索引，可以高效对数据模型中的任意字段组合进行范围查询。
Min/Max：有效过滤数值类型的等值和范围查询。
Bloom Filter：对高基数列的等值过滤裁剪非常有效。
Invert Index：能够对任意字段实现快速检索。

在存储模型方面，Doris 支持多种存储模型，针对不同的场景做了针对性的优化：

Aggregate Key 模型：相同 Key 的 Value 列合并，通过提前聚合大幅提升性能。
Unique Key 模型：Key 唯一，相同 Key 的数据覆盖，实现行级别数据更新。
Duplicate Key 模型：明细数据模型，满足事实表的明细存储。

Doris 也支持强一致的物化视图，物化视图的更新和选择都在系统内自动进行，不需要用户手动选择，从而大幅减少了物化视图维护的代价。

在 查询引擎 方面，Doris 采用 MPP 的模型，节点间和节点内都并行执行，也支持多个大表的分布式 Shuffle Join，从而能够更好应对复杂查询。
在这里插入图片描述
Doris 查询引擎是向量化的查询引擎，所有的内存结构能够按照列式布局，能够达到大幅减少虚函数调用、提升 Cache 命中率，高效利用 SIMD（Single Instruction Multiple Data，单指令多数据流）指令的效果。在宽表聚合场景下性能是非向量化引擎的 $5$ ~ $10$ 倍。
在这里插入图片描述
Doris 采用了 Adaptive Query Execution（自适应查询执行） 技术，可以根据 Runtime Statistics 来动态调整执行计划，比如通过 Runtime Filter 技术能够在运行时生成 Filter 推到 Probe 侧，并且能够将 Filter 自动穿透到 Probe 侧最底层的 Scan 节点，从而大幅减少 Probe 的数据量，加速 Join 性能。Doris 的 Runtime Filter 支持 In / Min / Max / Bloom Filter。

在 优化器 方面 Doris 使用 CBO（Rule-Based Optimizer）和 RBO（Cost-Based Optimizer）结合的优化策略，RBO 支持常量折叠、子查询改写、谓词下推等，CBO 支持 Join Reorder。目前 CBO 还在持续优化中，主要集中在更加精准的统计信息收集和推导，更加精准的代价模型预估等方面。

【大数据】Doris：基于 MPP 架构的高性能实时分析型数据库

Doris：基于 MPP 架构的高性能实时分析型数据库

1.Doris 介绍

2.使用场景

3.技术概述

相关文章：

【大数据】Doris：基于 MPP 架构的高性能实时分析型数据库

【rust/egui】(五)看看template的app.rs：SidePanel、CentralPanel以及heading

MTK6833_MT6833核心板_天玑700安卓5G核心板规格性能介绍

Maven-Java代码格式化插件spring-javaformat

设计模式之八：模板方法模式

hive可以删除单条数据吗

python3-Flask实现Api接口

微分享 - 超实用开发日常排查问题Linux运维命令

Pico如何使用C/C++选择哪个I2C控制器，以及SDA和SCL针脚

求生之路2私人服务器开服搭建教程centos

Redis7之介绍(一)

基于Python+djangoAI 农作物病虫害预警系统智能识别系统设计与实现（源码＆教程）

Kotlin Flow 转换以及上下游处理

深度学习3. 强化学习-Reinforcement learning | RL

TCP/IP网络江湖武艺传承：物理层与通信江湖的幕后

智慧能源管理系统助力某制造企业提高能源利用效率

opencv/C++ 人脸检测

UE4/5的Custom节点：在VScode使用HLSL（新手入门用）

小研究 - J2EE 应用服务器的软件老化测试研究

Tomcat和Servlet基础知识的讲解（JavaEE初阶系列16）

Ryujinx模拟器完整指南：在PC上免费畅玩Switch游戏的终极解决方案

基于Java的外卖点餐配送系统_43lq510m

Lindy流程自动化效果衰减真相：3年追踪数据显示，未做持续治理的企业6个月后效率回落至基线112%

从开发者视角浅谈Taotoken用量看板对于日常调试与优化的辅助作用

如何在Windows上让DualShock 3控制器重获新生？DsHidMini虚拟HID驱动技术解析

3步快速上手：Windows安卓应用安装器的终极指南

工业机器视觉工控机选型指南：从硬件配置到现场调试

网络资源嗅探与下载技术实践：res-downloader跨平台解决方案

深入CPU内部：8086的MUL指令是如何工作的？从硬件视角理解乘法结果为何放在AX和DX

轨迹在线识别导向的3D折线焊缝机器人摆动GMAW实时跟踪系统【附程序】