基于Doris实时数据开发的一些注意事项
300万字!全网最全大数据学习面试社区等你来!
最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。
基于Doris的一些存储实时数仓在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现在社区分享中。但是我们得客观看待这种方案,基于存储的实时数仓有优势也有他的劣势,生产环境中我们要谨慎评估个人的业务场景。这篇文章我结合个人的实践和思考简单说说这个问题。。
为什么有这样的方案?
基于Doris等OLAP实现实时计算的业务很多情况下是基于以下考虑。
在更多的情况下,基于Flink的实时数据开发难度要显著高于离线任务(二者根本不在一个数量级),基于Doris的存储实时数据开发可以显著降低开发门槛,但是存在滥用的可能。
其次,Flink在大窗口、大状态、灵活计算的场景下并不擅长(注意这里是不擅长,不是不能),例如在多流Join、维表变更频繁、口径多变的场景下,开发成本极高,但是Doris可以显著降低这一点。
最后,基于Flink的计算数据可观测性差,例如状态数据是不可见的,排查问题,Debug都存在显著门槛,修复历史数据也非常困难。
所以大家可以看到,上述基于Flink为主的实时数据开发存在不小的门槛。所以我们有一个定性的结论,在亿级(或者数千万)数据规模以下,可以使用类似Doris这种的分析引擎,仿照离线数据一样进行分层和定时调度,处理大窗口数据(一般时间跨度超过30天),在保证性能的前提下,降低实时数据的开发成本,并且极大提高了数据的可观测性,开发运维效率也有一定提升。
和基于Flink的一些方案对比
门槛低,开发简单
所有人都可以开发这样的任务;
运维简单
因为不像Flink一样考虑状态兼容,不需要大量的资源长期占用。只在运行SQL时需要调度资源;
开发效率提升
不需要对Flink有很深入的理解(当然这不是好事),几乎不存在参数条有,测试简单,无需启动调度容器(例如TaskManager和Task的调度);
数据调试方便,中间结果落地可见
没有Flink的状态数据,所有数据都在表中可查。
上面几点是一些优势,但是基于Doris的这种方案也存在明显的短板,需要大家特别注意!
延迟明显
如果你采用了Doris,那么我们大概率是配合定时调度进行的,一般调度周期在30秒级以上,意味着数据实时性大幅降低,一些实时观测的指标例如实时GMV、在线人数等场景不适用;
数据规模限制
如果你采用了Doris,那么意味着,你的TPS不能过高,这不是Doris擅长的领域,需要大家特别注意。另外单次扫描的数据不能过大,正如我们前面所说,亿级(或者数千万)数据规模以下才有比较好的性能保证。
最后,如果你真的选择以Doris为主的实时数据开发,那么意味着Doris会成为你的成本、运维中心。要有非常严格的配套工具,例如报警、任务运行监控、任务规范性、调度和血缘能力。要特别注意资源和SQL性能问题,一旦他们成为瓶颈,会影响所有基于Doris的任务运行。
如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!


2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)
互联网最坏的时代可能真的来了
我在B站读大学,大数据专业
我们在学习Flink的时候,到底在学习什么?
193篇文章暴揍Flink,这个合集你需要关注一下
Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS
Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点
我们在学习Spark的时候,到底在学习什么?
在所有Spark模块中,我愿称SparkSQL为最强!
硬刚Hive | 4万字基础调优面试小总结
数据治理方法论和实践小百科全书
标签体系下的用户画像建设小指南
4万字长文 | ClickHouse基础&实践&调优全视角解析
【面试&个人成长】2021年过半,社招和校招的经验之谈
大数据方向另一个十年开启 |《硬刚系列》第一版完结
我写过的关于成长/面试/职场进阶的文章
当我们在学习Hive的时候在学习什么?「硬刚Hive续集」
相关文章:
基于Doris实时数据开发的一些注意事项
300万字!全网最全大数据学习面试社区等你来! 最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。 基于Doris的一些存储实时数仓在越来越多的场景中开始有一些实践。大家也看到了这种方案频繁出现…...
竞赛项目 深度学习疲劳驾驶检测 opencv python
文章目录 0 前言1 课题背景2 实现目标3 当前市面上疲劳驾驶检测的方法4 相关数据集5 基于头部姿态的驾驶疲劳检测5.1 如何确定疲劳状态5.2 算法步骤5.3 打瞌睡判断 6 基于CNN与SVM的疲劳检测方法6.1 网络结构6.2 疲劳图像分类训练6.3 训练结果 7 最后 0 前言 🔥 优…...
20.4 HTML 表单
1. form表单 <form>标签: 用于创建一个表单, 通过表单, 用户可以向网站提交数据. 表单可以包含文本输入字段, 复选框, 单选按钮, 下拉列表, 提交按钮等等. 当用户提交表单时, 表单数据会发送到服务器进行处理.action属性: 应指向一个能够处理表单数据的服务器端脚本或UR…...
Linux——基础IO(1)
目录 0. 文件先前理解 1. C文件接口 1.1 写文件 1.2 读文件 1.3 输出信息到显示器 1.4 总结 and stdin & stdout & stderr 2. 系统调用文件I/O 2.1 系统接口使用示例 2.2 接口介绍 2.3 open函数返回值 3. 文件描述符fd及重定向 3.1 0 & 1 & 2 3.2…...
MFC第二十七天 通过动态链表实现游戏角色动态增加、WM_ERASEBKGND背景刷新的原理、RegisterClass注册窗口与框架程序开发
文章目录 通过动态链表实现游戏角色动态增加CMemoryDC.hCFlashDlg.hCFlashDlg.cpp WM_ERASEBKGND背景刷新的原理RegisterClass注册窗口与框架程序开发CFrameRegister 通过动态链表实现游戏角色动态增加 CMemoryDC.h #pragma once#include "resource.h"/*内存DC类简介…...
Debezium系列之:基于内容路由实现把数据库表中的数据按照数据类型分发到不同的topic
Debezium系列之:基于内容路由实现把数据库表中的数据按照数据类型分发到不同的topic 一、需求背景二、创建表三、插入、更新、删除数据四、核心参数和实现技术五、查看分发的Topic六、消费Topic数据七、总结和延展一、需求背景 一张表中存有各个超市门店的订单信息,例如超市门…...
苹果账号被禁用怎么办?
苹果账号被禁用怎么办? 转载:苹果账号被禁用怎么办? 当我们使用苹果手机登录App Store时,有时会遇到账号被禁用的提示。总结下来, 账号被禁用的原因可能有以下几种: 禁用的原因 1.在不同的设备上登录Ap…...
文章一:快速上手Git - 从零到一:Git版本控制入门指南
开始本篇文章之前先推荐一个好用的学习工具,AIRIght,借助于AI助手工具,学习事半功倍。欢迎访问:http://airight.fun/。 概述 在软件开发和团队协作中,版本控制是一项至关重要的技术。Git作为现代开发者最喜爱的版本控…...
【用unity实现100个游戏之6】制作一个战旗自走棋类游戏(附源码)
文章目录 前言导入素材开始1. 设置瓦片间隙2. 放置全图瓦片3. 美化瓦片地图4. 添加树木障碍物5. 设定不同的排序图层6. 瓦片交互6. 瓦片交互优化6. 瓦片是否允许角色7. 添加角色8. 新增游戏管理脚本9. 角色移动范围逻辑10. 角色移动范围可视化11. 角色移动12. 重置瓦片颜色12. …...
W5100S-EVB-PICO 做TCP Server进行回环测试(六)
前言 上一章我们用W5100S-EVB-PICO开发板做TCP 客户端连接服务器进行数据回环测试,那么本章将用开发板做TCP服务器来进行数据回环测试。 TCP是什么?什么是TCP Server?能干什么? TCP (Transmission Control Protocol) 是一种面向连…...
dinput8.dll导致游戏打不开的解决方法,快速修复dinput8.dll文件
当你尝试启动某个游戏时,如果遇到dinput8.dll文件缺失或损坏的错误提示,可能会导致游戏无法正常运行。dinput8.dll是DirectInput API的一部分,它提供了游戏手柄、键盘和鼠标等输入设备的支持。本文将详细介绍dinput8.dll的作用、导致游戏无法…...
NAS相关
Debian11 更换软件源 备份 #备份软件源列表 cp /etc/apt/sources.list /etc/apt/sources.list.bak编辑sources.list nano /etc/apt/sources.list替换文件内容 deb http://mirrors.163.com/debian/ bullseye main non-free contrib deb http://mirrors.163.com/debian/ bull…...
26.Netty源码之ThreadLocal
highlight: arduino-light JDK ThreadLocal 如果你需要变量在多线程之间隔离,或者在同线程内的类和方法中共享,那么 ThreadLocal 大显身手的时候就到了。ThreadLocal 可以理解为线程本地变量,它是 Java 并发编程中非常重要的一个类。 ThreadL…...
Mysql SUBSTRING_INDEX - 按分隔符截取字符串
作用: 按分隔符截取字符串 语法: SUBSTRING_INDEX(str, delimiter, count) 属性: 参数说明str必需的。一个字符串。delimiter必需的。分隔符定义,是大小写敏感,且是多字节安全的count必须的。大于0或者小于0的数值…...
封装Ellipsis组件,亲测使用各种场景
自己封装了Ellipsis组件 基于reacttaro,以下是实现代码,分为JSX和CSS文件 JSX代码如下: import { FC, Fragment, JSX, useState } from react; import { Image, StandardProps, Text, View } from tarojs/components;import iconDropDown fr…...
Kendo UI for jQuery,一个现代的jQuery UI组件!
Kendo UI for jQuery是什么? Kendo UI for jQuery是完整的jQuery UI组件库,可快速构建出色的高性能响应式Web应用程序。Kendo UI for jQuery提供在短时间内构建现代Web应用程序所需要的工具,从多个UI组件中选择,并轻松地将它们组…...
C++初阶语法——类和对象
前言:C语言中的结构体,在C有着更高位替代者——类。而类的实例化叫做对象。 本篇文章不定期更新扩展后续内容。 目录 一.面向过程和面向对象初步认识二.类1.C中的结构体2.类的定义类的两种定义方式 3.类的访问限定符及封装访问限定符说明 4.类的实例化对…...
linux学习(进程创建)[8]
创建进程 myproc.c #include <stdio.h> #include <unistd.h>int main() {printf("我是父进程\n");pid_t id fork();if(id < 0){printf("创建子进程失败\n");return 1;}else if(id 0){while(1){printf("我是子进程: pid…...
Linux基础与应用开发系列九:各类系统函数
open_close函数 OPEN函数 头文件: #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> 函数原型: 当文件存在时 int open(const char* pathname,int flags) 当文件不存在时 int open (const char* pathname,int f…...
国产数据库排行
目录 一、理论 1.国产数据库排行 2.数据 一、理论 1.国产数据库排行 (1)墨天轮榜单 墨天轮国产数据库流行度排行于2019年6月推出,通过近50个维度的数据来考察近300个国产数据库的流行度排行,每月1日更新排行数据,…...
ldsc跨物种计算
library(Seurat) library(dplyr) library(data.table) library(GenomicFeatures) library(parallel) library(clusterProfiler) #library(tidyverse) library(patchwork) #####分细胞类型进行ldsc计算###1.准备猴与人类同源gene转换 ## 以人和食蟹猴为例(此处需要联…...
别急着重装!YOLOv8推理报错‘No module named ultralytics.nn.modules.conv’的三种高效排查与修复姿势
YOLOv8模块缺失报错深度排查指南:从堆栈解析到依赖治理 遇到No module named ultralytics.nn.modules.conv这类报错时,许多开发者的第一反应往往是重装环境或替换文件。但这类粗暴操作可能掩盖更深层次的问题。本文将带你用系统化思维拆解这类模块缺失错…...
从AWS部署到Node.js路由调试
在现代Web开发中,部署应用程序到云服务已经成为一种常见的实践。特别是对于那些刚接触Node.js、Express和AWS的新手开发者来说,部署过程中的问题往往是学习的良好契机。本文将通过一个实际案例,详细介绍如何在AWS环境中调试Node.js应用程序的路由问题。 背景介绍 最近,我…...
外包经历对程序员职业生涯的影响
外包经历对程序员职业生涯的影响 在当今全球化的技术环境中,外包已成为许多企业降低成本、提高效率的重要手段。对于程序员而言,参与外包项目既是机遇也是挑战。外包经历不仅能拓宽技术视野,还可能对职业发展产生深远影响。本文将从多个角度…...
解锁英雄联盟国服视觉新体验:R3nzSkin内存换肤技术深度解析
解锁英雄联盟国服视觉新体验:R3nzSkin内存换肤技术深度解析 【免费下载链接】R3nzSkin-For-China-Server Skin changer for League of Legends (LOL) 项目地址: https://gitcode.com/gh_mirrors/r3/R3nzSkin-For-China-Server 在英雄联盟的游戏世界里&#x…...
3DMAX模型转Web 3D?用Max2Babylon插件导出glTF的完整避坑指南
3DMAX模型转Web 3D?用Max2Babylon插件导出glTF的完整避坑指南 当设计师需要将精心制作的3DMAX模型搬上网页时,glTF格式正成为Web 3D展示的新标准。但在这个从离线到在线的转换过程中,材质丢失、坐标错乱、动画失效等问题屡见不鲜。本文将深入…...
别只盯着VIF>10:多重共线性的3个实战处理策略与误区避坑
别只盯着VIF>10:多重共线性的3个实战处理策略与误区避坑 当你第一次看到回归分析结果中某个变量的VIF值飙升至两位数时,那种手足无措的感觉我太熟悉了。三年前我刚接手一个电商用户价值预测项目时,就曾被"收入"和"消费金额…...
Java工厂ERP系统源码(SpringMVC+SSM+MyBatis+MySQL)含完整技术文档
温馨提示:文末有联系方式项目概述 本系统是一款面向制造业场景深度定制的Java企业计划(ERP)解决方案,专为工厂级生产管理、库存调度、采购及协同等核心业务设计,具备高扩展性与模块化结构。技术栈说明 采用主流Java企业…...
Pixel Aurora Engine 移动开发前瞻:为 Android Studio 项目生成应用图标与 UI 素材
Pixel Aurora Engine 移动开发前瞻:为 Android Studio 项目生成应用图标与 UI 素材 1. 移动开发者的素材困境 每个Android开发者都经历过这样的痛苦:项目进入UI开发阶段后,设计师交付的素材往往需要手动处理成各种尺寸和格式。从应用图标到…...
VS Code Remote-Containers 插件突然失效(v0.312+ 版本特有),官方未文档化的 breaking change 及向下兼容降级路径
更多请点击: https://intelliparadigm.com 第一章:VS Code Remote-Containers 插件突然失效(v0.312 特有)问题概览 自 VS Code Remote-Containers 插件升级至 v0.312 及更高版本后,大量用户报告容器连接中断、devcont…...

300万字!全网最全大数据学习面试社区等你来!