当前位置: 首页 > article >正文

转载|AI 成为主流负载后,数据基础设施将如何演进?|Apache Doris 2026 Roadmap

在过去几年中数据基础设施的演进始终围绕一个核心问题展开如何更快地分析数据但进入 2026 年这个问题正在被重新定义。随着 AI 应用的爆发式增长数据系统不再只是分析工具而逐渐成为 智能系统的一部分。数据不再只是被查询而是被 Agent 调用、被模型理解、被系统实时消费。在这样的背景下Apache Doris 社区提出了 2026 年的年度主题Scale Intelligence, Accelerate Insight如果说过去 Doris 关注的是更快的数据分析那么在 2026 年我们要回答的问题是当AI成为主流负载之后数据库应该演进成什么样子01 2025变化的起点回看 2025 年Apache Doris 的演进路径其实已经显露出这一变化的方向。过去一年社区发布了两个重要版本——3.1 与 4.0分别在数据分析能力与检索能力上实现了关键突破。在 3.1 版本中进一步夯实了 Doris 在半结构化数据分析场景与 Lakehouse 上的基础能力并在大量生产环境中得到稳定应用。在半结构化数据分析上围绕面向 JSON 的 Variant 类型持续完善功能并优化性能同时提升倒排索引与全文检索在空间利用率与可扩展性上的表现并引入更灵活的 tokenizer 插件机制在 Lakehouse 方向增强了对 Iceberg、Paimon 等外部数据源的支持能力物化视图与查询优化能力持续提升同时优化了数据写入与更新性能。在 3.1 版本中大量的精力被投入到一个看似比较局部的能力上——JSON在当时主要是为日志、事件等半结构化数据服务。但进入AI时代这类结构不稳定、模式不固定的数据正在成为主流数据形态。到了 4.0这种变化进一步加速。相较于 3.14.0 的核心演进可以概括为“混合检索与分析能力”的建立。越来越多的业务负载从结构化与半结构化数据延伸至非结构化数据分析场景。从数据库视角来看这一变化本质上对语义检索能力提出了更高要求。以典型应用为例企业需要对音频、视频、图像等非结构化数据进行 embedding将其转化为向量形式存储并在此基础上实现语义检索。基于这一趋势Doris 在 4.0 版本中正式引入了 Vector Search 能力从而实现在同一引擎内对结构化数据、半结构化数据以及向量数据的统一检索。而这也让 Doris 的定位发生本质的转变从一个分析型数据库走向一个能够在AI时代同时承载分析与检索的统一数据平台。02 AI 带来哪些机遇与挑战进入 2026 年AI 正在从应用层快速渗透至数据基础设施层。首先数据形态发生显著变化。以 Agent 交互、模型输出与用户行为记录为代表的数据大量以 JSON 形式存在且在规模与结构上高度不确定。这使问题不再只是能否支持 JSON而是在 schema 持续变化、列数不断膨胀的情况下如何仍然保持高效的存储与分析能力由此延伸出的是AI可观测性AI Observability问题。围绕 Agent 行为日志展开分析正在重塑传统以 trace、logs、metrics 为核心的分析方式成为理解系统运行机制与识别行为模式的重要手段。与此同时AI数据还带来了更高并发与更强实时性的要求。单个 Agent 请求往往会触发大量底层访问从而显著提高系统对并发处理能力与响应时效的要求。未来的使用模式将更强调快速反馈而非长时间等待复杂推理过程完成。此外统一平台的重要性进一步提升。企业更倾向于在同一数据基础上同时支持分析、检索等多样化需求从而降低系统复杂度并保证数据一致性。03 2026 年从场景看演进围绕这些变化Doris 在 2026 年的演进可以从四类关键场景来理解。半结构化数据分析 AI 可观测性AI 应用带来的一个直接变化是 JSON 等半结构化数据的快速增长。问题的关键在于如何在深层嵌套结构、列数持续扩展的情况下仍然保持可接受的存储成本与查询性能。与此同时随着 Agent、LLM tracing 等新型应用快速发展围绕 JSON 日志的分析也正逐步成为 AI 可观测性的重要组成部分。在技术路径上持续增强 Variant Type在兼顾灵活性的同时兼具列式存储性能构建统一的可观测性数据底座将 trace、logs、metrics 等统一纳入 Doris并与 OpenTelemetry 等生态深度集成。在具体实现上支持深层嵌套 JSON 结构持续优化稀疏列与字符串列的高效存储机制以提升存储效率与查询性能。在此基础上继续完善列式能力支持如部分列更新、索引能力及超宽表处理进一步强化 Variant 类型在 JSON 与半结构化数据分析场景中的整体支撑能力。在此背景下AI 可观测性也逐渐成为这一场景的重要延伸。此前社区已通过相关实践展示了如何借助 Apache Doris 对类似 OpenClaw 这类黑盒系统的内部运行过程进行分析并从中识别包括安全风险在内的多种行为模式这正是 AI 可观测性的典型应用场景之一。混合检索与分析HSAP在 AI 场景中检索范式正在从单一模式走向融合。在混合检索出现之前用户通常需要额外引入向量数据库或 Elasticsearch 等检索系统以满足语义检索与全文检索需求。然而这种割裂式架构存在明显局限仅依赖向量检索时精确匹配能力不足仅依赖文本检索时又难以覆盖语义相关但不包含关键词的内容。基于这一背景Doris 在 4.0 版本中引入了混合检索能力使用户能够通过单一 SQL 同时完成全文检索、语义打分与向量检索从而兼顾关键词精确匹配与语义召回能力。在 2026 年混合检索与分析及相关能力将进一步增强持续增强语义检索与 Vector Search引入基于磁盘的 ANN 算法与数据结构以支持百亿级向量的高效存储与检索。进一步融合向量能力与存储计算体系包括在 Merge-on-Write 上构建可更新索引、优化索引优先访问路径以及提升向量数据压缩与管理效率。持续增强全局索引与延迟物化能力以优化以 TopN 为主的语义检索查询在减少数据访问量的同时显著提升性能。探索开放湖格式上的向量能力建设使用户在无需迁移数据的前提下即可在 Iceberg、Paimon 等数据湖之上实现高效的向量检索与分析进一步打通湖仓一体化生态。多模态场景 AI SQL作为以 SQL 为核心的数据库系统Doris 最初面向结构化数据设计但随着 AI 应用发展多模态需求快速增长推动其在该方向持续演进。Doris 在这一方向的核心目标是降低数据处理门槛并统一处理流程AISQL 与 PythonUDF结合形成覆盖数据预处理、特征提取、向量构建与分析的一体化能力体系支撑更加完整的多模态数据处理链路。引入 File 数据类型该数据类型在不同执行环境下可具备不同语义。如在 SQL 中用于访问文件元数据在 AI SQL 或 Python UDF 中则可直接处理文件内容从而支持 embedding 与内容分析。通过上述能力的逐步完善Doris 的目标是在多模态场景下依托统一的数据平台为用户提供从数据接入、处理到分析的端到端能力支持。面向 Agent 的分析能力当数据库的主要调用方从人转向 Agent交互方式也随之改变。仅依赖 Text-to-SQL 难以支撑复杂场景因为 Agent 在缺乏语义信息时难以稳定生成正确查询。因此Doris 在 2026 年将重点建设加强语义层建设包括数据标签体系与元数据开放 API以支持构建更灵活、可控的语义层并提升 Agent 交互质量。持续推进 Data Agent 集成使数据库具备面向 Agent 的原生服务能力从而支持更自然的交互与更准确的结果返回。完善元数据API强化对外部 Catalog 的集成能力以对接统一的数据管理、权限与语义体系为 Agent 提供一致、可靠的数据理解基础。04 2026 年从能力看演进上述场景的落地最终依赖于底层能力的持续演进。查询引擎能力、性能与稳定性提升在 2026 年查询引擎的演进将围绕三个核心目标展开。能力完善。提供更丰富且兼容性更强的 SQL 语法与函数支持包括 ASOF Join、Recursive CTE、UNNEST 等能力持续推进语法简化与兼容性增强降低 Lakehouse 场景下的迁移成本MERGE INTO 能力增强支持在单条 SQL 或事务中完成更完整的 CDC 流程。性能优化。强化 Condition Cache缓存 Block 级过滤结果以降低运行时计算开销重构 ZoneMap智能索引表达式提升数据过滤效率提升复杂列场景JSON列裁剪能力支撑高并发场景下稳定性能表现。大规模任务的执行能力与稳定性提升即“Run Big Run Stable”。优化 Spill-to-Disk 与 Global Buffer Mgmt 内存管理能力系统在资源受限情况下仍能稳定执行大规模任务。同时持续完善查询可观测性使用户在调度平台与交互式查询场景中直观地理解执行状态。存储引擎规模、缓存与弹性优化在存储层面围绕规模Scale、缓存Cache与弹性Elasticity三个核心方向展开。在规模方面重点解决超宽表场景与大规模 Tablet 带来的元数据与管理问题比如 JSON 经 Variant 子列抽取后列数可能扩展至数千甚至上万列类似问题在 Parquet 等列式系统中同样存在。在缓存方面持续优化 Smart Caching 加强跨计算组缓存预热、细粒度缓存策略及分布式共享缓存能力缓存策略也将支持基于时间范围、表级或分区级定义缓存策略或对特定热点分区进行定向预热。在弹性方面结合云基础设施优化动态伸缩能力提升扩缩容效率、优化多计算组读写分离以及通过元数据持久化与本地缓存机制加快节点启动过程降低切换带来的性能影响。总体而言存储层的演进一方面面向更大规模与更复杂数据结构另一方面致力于在存算分离架构下提供更加稳定、高效的实时服务能力。开放数据湖读写能力与统一治理在开放数据湖方向随着 Lakehouse 架构逐步成为主流Iceberg、Paimon 等开放湖格式持续演进。2026 年Doris 将围绕读Read、写Write与治理Govern三个核心维度展开能力建设。查询能力在不迁移数据的前提下让湖表查询性能尽可能接近内表。优化在 Iceberg、Paimon 等湖表的实时查询能力增强 Parquet Page Cache 与本地 File Block Cache并将 Condition Cache 扩展至湖表场景同时通过 Distributed Planning 优化超大规模湖表的元数据规划与解析。湖表管理能力支持 Iceberg 与 Paimon 的完整生命周期管理包括 DDL 与 DMLUpdate、Delete、Merge Into。同时持续跟进生态演进如 Iceberg V3 行级血缘与 Paimon 索引能力。生态接入能力一方面深化与 Flink 的集成推进 Streaming Lakehouse另一方面扩展 Arrow Flight 能力并引入基于 Arrow Flight 的 Catalog降低多数据源接入成本拓展数据访问边界。统一治理能力加强与各类 Catalog 服务的深度集成包括支持第三方认证接入、兼容 Iceberg 与 Paimon 的 REST Catalog 标准以及完善自身元数据 Open API 能力。使 Doris 能无缝融入现有数据治理体系。06 结束语数据形态正在从结构化走向 JSON、向量与多模态数据使用方式也从面向人扩展到面向 Agent 。数据库面对的不再是单一分析负载而是分析、检索与 AI Agent 并存的复合负载。Apache Doris 在 2026 年的规划核心不再只是提升分析性能而是响应AI时代数据基础设施的根本变化。Scale Intelligence, Accelerate Insight不仅是年度主题也定义了 Doris 在AI时代的演进方向。如果你对这些方向感兴趣或者正在做相关探索欢迎了解和参与 Apache Doris 社区想看看最新能力 可以体验最新版本想了解实现细节 可以阅读官方文档有实践经验或问题 欢迎一起交流讨论也欢迎一起参与开源贡献让这些能力真正落地 GitHub: https://github.com/apache/doris 官方网站https://doris.apache.org转载 SelectDB 文章

相关文章:

转载|AI 成为主流负载后,数据基础设施将如何演进?|Apache Doris 2026 Roadmap

在过去几年中,数据基础设施的演进始终围绕一个核心问题展开:如何更快地分析数据? 但进入 2026 年,这个问题正在被重新定义。随着 AI 应用的爆发式增长,数据系统不再只是分析工具,而逐渐成为 智能系统的一部…...

零基础药师用药指导入门指南,新手避坑看完就能直接上手

很多2026年想零基础入门做药师用药指导的新人,刚上手都会踩各种坑,要么整理资料耗光时间,要么记不住核心要点不敢实操。这篇整理了避坑要点,看完就能直接上手。我自己是跨专业考的药师证,刚考完准备入行的时候&#xf…...

运维必看:如何用Java Oshi监控Linux服务器性能并接入Prometheus+Grafana

Java Oshi与PrometheusGrafana构建Linux服务器监控体系实战 在云原生时代,服务器性能监控已成为运维工程师的日常必修课。想象这样一个场景:凌晨三点,服务器CPU突然飙升至95%,而你的手机开始被告警短信轰炸。此时如果能快速定位是…...

房产看房记录口碑推荐|经筛选优质实用选择整理分享

给大家整理了2026年实测过,适合房产看房记录整理的优质工具,都是筛完口碑留下的实操款,主打看完就能用,帮你解决看完房对着几小时录音不想整理的痛点,直接拿就能用。这次选工具我盯了四个核心维度,都是看房…...

从物理到代码:用Cesium Cartesian3向量,手把手教你理解三维空间中的‘力’与‘运动’

从物理到代码:用Cesium Cartesian3向量,手把手教你理解三维空间中的‘力’与‘运动’ 在三维图形编程中,向量运算就像物理世界中的"语言翻译器",将我们熟悉的力学概念转化为计算机能理解的数学表达。想象一下&#xff0…...

现在禁用不安全代码还来得及吗?C# 13三大Runtime安全增强(MemorySanitizer预览、Span<T>越界零容忍、Unsafe.AsRef泛型约束强化)倒计时解读

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;C# 13不安全代码安全管控的演进背景与战略意义 随着 .NET 生态向云原生、高性能系统编程加速演进&#xff0c;C# 对底层内存操作的需求显著提升——从 Span<T> 的泛化使用&#xff0c;到 NativeA…...

HC32F448串口+DMA高效处理4G模块数据,实战代码与AOS系统配置详解

HC32F448串口DMA高效处理4G模块数据实战指南 在物联网终端设备开发中&#xff0c;4G模块的数据传输稳定性直接决定了产品可靠性。传统串口中断方式处理高速数据流时&#xff0c;频繁的中断响应会导致CPU负载激增&#xff0c;甚至出现数据丢失。HC32F448芯片独特的DMA控制器配合…...

百度网盘提取码智能获取工具:5秒解锁海量资源的技术革命

百度网盘提取码智能获取工具&#xff1a;5秒解锁海量资源的技术革命 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘的提取码而烦恼吗&#xff1f;当你找到宝贵的学习资料、工作文档或娱乐资源&#xff0c;却被…...

别再死记硬背了!用5个真实案例帮你彻底搞懂Yocto BitBake的变量赋值语法

别再死记硬背了&#xff01;用5个真实案例帮你彻底搞懂Yocto BitBake的变量赋值语法 第一次接触Yocto的BitBake语法时&#xff0c;很多人都会被各种变量赋值操作符搞得晕头转向。、?、、.、:append...这些看似简单的符号背后&#xff0c;隐藏着变量展开时机、覆盖规则等复杂逻…...

混合信号验证:SystemVerilog与Verilog-AMS协同架构实践

1. 混合信号验证的现状与挑战在当今SoC设计领域&#xff0c;混合信号电路已成为主流配置。我参与过多个包含复杂ADC/DAC模块的芯片验证项目&#xff0c;深刻体会到传统验证方法的局限性。随着工艺节点不断下探至7nm甚至更低&#xff0c;模拟与数字电路的交互复杂度呈指数级增长…...

ARM异常处理与SMC指令陷阱机制详解

1. ARM异常处理机制概述在ARMv8/v9架构中&#xff0c;异常处理是系统可靠性和安全性的基石。当处理器遇到意外事件&#xff08;如指令执行错误、外部中断、系统调用等&#xff09;时&#xff0c;会暂停当前程序流&#xff0c;转而去执行预先定义好的异常处理程序。这种机制不仅…...

Bootstrap4 折叠

Bootstrap4 折叠&#xff08;Collapse&#xff09;学习笔记 一、基本概念 折叠组件&#xff08;Collapse&#xff09;用于内容的显示/隐藏切换&#xff0c;常用于手风琴、FAQ 面板等场景。核心机制是通过 data-* 属性或 JavaScript 控制元素的展开与收起。 二、基本用法 1.…...

新手应该怎样选择第一把琴?尤克里里入门推荐攻略一次讲清

很多想尝试学习乐器的朋友都会把尤克里里当做入门之选&#xff0c;但在学琴前&#xff0c;大部份人都会被“如何选择第一把琴”难住。市面上太多五花八门的品牌和型号&#xff0c;各种尺寸、材质让人眼花缭乱&#xff0c;选贵了怕浪费&#xff0c;选便宜的怕踩雷。尤克里里入门…...

【含最新安装包】零基础部署|OpenClaw 2.6.6|Windows 可视化一键配置

零基础部署 OpenClaw 2.6.6&#x1f4cc;Windows 可视化一键配置 核心亮点&#xff1a;全程可视化&#xff5c;零代码门槛&#xff5c;无需手动配环境&#xff5c;内置所有依赖 下载地址&#xff1a;https://xiake.yun/api/download/package/6?promoCodeIVF12ADA450A 文件大…...

大模型 Agent 的“记忆”,到底应该怎么设计?

本文解读的是论文 《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》&#xff0c;这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题&#xff0c;而是试图回答一个更接近 Agent 落地的核心问题&#xff1a;当大模型需要跨…...

【VS Code Dev Containers 成本优化白皮书】:20年云原生架构师亲授5大可落地的资源节流策略

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Dev Containers 成本优化的底层逻辑与价值认知 Dev Containers 并非仅是开发环境的“容器化封装”&#xff0c;其核心成本优化逻辑植根于资源隔离粒度、生命周期可控性与基础设施复用率三重机制。传统虚…...

泛微OA中如何实现,将选中的明细行数据内容,传送给其他系统或是单独存放

前言 近期有个需求:用户提出,他们需要在当前节点去勾选对应明细行的内容,然后将这个明细行里面的最新数据更新到SAP中,能做到一个实时更新的效果 这个需求也就相当于是用户想做到一个能实时更新的一个效果,但是因为泛微OA一些基础的数据更新要么靠jsp文件去更新,要么就…...

声定向系统改良设计——大功率集成化声频定向扬声器系统

声定向系统改良设计——大功率集成化声频定向扬声器系统 摘要 声频定向扬声器系统是一种利用超声波在空气中的非线性传播效应产生高指向性可听声的新型声学设备。针对原有系统在输出功率不足、模块分立程度高、系统集成度低等方面存在的问题,本文提出了一套完整的改良设计方…...

2026最新鲁大师 6.2最终绿化版,去除无用功能和广告

鲁大师 绿化版自用下载 链接: https://pan.xunlei.com/s/VOrMu1Sz2gRGgHFQ21z21-dOA1?pwdrnr3# 本次优化版本实现了多项改进&#xff1a;一是完整精简了功能区里的“工具市场”&#xff0c;点击该菜单不会出现错误提示或导致软件闪退&#xff1b;二是恢复了此前被精简的“驱…...

跟着 MDN 学 HTML day_1:(全套原生Input+表单结构拆解)

很多前端新手写表单只会瞎堆输入框&#xff0c;分不清标签作用、不会规范分组、不懂提交底层逻辑&#xff0c;写出来的表单杂乱无章&#xff0c;对接后端直接失效。 今天严格对标MDN 官方HTML表单入门全规范&#xff0c;结合实操源码&#xff0c;把完整表单拆成模块化区块&…...

005、位置、速度、加速度与加加速度

005 位置、速度、加速度与加加速度 从一次电机“鬼畜”说起 去年调试一台六轴协作机器人,末端执行器走一个简单的S形轨迹。上位机发的位置指令看着很平滑,但电机跑起来就像得了帕金森——高频抖动,偶尔还“咯噔”一下。示波器抓编码器反馈,位置曲线确实光滑,但速度曲线像…...

ADLINK Alder Lake-H COM模块技术解析与工业应用

1. ADLINK基于Alder Lake-H的COM模块技术解析在嵌入式系统领域&#xff0c;COM&#xff08;Computer-on-Module&#xff09;技术一直是实现高性能、标准化设计的关键方案。最近ADLINK推出的Express-ADP&#xff08;COM Express Type 6&#xff09;和COM-HPC-cADP&#xff08;CO…...

【C++27安全红线】:3类已被标记为deprecated的异常传播模式(含std::exception_ptr隐式转换),9月30日前必须迁移!

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;C27异常处理安全增强的演进背景与强制迁移动因 C27 将首次引入 noexcept 语义的静态可验证性强化机制&#xff0c;其核心动因源于现代系统软件对异常路径侧信道攻击&#xff08;如 stack-unwinding tim…...

SeqTrack模型专题全面调研

SeqTrack 目标跟踪算法的配置文件&#xff0c;命名规则&#xff1a;seqtrack&#xff1a;模型名称&#xff0c;指的是 SeqTrack&#xff08;Sequence Tracking&#xff09;&#xff0c;一种基于序列建模的目标跟踪算法。b / l&#xff1a;代表模型的 Backbone&#xff08;主干网…...

别再让多线程搞乱你的计数器!手把手教你用Linux内核atomic_t实现线程安全(附完整代码)

多线程计数器的救星&#xff1a;Linux内核atomic_t实战指南 在开发Linux内核模块或驱动时&#xff0c;你是否遇到过这样的场景&#xff1a;多个中断处理程序或内核线程需要同时访问同一个计数器变量&#xff0c;而简单的int类型变量会导致数据竞争&#xff1f;传统的解决方案可…...

从浪潮服务器到VMware虚拟机:一份通用的Ubuntu 20.04 Netplan静态IP配置避坑手册

从物理服务器到虚拟化平台&#xff1a;Ubuntu 20.04 Netplan静态IP配置全场景指南 当你需要在不同硬件环境中部署Ubuntu 20.04时&#xff0c;网络配置往往是第一个需要跨越的技术门槛。无论是浪潮、戴尔等品牌服务器&#xff0c;还是VMware、VirtualBox等虚拟化平台&#xff0c…...

vector 核心接口和模拟实现

std::vector 是 C STL 最常用的动态数组&#xff0c;底层是连续内存&#xff0c;支持动态扩容、随机访问。下面先梳理核心接口&#xff0c;再用 C 手写模拟实现&#xff08;底层原理 完整代码&#xff09;。一、vector 核心接口&#xff08;常用&#xff09;1. 构造与析构cpp运…...

全志D1s RISC-V开发板:十美元Linux方案解析

1. 开源硬件新选择&#xff1a;基于全志D1s RISC-V的十美元Linux开发板最近在开源硬件圈出现了一个有趣的新玩具——Xassette-Asterisk开发板。这块采用全志D1s RISC-V处理器的小板子最吸引人的地方在于其惊人的性价比&#xff1a;整套BOM成本可以控制在10美元以内。作为对比&a…...

白帽子为什么几乎都绕不开 httpx:一款 HTTP 资产探测工具的技术价值

1 安装与初始化 # 全局安装 OpenSpec npm install -g fission-ai/openspeclatest # 在项目目录下初始化 cd /path/to/your-project openspec init 初始化时&#xff0c;OpenSpec 会提示你选择使用的 AI 工具&#xff08;Claude Code、Cursor、Trae、Qoder 等&#xff09;。 3 O…...

【附Python源码】基于MLP的波士顿房价预测

【附Python源码】基于MLP的波士顿房价预测 房价预测作为机器学习领域的经典入门问题&#xff0c;其价值不仅在于算法本身&#xff0c;更在于完整建模流程的掌握。 本项目将基于Boston Housing数据集&#xff0c;详细介绍如何使用PyTorch构建一个多层神经网络回归模型&#xf…...