当前位置: 首页 > article >正文

PB 级自动驾驶数据秒级检索:Apache Doris 统一多模态数据平台实践

导读多模态数据正成为企业核心资产但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。本文介绍某公司以 Apache Doris 统一标签、元数据、全文和向量检索将查询从分钟级提升至秒级。多模态数据正在成为各行业企业的核心资产但大多数团队仍在摸索如何对其进行规模化管理。自动驾驶是少数已经在生产环境中大规模面对并持续优化这一问题的领域之一图像、点云、视频、信号以及结构化元数据每天都在同一套数据链路中流转。这个领域积累的工程经验对其他行业同样具有重要的借鉴意义。过去这类能力往往依赖数仓、Elasticsearch、向量数据库等多套系统拼接完成。但当数据规模进入 PB 级、查询进入高并发交互式阶段后多系统架构的性能、同步和运维成本都会迅速放大。本文将介绍某自动驾驶公司如何以 Apache Doris 为核心重构数据平台将标签、元数据、全文和向量四类检索能力收敛到同一套实时分析与检索引擎中并将查询响应时间从分钟级压缩至秒级。业务规模与数据挑战本文案例来自一家领先的自动驾驶技术公司专注于为乘用车提供高级驾驶辅助系统ADAS和高阶自动驾驶AD解决方案。其产品深度整合算法、软件与专用计算平台覆盖从传感器感知、决策规划到车辆控制的完整链路全面提升行驶安全性与驾乘体验。目前该公司的解决方案已在多家 OEM 合作伙伴的量产车型上落地部署。依托大规模的量产运营公司积累了海量真实道路数据并围绕这些数据构建起数据驱动的研发体系。该公司每天生成数百 TB 的新数据总存储量以 PB 计。经过分割和清理后原始传感器数据变成了片段富含元数据的连续帧序列这些数据是算法工程师日常研发的核心素材。片段数量已超过数亿相应的训练帧数量达到了数千亿。算法工程师会持续与这些数据进行交互。日常工作包括数据资产检索按城市、天气、车型、传感器类型和其他数十种属性查找片段训练集构建通过标签组合例如夜间 行人筛选帧数据构建训练集或仿真测试集标签分布分析统计数据集中各类标签行人、车辆、交通灯等的占比评估数据质量并识别覆盖盲区难例挖掘检索长尾场景或模型误判案例为下一轮训练循环提供有针对性的优化素材。上述工作对实时性要求极高每秒处理百万帧数据的可见性以及高并发下秒级甚至亚秒级响应。多模态搜索的四种模式自动驾驶数据的复杂性在于需要检索的数据类型极为多样图像、点云、视频、标签、日志以及结构化或半结构化的元数据。几乎所有数据任务的本质都是检索而这些检索需求可归纳为以下四类文本检索解决了查找包含特定关键字的数据的问题例如日志中的错误代码或事件描述中的特定术语。它依赖于倒排索引并优先考虑高效的关键字匹配。向量检索面向语义相似性搜索。视觉语言模型和深度学习特征提取器将图像、视频转化为高维向量。工程师通过向量检索找到历史上相似的场景例如某种危险驾驶情况的历史实例或模型发生类似误判的案例。关注的是语义相似度而非精确关键词匹配。标签检索标签检索面向训练帧上的结构化标注如包含行人、夜间场景、雨天等。工程师通过标签组合如复杂路口 交通灯来构建数据集标签维度可多达数百乃至数千个。系统需要支持对这些标签的快速集合运算交集、并集、差集。元数据检索涵盖每次数据采集所附带的半结构化信息车辆配置、软件版本、传感器标定参数、故障记录等通常以带有复杂嵌套结构的 JSON 格式存储。工程师需要在其中进行精确过滤例如找出特定时间窗口内、特定车型发生某故障的所有采集记录。在超大规模数据下同时支持四类检索模式是整个架构设计的核心挑战。原有架构三套独立系统数据割裂为处理上述不同类型的数据该公司最初构建了三套独立的数据处理链路批量数据仓库链路结构化标签经 ETL 写入 Hive/Iceberg用于标签分析、统计报表和数据集构建。该链路以批处理模式运行延迟较高无法满足交互式探索的实时需求。图像和文本检索链路从视频帧中提取的向量特征存储在专用向量数据库Zilliz中支持向量与标量的混合检索用于相似场景挖掘。但向量数据库与数据仓库完全分离跨系统查询需要在两者之间搬运数据。元数据检索链路车辆状态、事件记录和其他元数据存储在 Elasticsearch 中利用其 JSON 检索能力提供服务。但ES 在海量数据上的复杂聚合能力较弱也无法与标签存储进行统一分析。三套系统之上虽有统一的查询服务层但实际工作流仍需工程师在多个系统之间来回切换。一个典型任务可能是先在元数据系统中筛选数据资产再到数仓中分析标签分布最后去向量数据库中检索相似场景。这种多系统串行流程既慢又复杂。三套平台之间的数据同步推高了运维成本任何 Schema 变更都需要在多处协同更新。随着数据量增长至千亿级别三套系统在查询性能和扩展能力上都面临日益严峻的压力。统一架构用 Apache Doris 承载标签、JSON、全文与向量检索这次架构升级的关键不是简单替换某一个存储系统是致力于将分散在数仓、搜索引擎和向量数据库中的检索能力统一到一套面向实时分析的 SQL 引擎中使得多模态数据能够在同一查询上下文中被过滤、聚合、召回和分析。该公司此前已引入 Apache Doris 承担标签检索与分析工作。Doris 在这一场景中表现出色其向量化执行引擎和 MPP 架构能够高效支持千亿级标签的实时聚合与过滤。这一能力已在大规模互联网用户画像与人群定向场景中得到充分验证。将 Doris 用于训练帧的标签组合查询后数据集构建效率显著提升。随着 Apache Doris 不断扩展能力边界并在 SelectDB 等企业级产品与云服务形态中持续强化工程化落地能力如引入基于倒排索引的全文检索、向量索引以及高效的半结构化数据处理含原生 JSON 支持该公司看到了整合架构的机会。他们开始向以 Apache Doris 为单一多模态检索与分析引擎的统一架构迁移将原先分散在数仓、向量数据库和 Elasticsearch 中的数据全面整合。本次迁移遵循五项核心设计原则冷热数据分层近期高频访问数据存储在高性能在线存储中通过基于时间的分区和基于设备的分桶策略优化并发查询历史数据迁移至低成本数据湖Iceberg进行长期留存。联邦查询能力能让用户通过相同的接口透明访问两层数据。优化元数据检索针对 JSON 格式的元数据Apache Doris 提供专用的 Variant 数据类型原生存储 JSON 并结合倒排索引实现高效检索。复杂嵌套字段可直接在 SQL 中展开并支持任意条件过滤让千亿量级的元数据查询保持高响应性。加速标签集操作帧级标签采用Bitmap 数据结构建模每个标签映射为一个帧 ID 的位图标签组合查询转化为位图上的集合运算交集、并集、补集。即便在千亿量级数据下复杂场景也能实现秒级响应。主键模型下的实时写入确保新标签数据秒级可见每天可处理数百亿条标签更新。集成向量检索平台将向量索引能力原生内置图像和文本特征向量与标量数据共同存储。这使得向量、标签与元数据可在单次查询中混合检索消除了相似场景挖掘中的跨系统数据搬运并为真正意义上的多模态联合查询奠定基础。统一的查询引擎单一 SQL 接口覆盖所有数据类型标签、元数据和向量。工程师无需切换系统在一次查询中即可完成复杂的数据探索。统一的索引与存储管理也显著降低了开发和运维成本。落地效果此次迁移之后公司在各个方面都取得了可量化的显著提升查询性能大幅提升从分钟级响应降至秒级算法工程师现在可以实时探索不同标签组合下的数据分布交互式分析成为可能。数据准备周期大幅压缩数据集采样从离线批处理转变为实时交互原本数小时的工作压缩至数分钟生产级规模稳定支撑统一系统可在七天窗口内稳定支撑近万亿条记录的检索并发负载接近 1000 QPS运维复杂度显著下降同一数据引擎承载标量、JSON 和向量检索取代了三套独立系统彻底消除了跨系统同步与维护的额外负担。总结与展望在自动驾驶领域数据平台的核心挑战在于构建一套能够同时处理文本、向量、标签和元数据并在海量规模下支持高效检索与分析的统一系统。从分散的架构转向融合的架构不仅提升了查询性能和开发效率更为更智能、更数据驱动的研发工作流奠定了坚实基础。这些经验的适用范围远不止自动驾驶。任何面临多模态数据规模化管理挑战的行业智慧城市、工业质检、内容推荐以及日益兴起的 AI Agent 基础设施都面临同样的架构抉择。以 Apache Doris 为代表的统一实时分析平台提供了一条经过生产验证的可行路径。

相关文章:

PB 级自动驾驶数据秒级检索:Apache Doris 统一多模态数据平台实践

导读:多模态数据正成为企业核心资产,但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。本文介绍某公司以 Apache Doris 统一标签、元数据、全文和向量检索,将查询从分钟级提升至秒级。 多模态数据正在成…...

无需电荷泵的高边开关:IRLML6401TRPBF在便携设备电源管理中的简化设计

IRLML6401TRPBF:SOT-23封装P沟道功率MOSFET的开关应用解析在便携式电子设备、电源管理以及电池保护电路中,PCB面积的限制往往与功率处理能力形成矛盾。设计师需要在有限的板级空间内实现高效的电源路径切换和负载管理。IRLML6401TRPBF是英飞凌&#xff0…...

Vibe Coding 灾难的爆发

AI 编程工具确实正在颠覆软件行业,但几乎比我所见过的任何事物都更属于那个"如果没有丰富的前期经验,你不应该在家尝试"的类别: Reddit 上 vibe coding 灾难故事堆积如山。除非你介入并为 AI 建立结构,否则它就会推送垃…...

5个真正赚钱的 AI 工作流 (2026)

AI驱动的创作者经济预计在2026年将达到57.1亿美元。但大多数使用AI工具的人仍然把它们当作搜索引擎——提问,获取答案,关闭标签页,明天重新开始。真正赚到钱的人发现了不同的东西:他们建立了能复合增长的工作流。代理每次运行都会…...

如何判断杉木桩品牌的选型标准?

开篇即明:本文仅输出选型方法,不推荐任何具体产品。杉木桩作为园林、水利、建筑等领域的常用材料,其质量直接关系工程安全与寿命。从业十余年,我始终认为:选型需回归标准,而非品牌名称。以下从四个核心维度…...

半波整流电路:从原理到实践,掌握AC-DC转换基础

1. 项目概述:从交流到直流的第一步在电子电路的世界里,我们常常需要将交流电(AC)转换为直流电(DC),这个过程我们称之为“整流”。而半波整流电路,可以说是所有整流电路中最基础、最经…...

嵌入式PID温度控制:从算法原理到C语言工程实现

1. 项目概述与核心思路最近在做一个智能热水器的嵌入式控制项目,核心任务就是让水温能又快又稳地达到我们设定的目标值。这听起来简单,但实际做起来,水温系统有惯性、有延迟,加热功率和环境散热也在实时变化,想实现精准…...

复旦微FM33FR0xx开发板实战:从零构建低功耗电容触摸应用

1. 项目概述:从一块开发板说起最近在捣鼓智能家居的小玩意儿,想找个带触摸功能又够省电的MCU,正好看到了复旦微电子新出的FM33FR0xx系列开发套件。这板子到手玩了一阵,感觉挺有意思,它不单单是块核心板,还配…...

大模型在软件测试中的应用:从测试用例生成到bug检测

在软件行业高速发展的今天,软件规模持续扩大、复杂度不断攀升,软件测试作为保障软件质量的关键环节,面临着前所未有的挑战。传统测试方法在应对海量需求、复杂业务逻辑以及快速迭代的开发模式时,逐渐暴露出效率低下、覆盖不全等问…...

3个实战场景掌握Kafka-UI:高效管理Apache Kafka集群的实用指南

3个实战场景掌握Kafka-UI:高效管理Apache Kafka集群的实用指南 【免费下载链接】kafka-ui Open-Source Web UI for managing Apache Kafka clusters 项目地址: https://gitcode.com/gh_mirrors/kaf/kafka-ui Kafka-UI是一款专业的开源Web界面工具&#xff0c…...

谷歌开发者大会2026:Gemini全面升级,重塑搜索与生活体验!

谷歌开发者大会2026开幕在品尝过「会前甜点」Android Show 之后,真正的重头戏谷歌开发者大会 Google I/O 2026 正式揭开了帷幕。不出所料,在时长接近两个小时的活动中,Gemini 占据了绝对的 C 位。除了更新基础模型和周边能力之外,…...

AI从业者的理财攻略:如何用AI技术实现被动收入

AI时代,软件测试从业者的新理财机遇在人工智能技术飞速发展的当下,软件测试行业正经历着深刻变革。传统的手工测试逐渐被自动化测试、AI驱动的测试所取代,这既给软件测试从业者带来了挑战,也创造了新的机遇。对于软件测试从业者而…...

S32K3 FlexCAN驱动避坑指南:从波特率计算到邮箱锁定的实战心得

S32K3 FlexCAN驱动避坑指南:从波特率计算到邮箱锁定的实战心得 在嵌入式开发领域,CAN总线通信一直是工业控制、汽车电子等实时系统的核心命脉。NXP S32K3系列芯片集成的FlexCAN模块以其强大的功能和灵活性,成为许多高可靠性项目的首选方案。然…...

uni-app项目上架前必做:手把手教你用Android Studio生成正式签名APK(从证书到发布)

uni-app项目上架全流程:从签名证书到应用商店发布的实战指南 当你完成uni-app项目的开发后,如何将代码转化为可供用户下载安装的正式APK文件?这看似简单的打包过程,实则暗藏诸多技术细节。本文将带你深入理解Android应用签名机制&…...

非 CTP 柜台连接天勤:众期融航易达等网关差异备忘

前言 天勤除 CTP 外还支持众期、融航、杰宜斯、易达等柜台路线,构造函数与可用报单类型可能不同。我帮同事对接时,会先查文档里对应类名,再在模拟环境测通连与下单,避免直接上实盘试错。 一、选型前先确认的三件事 开户期货公司支…...

SystemVerilog测试套件从IP到SoC的重用:架构设计与工程实践

1. 项目概述:从IP到SoC的验证鸿沟在芯片设计行业里摸爬滚打十几年,我见过太多团队在项目后期被验证工作拖得焦头烂额。一个典型的场景是:某个IP(知识产权核,比如一个USB控制器或一个DDR内存控制器)在独立验…...

别再让用户错过消息!UniApp应用通知权限引导的最佳实践与UniPush 2.0优化

UniApp应用通知权限引导的艺术与UniPush 2.0实战策略 当用户的手指在屏幕上轻轻滑动,决定是否授予你的应用通知权限时,这场无声的对话将直接影响后续的用户留存与活跃度。数据显示,超过60%的用户在首次拒绝通知权限后,永远不会主动…...

HsMod终极指南:55项功能打造你的个性化炉石传说体验

HsMod终极指南:55项功能打造你的个性化炉石传说体验 【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是一款基于BepInEx框架开发的炉石传说多功能插件,为玩家提…...

MATLAB图像处理实战:用strel函数玩转膨胀腐蚀,5分钟搞定车牌去噪

MATLAB车牌去噪实战:形态学操作中的结构元素艺术 车牌识别系统在智能交通、停车场管理等场景中应用广泛,但实际采集的车牌图像常因环境干扰出现噪声、污渍或字符粘连问题。形态学处理作为图像预处理的关键步骤,其效果高度依赖结构元素的选择与…...

别再死磕标注数据了!用扩散模型从海量无标签遥感图像中‘白嫖’语义信息,提升变化检测精度

扩散模型在遥感变化检测中的无监督语义挖掘实战 遥感图像变化检测一直是地理信息科学和计算机视觉交叉领域的重要课题。传统方法高度依赖大量精确标注的训练数据,而标注成本高昂、周期漫长,成为制约算法性能提升的瓶颈。2022年涌现的多项突破性研究证明&…...

阿里云服务器上fastText安装踩坑记:从C++11报错到模型量化压缩的完整避坑指南

阿里云ECS实战:fastText从编译报错到模型量化的全流程解决方案 当你在阿里云ECS上部署fastText模型时,是否遇到过那个令人头疼的"C11编译错误"?这仅仅是开始——内存占用过高、磁盘空间不足、推理速度慢等问题会接踵而至。本文将带…...

别再死记硬背!用Python可视化理解第一类曲面积分中的dσ与dxdy关系

用Python可视化破解曲面积分:从dσ到dxdy的几何直觉 第一次看到曲面积分公式里的dσ √(1 fx fy) dxdy时,我盯着那堆平方根和偏导数符号发呆了十分钟。直到某天用Matplotlib让这个公式"动起来",才突然明白那些教科书上的推导到底…...

小白程序员必备:从零基础到大模型实战,这份学习路线图请收藏!

本文结合530名开发者的经验,为AI初学者提供从零基础到项目实战的完整学习路线。核心内容包括:Python编程、数学基础、机器学习、深度学习框架(PyTorch)、科学计算库(NumPy)等关键技能,并避开了常…...

基于SpringBoot的咖啡馆会员营销系统毕业设计

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot与Vue框架的咖啡馆会员营销系统以解决传统会员管理方式中存在的信息孤岛现象与运营效率低下问题该系统通过整合现代信息技术手…...

Perplexity语言学习资源深度测评(2024Q2最新版):92%的学习者不知道的5个隐藏功能与3倍提效配置

更多请点击: https://intelliparadigm.com 第一章:Perplexity语言学习资源概览与核心价值定位 Perplexity 作为一款以“实时、可溯源、推理驱动”为设计哲学的AI问答工具,正迅速成为语言学习者构建语境化知识体系的关键基础设施。它并非传统…...

告别复杂推流!ESP32-CAM直连点灯APP实现视频监控,完整配置流程与源码解析

ESP32-CAM直连点灯APP:零服务器视频监控方案全解析 在物联网设备开发中,视频监控一直是个既诱人又令人头疼的功能。传统方案需要搭建RTSP/RTMP服务器,配置复杂的网络转发规则,这让很多开发者望而却步。而今天我们要介绍的ESP32-CA…...

深入解析Keil MDK FLM算法:SRAM运行原理与下载机制

1. 项目概述:FLM算法,Keil MDK下载的“灵魂引擎”如果你用Keil MDK给一块新的APM32或者STM32芯片下载程序,点下那个“Download”或“Load”按钮,几秒钟后“Programming Done”的提示框弹出,这个过程看似简单&#xff0…...

从MSP430到MSPM0L1306:嵌入式工程迁移实战与SDK应用指南

1. 项目概述:从零理解MSPM0L1306的工程迁移最近在帮一个朋友处理一个老项目升级,核心需求是把一个基于TI老款MSP430系列MCU的温控器,迁移到TI新推出的MSPM0L1306这颗芯片上。朋友的原话是:“老芯片快买不到了,新出的MS…...

MCU工程迁移实战:从STM32到MSPM0L1306的完整指南

1. 项目概述:从零理解MCU工程迁移最近在折腾TI的MSPM0系列MCU,特别是MSPM0L1306这颗芯片。很多朋友拿到新的开发板或者从旧项目切换到新平台时,最头疼的就是“迁移工程”这一步。这不仅仅是把代码从一个文件夹复制到另一个文件夹那么简单&…...

测试工程师的沟通技巧:如何向开发工程师反馈bug

在软件研发的协作链条中,测试工程师与开发工程师的互动至关重要,而反馈bug则是两者沟通的核心场景之一。高效、专业的bug反馈,不仅能加速问题解决,提升产品质量,更能维护良好的团队协作氛围。对于软件测试从业者而言&a…...