当前位置: 首页 > article >正文

解读核心Maintainer观点|Presto 不只是版本升级!从查询引擎到湖仓执行层,AI Infra 新方向

最近看了InfoQ上的一篇文章《Presto 的再定位从查询引擎到下一代数据湖执行层》了解了从核心Maintainer视角观察到的Presto及整个数据基础设施行业范式的迁移深有感触。对于做数据开发、湖仓架构或AI工程的同学来说Presto的这次变化可能直接影响你未来的技术选型和工作效率——它不再是单纯的查询引擎而是正在重构数据处理的核心逻辑。但更让我在意的其实是它的“表达方式”。如果你平时看过不少数据基础设施相关的文章可能会有一种熟悉的感觉什么都能做什么都领先性能随便提升一个数量级架构没有边界能力几乎不需要取舍很多内容更像是能力罗列 结论先行但这篇文章很不一样。它给人的第一感受反而是克制。没有刻意放大能力没有回避系统边界也没有试图把 Presto 解释成“万能解”相反它反复在强调一件事系统是在“约束中设计”的。包括为什么是 execution layer而不是继续强化 query engine为什么引入一些能力同时明确放弃或延后另一些路径在数据湖、事务、AI workload 之间Presto 的边界如何被刻意“收紧” 这些内容其实比“新增了什么功能”更有价值。因为它提供的不是答案而是一种如何给系统“划边界做取舍”的思考方式。而这恰恰是我们平时最难获得、但最值得学习的部分。引言先简单铺垫一下背景PrestoDB 作为大数据领域主流的交互式查询引擎一直以“快速查询”为核心优势最早由 Meta 开源并在 Meta、Uber、ByteDance 等等公司实现大规模落地长期运行在全球最大规模的数据湖场景中支撑 PB 级数据的交互式分析与实时洞察。同时其社区汇集了来自 Meta、IBM、Uber、ByteDance、Alluxio、Denodo 等一众公司的核心贡献者是一个真正由多家大厂共治的开源社区并非由单一商业化公司来主导和推动。如果你近期只是扫了一眼Presto的最新release note很可能会得出一个简单结论无非是增加了很多厉害的特性比如向量检索、LanceDB connector、基于IVM的物化视图查询缝合算法、Iceberg 多语句事务等等。但如果把这两个版本的更新放在一起仔细分析你会发现一件更值得关注的事这些变化可能根本不是单纯的“feature 堆叠 增强”。而是Presto 正在悄悄改变自己的“物种”。这不是简单的优化不是局部的增强而是一种更根本的变化从“查询引擎”进化成了“湖仓数据执行层execution layer”并正在加速向“AI Data Infra”AI数据基础设施演化。简单说湖仓数据执行层就是从“只负责查数据”变成“能管数据、能处理复杂流程、能适配AI需求的核心执行中枢”这也是我们今天解读的核心重点。一、重点不是新增功能而是Presto的核心职责变了大多数系统的演进路径其实都很线性性能更高一点功能更全一点生态更丰富一点 但这一切演进都有一个通常不会被打破的前提系统的核心职责是什么而这一次Presto改变的恰恰是这个根本前提。过去它的角色很清晰一个“读数据”的系统你写SQL它负责把数据算出来仅此而已——这也是我们过去使用Presto的核心场景比如交互式查询、报表生成等。但现在这个前提正在被替换为系统不仅要读数据还要“控制数据、参与数据、塑造数据”。如果你做过数据湖会知道这意味着什么对新手同学也简单科普下数据不再只是存储在磁盘上的文件而是带事务、版本、分支的“结构化对象”——比如你可以像Git一样管理数据版本回滚错误操作数据修改与全生命周期管理成为系统的核心路径而不是“查询”的附属功能 一旦走到这一步系统的角色就不再是单纯的query engine查询引擎而是湖仓数据执行层execution layer对我们开发者来说这意味着未来用Presto不仅能查数据还能直接在上面做数据治理、版本管理不用再跨多个系统切换。二、比功能更关键的信号数据处理范式在变很多人会把注意力放在这些具体功能上MERGE语句支持多语句事务Iceberg V3适配rewrite_data_files操作但这些更像是这场变革的“表象”。真正更值得关注的是一个关键的设计选择Presto 没有继续把一切塞进 SQL而是引入了 Distributed Procedure分布式执行存储过程。表面上看只是一种语法形式例如CALLiceberg.system.rewrite_data_files(...)但它背后改变的是系统处理数据问题的范式——这对我们日常开发的影响很大。SQL的本质是描述“我要什么结果”不用关心系统怎么实现但现实中的数据问题越来越多是“过程式”的比如多阶段联动的复杂逻辑比如先清洗数据、再关联表、最后写入目标库需要维护中间状态的处理流程比如实时计算中的窗口统计多任务的编排与调度 这些本质上不是query查询而是job作业 / pipeline数据管道所以这里真正的变化是Presto 承认不是所有数据问题都应该用 SQL 表达。这一步对我们开发者的实际意义在于把“数据操作”从“查询语义”中解耦各司其职——查询用SQL复杂流程用Procedure为复杂数据流程提供承载空间不用再勉强用SQL拼凑逻辑比如多阶段清洗为AI / 数据工程workload打开入口后续可以直接在Presto上编排AI相关流程**⚠️ 重要提醒**如果不结合Presto的执行模型去理解这一变化很容易把它当成简单的“语法差异”但实际上这是系统能力边界的重构未来会直接影响我们的开发方式。三、另一个关键转折系统开始“替你做决定”减少手动操作过去我们使用SQL引擎本质是人负责决策写SQL、指定执行路径、选择查询方式系统负责执行但现在你会看到一组关键变化正在Presto中逐步落地对我们开发者来说最大的好处就是“省时间”查询自动改写不用手动优化SQL系统会自动调整语句提升执行效率多执行路径选择系统根据数据量、硬件情况自动选择最优执行方式物化视图自动匹配不用手动指定使用哪个物化视图系统会自动匹配加速查询staleness控制自动控制数据时效性平衡查询速度和数据新鲜度不用手动配置这些能力组合起来本质上是在做一件事把“如何执行”这件事从人的手中逐步收回交给系统自主决策。 这意味着系统正在从单纯的执行器executor演进为智能的决策者decision maker这不是简单的性能优化而是数据处理控制权的迁移——我们从“手动调优者”变成“需求定义者”效率会大幅提升。 但有一件事没有变放心在讨论这些变化时有一个问题很容易被误解Presto是否正在“放弃”自己作为查询引擎的核心优势答案其实很明确不会而且这一核心优势正在被持续强化。从最近的release note可以看到另一条同样重要但不那么显眼的主线是优化器能力持续增强——查询更快、更省资源执行性能不断提升——应对海量数据的能力更强查询路径持续被优化——减少手动调优的成本换句话说“交互式即时查询”这件事不仅没有被弱化反而在被持续打磨。这意味着Presto当前的演进并不是用新的能力替代旧的能力而是在保持查询引擎核心优势的前提下向更大的系统边界扩展——既保留“快查”的优势又新增“管数据、处理复杂流程”的能力。 这也是为什么它可以一边向execution layer执行层演进一边仍然保持在查询性能上的竞争力对我们来说相当于“一个工具多种用途”不用再部署多个系统。四、AI能力不只是新增功能更是数据形态的重构很多人看到Presto新增的向量能力会自然理解为“支持向量检索了没什么大不了”但如果只停留在这个层面其实是低估了这一变化的深层意义——对做AI相关开发的同学来说这是一个重要信号。更本质的改变是数据形态正在被重新定义我们可以通过一张表清晰看懂过去传统查询场景现在AI湖仓场景以结构化数据为主比如数据库表、CSV文件向量embedding成为核心数据形态AI模型的输入输出核心操作是filter过滤 / join关联核心操作是similarity相似度/ ANN近似最近邻核心目标是“查询数据”比如查某个指标、某条记录核心目标是“检索推理准备”为AI模型准备输入数据 这带来一个直接结果对AI开发者非常友好查询不再只是查询。甚至会出现DAG的一种新的执行模式在一次执行过程中同时完成三件事不用跨系统切换向量召回从海量向量中快速匹配目标数据比如AI推荐场景的用户兴趣匹配实时数据融合将向量数据与传统结构化数据联动比如把用户向量和用户基本信息关联推理输入构建直接为AI模型推理准备标准化输入省去中间数据转换步骤这件事如果落地成型本质上是在做把AI pipelineAI数据管道向执行层收敛所以这绝不是一个简单的feature新增而是系统边界的再次外扩——Presto正在从“湖仓执行层”进一步向AI Data InfraAI数据基础设施延伸未来会成为AI开发的核心工具之一。五、把所有信号合在一起只剩一个结论如果把前面提到的所有变化串起来你会发现它们从来都不是孤立的能力点而是围绕“重定位”的整体布局Iceberg深度适配 → 数据全生命周期管理进入系统核心不用再依赖外部工具Procedure引入 → 承载非SQL类型的复杂workload提升开发效率智能优化器升级 → 系统从执行器向决策者演进减少手动操作Native execution优化 → 面向未来算力架构提前布局支撑更大规模数据处理向量能力新增 → 适配AI时代的新型数据形态打通AI与湖仓的链路这些变化都在指向同一件事Presto 正在完成一次从“数据访问层”到“湖仓数据执行层”的根本性进化。并且它没有停下脚步正在进一步向AI Data InfraAI数据基础设施加速演化成为连接湖仓与AI的核心中枢。六、为什么这件事现在就值得你关注因为短期内所有数据系统看起来都在“收敛”——大家都在支持SQL、适配Iceberg、优化查询优化器表面上差异不大。但真正决定中长期行业格局的从来不是这些表层的“趋同”而是系统的能力边界在哪里能承载什么样的未来需求。而现在正在发生的正是这个边界正在被Presto重新定义——它不再局限于“查询”而是要成为数据处理、AI开发的“一站式执行中枢”。对我们开发者、架构师来说提前看懂这个趋势能帮你做好技术选型避免踩坑甚至领先一步布局未来的技术架构。七、建议不要只看release note一定要看InfoQ原文如果你只是想快速了解 “Presto 0.297 更新了什么功能”那官方的release note已经足够满足需求看一眼新增特性就够了。但如果你想真正理解Presto为什么要选择这样的演进路径核心maintainer的底层思考这些新增能力之间的内在逻辑与关联不是孤立的功能堆叠它未来可能会走向哪里会带来哪些行业影响影响你的技术选型 强烈建议直接去看InfoQ上的原文《Presto 的再定位从查询引擎到下一代数据湖执行层》。因为有些关键判断、底层思考在“总结提炼”的过程中会不可避免地流失——那些藏在字里行间的洞察比如Presto团队的演进考量、落地过程中的难点才是理解这次变革的关键也能帮你更精准地把握Presto的未来走向。结语用一句话总结这件事这不是一次普通的版本升级而是一场数据处理模式的根本性跃迁。如果你正在做数据湖、实时分析或者已经开始接触AI数据基础设施Presto这条演进路径值得你提前看懂、重点关注——它可能会重塑你对数据处理的认知也可能会影响你未来的技术选型与架构设计。最后再次推荐大家去阅读InfoQ原文深入了解核心maintainer视角下的Presto演进相信你会有更多收获。

相关文章:

解读核心Maintainer观点|Presto 不只是版本升级!从查询引擎到湖仓执行层,AI Infra 新方向

最近看了InfoQ上的一篇文章《Presto 的再定位:从查询引擎到下一代数据湖执行层》,了解了从核心Maintainer视角观察到的Presto及整个数据基础设施行业范式的迁移,深有感触。对于做数据开发、湖仓架构或AI工程的同学来说,Presto的这…...

2026年4月导视标识标牌如何选?专业厂家实力复盘与避坑指南

一、导视标识标牌:商业空间的”无声导购员”家人们谁懂啊,走进一个商场找不到厕所的尴尴瞬间,或者在医院转了三圈还找不到诊室的崩溃体验-这些都和导视标识标牌的设计息息相关。导视标识标牌本质上是一套系统化的视觉语言,通过文字、图形、色…...

简单理解:Sub-1GHz(Sub-1 Gigahertz)指工作频率低于 1GHz 的无线通信频段

Sub-1GHz(Sub-1 Gigahertz)指工作频率低于 1GHz 的无线通信频段(通常指 169/315/433/470/868/915MHz 等免授权 ISM 频段),核心是远距离、低功耗、强穿墙、低干扰的物联网无线技术。一、核心特点(vs 2.4GHz&…...

简单理解:国民技术股份有限公司和他的芯片类型

一、国民技术股份有限公司(企业介绍) 国民技术股份有限公司(Nations Technologies Inc.) 是中国领先的集成电路设计(Fabless)上市公司,总部位于深圳国民技术。 成立:2000 年&#…...

魔幻C++ 函数递归 调用

//递归求和算法 数值 加法计算(数值 a){如果(a1) 返回 1;否则 返回 a加法计算(a-1);}//两种写法都正确 数值 c加法计算(5); 输出("c"c);输出("c"加法计算(100));...

RTX 4090D高性能AI环境揭秘:PyTorch 2.8镜像如何实现无冲突开箱即用

RTX 4090D高性能AI环境揭秘:PyTorch 2.8镜像如何实现无冲突开箱即用 1. 为什么选择这个镜像 如果你正在寻找一个能充分发挥RTX 4090D显卡性能的深度学习环境,这个PyTorch 2.8镜像可能是目前最省心的选择。它解决了AI开发者最头疼的环境配置问题——不用…...

【愚公系列】《OpenClaw实战指南》010-高效沟通与协作:让邮件、会议、 日程不再占用你的时间(跨平台消息聚合)

💎【行业认证权威头衔】 ✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家 ✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主 ✔ 技术生态共建先锋&am…...

S2-Pro大模型VMware虚拟机Ubuntu环境配置一站式指南

S2-Pro大模型VMware虚拟机Ubuntu环境配置一站式指南 1. 为什么需要Linux开发环境 如果你正在接触AI大模型开发,可能会发现很多教程和工具都默认运行在Linux环境下。Windows和Mac虽然也能用,但总会遇到各种兼容性问题。这就是为什么我们需要一个专门的L…...

FedGUI:跨异构平台、设备和操作系统对联合GUI代理进行基准测试

摘要使用传统集中式方法训练 GUI 智能体面临高昂成本和可扩展性方面的巨大挑战。联邦学习提供了一种有前景的解决方案,但由于缺乏能够捕捉真实世界跨平台异质性的基准,其潜力受到制约。为弥补这一空白,我们提出 FedGUI——首个用于在移动、网…...

给大一新生的循迹小车避坑指南:从模块接线到代码调试,手把手带你搞定STC89C52单片机项目

大一新生必看:STC89C52循迹小车避坑实战手册 第一次做循迹小车项目时,我盯着实验室里那堆杜邦线和闪烁的LED灯,完全不知道从何下手。现在回想起来,当时如果有一份详尽的避坑指南,至少能少熬三个通宵。这份手册将用最直…...

上海精装房供应商

在上海这座现代化大都市,精装房已成为许多家庭的首选。然而,传统装修材料可能带来的环保问题一直是业主们关注的焦点。上海海丽泷全铝有限公司作为一家专注于全铝家居定制的本地企业,为上海地区的精装房项目提供了环保、耐用的替代方案。本土…...

拒绝采样微调实战:如何用LLaMA-7B提升数学推理准确率(附代码)

拒绝采样微调实战:如何用LLaMA-7B提升数学推理准确率(附代码) 数学推理能力一直是衡量大语言模型性能的重要指标。许多开发者在实际项目中发现,即使像LLaMA-7B这样的开源模型,在复杂数学问题上也常出现逻辑错误或计算偏…...

A股量化交易系统的工程化实践:从策略建模到AI风控的选型思考

在 2026 年的市场环境下,个人交易者面临的竞争已从信息不对称转向了“决策一致性”与“执行响应比”的博弈。对于技术从业者而言,编写一套属于自己的交易脚本并非难事,但如何将零散的逻辑整合为一套具备防御性的投资系统,才是跨越…...

5步搞定Java支付集成:IJPay让支付开发变简单

5步搞定Java支付集成:IJPay让支付开发变简单 【免费下载链接】IJPay IJPay 让支付触手可及,封装了微信支付、QQ支付、支付宝支付、京东支付、银联支付、PayPal 支付等常用的支付方式以及各种常用的接口。不依赖任何第三方 mvc 框架,仅仅作为工…...

HideVolumeOSD:彻底隐藏Windows音量栏的终极解决方案

HideVolumeOSD:彻底隐藏Windows音量栏的终极解决方案 【免费下载链接】HideVolumeOSD Hide the Windows 10 volume bar 项目地址: https://gitcode.com/gh_mirrors/hi/HideVolumeOSD 你是否厌倦了在全屏游戏或重要演示时被Windows音量栏打断?这款…...

Ubuntu 22.04 下 PX4 仿真环境搭建总结(纯试一下)

根据原始链接尝试复现:https://mp.weixin.qq.com/s/f98WbZrQDvmhjvJiftmrtg 在 Ubuntu 22.04 环境下搭建 PX4 仿真平台时,核心涉及三部分:PX4 Autopilot、Gazebo 仿真器以及 QGroundControl 地面站。从实际配置过程来看,Ubuntu 22.04 可以较稳定地支持 PX4 开发与仿真,但…...

linux 安装 人大金仓数据库

1.安装人大金仓 下载链接 KingbaseES_V008R006C009B0014_Lin64_install.iso 2.上传文件到 /home/soft/ cd /home mkdir soft cd /soft3.创建kingbase用户作为KingbaseES安装用户。 # 安装依赖库 yum install -y libaio-devel gcc glibc make # 创建用户组 groupadd kingbase …...

AI数字员工:从客服知识学习到多平台视频发布,全自动技能合集

温馨提示:文末有资源获取方式最近“AI养龙虾”的概念炒得很热,但真正上手过的朋友都知道——技术门槛不低。部署要代码、配置要工程师、调试要专人,普通人想玩转,难度不小。今天我们不谈那些复杂的,直接整理一份普通人…...

GLM-4-9B-Chat-1M显存优化指南:40GB GPU高效运行技巧

GLM-4-9B-Chat-1M显存优化指南:40GB GPU高效运行技巧 1. 开篇:为什么需要显存优化 最近在用GLM-4-9B-Chat-1M这个模型的时候,我发现一个挺实际的问题:虽然官方说支持100万token的上下文长度,但真要用到40GB显存的GPU…...

2026mathorcup妈妈杯数学建模挑战赛B题思路详解

大家好呀,2026年mathorcup妈妈杯数学建模挑战赛今天早上开赛啦,在这里先带来初步的选题建议及思路。 目前团队正在写B题完整论文,后续还会持续更新哈。以下只是简略的图文版初步思路,更详细的选题建议及B题思路完整版讲解视频请移…...

颠覆传统设计流程:SD-PPP如何让AI绘图在Photoshop中触手可及

颠覆传统设计流程:SD-PPP如何让AI绘图在Photoshop中触手可及 【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 想象一下这样的场景:你正在Photoshop中精心调整一张商业海报,突然需…...

GitHub Copilot X vs. Cursor Pro vs. Tabnine Ultra vs. 通义灵码2.0:2026奇点智能技术大会独家实测数据曝光(附IDE响应延迟毫秒级对比表)

第一章:2026奇点智能技术大会:AI编程助手对比评测 2026奇点智能技术大会(https://ml-summit.org) 在2026奇点智能技术大会上,来自全球12家主流厂商的AI编程助手接受了统一基准测试——包括代码补全准确率、跨文件上下文理解、调试建议有效性…...

Python入门到AI开发:基于浦语灵笔2.5-7B的实践路径

Python入门到AI开发:基于浦语灵笔2.5-7B的实践路径 1. 为什么从Python开始学AI开发 很多人刚接触AI时会有点懵:要学数学?要懂算法?要会调参?其实大可不必。我带过不少零基础的朋友入门,发现最顺滑的路径是…...

Go语言怎么用信号量控制并发_Go语言semaphore信号量教程【入门】

Go 官方标准库不提供 semaphore 类型,应使用 golang.org/x/sync/semaphore;Acquire 阻塞等待许可,TryAcquire 立即返回;必须严格配对申请与释放,且由同一 goroutine 执行;适用于 I/O 密集型资源限流&#x…...

LeetCode 插入排序 题解

LeetCode 插入排序 题解 题目描述 实现插入排序算法,对一个整数数组进行排序。 示例 1: 输入:nums [5,2,3,1] 输出:[1,2,3,5]示例 2: 输入:nums [5,1,1,2,0,0] 输出:[0,0,1,1,2,5]解题思路 方…...

STM32H743双FDCAN实战:手把手教你搞定消息RAM分区与过滤表共存(附完整代码)

STM32H743双FDCAN实战:消息RAM分区与过滤表共存深度解析 第一次在H743上同时启用双FDCAN通道时,我遇到了一个诡异现象——CAN1接收的数据偶尔会出现在CAN2的缓冲区里。经过三天调试才发现,问题根源在于那10KB共享消息RAM的配置方式。与传统的…...

SITS2026未公开技术纪要:为什么92%的AI编程工具在遗留系统中失效?3个架构适配公式+2个轻量改造模板

第一章:SITS2026案例:大厂AI编程工具实践 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026(Software Intelligence & Tooling Summit 2026)技术实践中,国内头部科技企业联合推出基于大模型的端到端AI编…...

超级千问语音设计世界优化升级:使用Nginx反向代理提升访问安全

超级千问语音设计世界优化升级:使用Nginx反向代理提升访问安全 1. 引言:从像素冒险到安全部署 想象一下,你刚刚搭建好了一个充满复古像素风的语音设计中心——超级千问语音设计世界。这个基于Qwen3-TTS的创意工具,让你能够像玩经…...

导入SQL文件后前端仍显示旧数据怎么办_数据库查询缓存刷新

MySQL 8.0 起已彻底移除 query_cache,清缓存操作无效;前端数据陈旧主因是应用层、中间件或浏览器/CDN 缓存,需逐层排查 HTTP 响应头、Nginx proxy_cache、框架视图缓存及 Redis 缓存一致性。MySQL 的 query_cache 已被移除,别白忙…...

清音听真Qwen3-ASR-1.7B效果惊艳:粤语+英语混合演讲→自动语种切换+术语统一校准

清音听真Qwen3-ASR-1.7B效果惊艳:粤语英语混合演讲→自动语种切换术语统一校准 想象一下这个场景:一位来自广东的工程师,正在用粤语夹杂着大量英语专业术语,向国际团队做技术分享。他的演讲录音里,“呢个API嘅through…...