当前位置: 首页 > article >正文

DeepSeek总结的数据库外部表

来源https://motherduck.com/blog/internal-vs-external-storage-whats-the-limit-of-external-tables/本文系统回顾了外部表External Tables25年来的发展历程、核心价值、适用场景及现代演进并给出了使用建议。外部表的核心概念与历史外部表是一种不存储在数据库内部、而是指向外部数据如CSV、Parquet、JSON等文件的表结构。用户通过DDL定义其结构后即可像查询普通表一样用SQL直接查询外部数据实现“数据原地访问无需迁移”。最早可追溯到1992年Microsoft Access的链接表2001年Oracle 9i正式引入外部表随后被IBM、SQL Server、Hive、Snowflake、BigQuery等广泛采用。其持久生命力源于“数据在哪里读哪里比移动它更高效”的基本原则。工作原理与类比外部表本质上是一个“指针”或“符号链接”指向外部存储如文件系统、S3、GCS。执行查询时数据库通过访问驱动如Oracle的ORACLE_LOADER读取外部文件并解析成表格形式。删除外部表仅删除元数据不影响原始数据。它与临时表的区别在于临时表是会话级、可写、快速但短暂外部表是持久元数据、只读、无限容量、成本优化。内部存储 vs. 外部表关键权衡维度内部存储外部表数据温度热数据频繁查询冷数据归档、偶尔查询典型场景仪表板、低延迟查询数据湖增强、一次性分析查询速度快毫秒级慢1.3~1.7倍但对冷数据可接受存储成本较高如Snowflake ~$23/TB/月极低S3 Glacier Deep Archive ~$1/TB/月数据新鲜度依赖ETL刷新可能滞后始终最新无需刷新运维负担可预测由仓库管理小文件问题、影响上游源系统结论高频、低延迟的“热”数据放在内部低频、归档、探索性的“冷”数据用外部表成本优势巨大。现代演进从CSV到湖仓一体外部表已从最初只能读CSV演进到支持Parquet、Avro、ORC等列式格式并融入开放表格式如Iceberg、Delta Lake、Hudi。这些格式提供ACID事务、时间旅行、模式演进等数据库特性使外部表成为湖仓架构的基石。DuckDB等新引擎甚至无需显式创建外部表通过read_parquet()、ATTACH等语法即可实现“零拷贝”外部查询。此外开放数据目录如INFORMATION_SCHEMA和ADBC列式API替代传统ODBC进一步降低了外部数据的连接和访问成本。性能基准与关键发现作者基于TPC-H SF1数据600万行进行测试内部DuckDB中位数23.8ms外部Parquet / DuckLake / Iceberg4156ms1.31.7倍开销冷数据场景每周查询一次差异可忽略存储压缩Parquet比DuckDB原生格式小40%元数据开销Iceberg在50次单行插入时产生352个文件DuckLake不产生数据文件行内嵌于目录避免了“小文件问题”流式负载查询快926倍。使用建议应该使用外部表的场景冷数据归档、一次性或低频分析希望利用廉价对象存储降低成本最高可节省20倍需要直接查询数据湖中的开放格式文件而不搬运数据结合物化视图或dbt如dbt-external-tables包使用不适合使用外部表的场景事务型OLTP负载每次查询都需要亚秒级延迟数据极小外部管理的开销超过加载收益最终结论外部表并非“过时技术”反而在湖仓一体时代重新成为核心模式。从最早读取CSV到如今支持ACID表格式其“数据原地访问”的本质始终未变。Lindy效应表明一项技术存在越久预计未来还能存在同样久。外部表已历经25年并不断被重写未来仍将长期活跃。正如作者所言“现代外部表已经不‘外部’了——它正重新成为数据库语义的一部分。”

相关文章:

DeepSeek总结的数据库外部表

来源:https://motherduck.com/blog/internal-vs-external-storage-whats-the-limit-of-external-tables/ 本文系统回顾了外部表(External Tables)25年来的发展历程、核心价值、适用场景及现代演进,并给出了使用建议。外部表的核心…...

深入浅出:学习 Claude Code,掌握 AI 程序员协作新技能

随着 Agentic Coding 的兴起,AI 编程助手进化为能自主规划任务的「AI 程序员」。Anthropic 推出《Claude Code: A Highly Agentic Coding Assistant》课程,由 Elie Schoppik 和吴恩达的 DeepLearningAI 联合授课,教授与 AI 程序员高效协作的方…...

AI给软件测试带来的5大机遇,错过一个都不应该!

01「 什么是人工智能(AI)?」 人工智能(Artificial Intelligence, AI)是一门集合了计算机科学、信息工程、心理学、哲学等多学科知识的研究领域,它旨在创建能够执行通常需要人类智能的任务的机器和软件。AI…...

大模型训练全链路指南:从经典架构到AI自进化,每个环节的核心逻辑与避坑指南

本文深入浅出地拆解了大模型端到端训练的完整闭环,涵盖了预训练、中期训练、多阶段后训练以及验证与部署适配四个核心阶段。文章详细阐述了每个环节的核心目标、适用场景、抉择逻辑与避坑红线,旨在为个人开发者、中小企业和大厂研发团队提供有益的参考。…...

如何用免费风扇控制软件FanControl打造完美静音电脑:完整配置指南

如何用免费风扇控制软件FanControl打造完美静音电脑:完整配置指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_…...

【CSP】CSP-J 2019 江西真题 | 次大值 luogu-P5682 (适合GESP四、五级及以上考生练习)

CSP-J 2019江西省真题- 次大值,主要考察排序算法与取模运算的 数学性质,重点在于对不同数据的分情况讨论与逻辑推导分析,适合GESP四、五级及以上考生练习,难度⭐⭐⭐,洛谷难度等级普及/提高-。 P5682 [CSP-J 2019 江西…...

国产时频仪器突围进阶:掌控时间精度,赋能产业自主升级

社会进步的提速与科技自主可控浪潮下,精密时频测量赛道迎来格局重塑。过去,高端时频检测仪器长期被海外巨头垄断,核心技术、行业话语权牢牢受制于人。如今,国内科创企业持续深耕自研、突破技术壁垒,国产时频设备加速突…...

VS Code Copilot Next 智能工作流配置实战手册(2024源码级深度拆解)

更多请点击: https://intelliparadigm.com 第一章:VS Code Copilot Next 智能工作流配置实战手册(2024源码级深度拆解)导论 VS Code Copilot Next 并非简单升级,而是基于 LSP 2.0 协议重构的智能代理层,其…...

【Python 3.15多解释器协同调度终极指南】:20年CPython内核专家亲授GIL破局之道与生产级调度实践

更多请点击: https://intelliparadigm.com 第一章:Python 3.15多解释器协同调度的演进脉络与核心使命 Python 3.15 引入了原生多解释器(PEP 684)的正式支持,标志着 CPython 在并发模型上迈出关键一步——不再依赖 GIL…...

VS Code Copilot Next 自动化流水线安全加固(内网离线部署+LLM响应水印+Git Pre-Commit AI行为审计三重锁)

更多请点击: https://intelliparadigm.com 第一章:VS Code Copilot Next 自动化工作流配置 安全性最佳方案 启用受限上下文隔离模式 VS Code Copilot Next 默认会读取当前打开文件及编辑器内全部可见内容,存在敏感代码意外外泄风险。需通过…...

大模型评估指标BQS与CAD原理及应用解析

1. 大模型评估指标BQS与CAD的核心原理在大模型评估领域,Benchmark Quality Score (BQS) 和 Correct Answer Distribution (CAD) 是两个关键指标。BQS通过整合多个评估维度,为模型质量提供综合评分;CAD则通过λ参数调节,将原始反转…...

树莓派/Raspberry Pi OS必备:用Nano编辑器轻松搞定系统配置与脚本编写

树莓派玩家必备:Nano编辑器高效配置指南 第一次启动树莓派时,那个闪烁的命令行界面往往让人既兴奋又忐忑。作为Raspberry Pi OS默认搭载的文本编辑器,Nano以其轻量级特性和友好的交互设计,成为嵌入式开发者和物联网爱好者的首选工…...

ESM-2与持久同调结合的蛋白质复合物聚类方法

1. 项目概述 在生物信息学和计算生物学领域,蛋白质结构分析一直是个极具挑战性的课题。最近我在研究如何将持久同调(Persistent Homology)与蛋白质语言模型ESM-2结合,开发了一套高效的蛋白质复合物聚类方法。这套方法的核心创新点…...

AffordBot框架:3D功能感知与多模态大语言模型融合

1. AffordBot框架概述:当3D场景理解遇上多模态大语言模型在机器人抓取一个门把手时,它需要的不仅仅是识别"门"这个物体,更要理解"把手可以旋转"这一隐含功能。这正是3D细粒度功能感知(Fine-grained Affordanc…...

Python量化回测框架Quantdom:从事件驱动到策略优化的实战指南

1. 从零到一:量化回测框架 Quantdom 深度解析如果你和我一样,在金融科技或者量化交易这个圈子里摸爬滚打了好些年,那你肯定对“回测”这个词又爱又恨。爱的是,它给了我们一个相对安全的沙盒,去验证那些在深夜灵光一现的…...

直方图管理化技术中的直方图计划直方图实施直方图验证

直方图管理化技术:从计划到验证的闭环实践 在数据驱动的决策时代,直方图作为一种直观的数据分布可视化工具,被广泛应用于质量管理、流程优化和统计分析中。直方图管理化技术通过“计划—实施—验证”的闭环流程,将数据转化为 act…...

从LeetCode到真实项目:DAG(有向无环图)在任务调度和依赖管理中的实战避坑指南

从LeetCode到真实项目:DAG在任务调度和依赖管理中的实战避坑指南 当你第一次在LeetCode上解决"课程表"问题时,可能觉得拓扑排序不过如此——找到入度为0的节点,移除它,重复这个过程。但当你真正在Airflow中设计任务DAG&…...

英语单词发音MP3音频批量下载方案:构建海量语音库的技术实现

英语单词发音MP3音频批量下载方案:构建海量语音库的技术实现 【免费下载链接】English-words-pronunciation-mp3-audio-download Download the pronunciation mp3 audio for 119,376 unique English words/terms 项目地址: https://gitcode.com/gh_mirrors/en/Eng…...

告别盲猜!用示波器实测福特/通用OBD波形,手把手解析J1850 PWM与VPW协议差异

福特与通用OBD信号解码实战:J1850 PWM与VPW波形全解析 当你的诊断仪突然显示"无法与ECU通信"时,先别急着更换模块。去年我在处理一辆2003年款福特探险者的间歇性通讯故障时,发现示波器上的PWM信号脉宽出现了微妙的不规则抖动——这…...

音乐解锁完整指南:如何在浏览器中免费解密加密音乐文件

音乐解锁完整指南:如何在浏览器中免费解密加密音乐文件 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: http…...

5分钟搞定!魔兽争霸III WarcraftHelper插件完全指南:解锁300帧+宽屏完美体验

5分钟搞定!魔兽争霸III WarcraftHelper插件完全指南:解锁300帧宽屏完美体验 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还…...

部署与可视化系统:移动端落地保姆级教程:YOLOv8 转换为 NCNN 并封装进 Android App 调用摄像头实时检测

一、先看结果:YOLOv8 + NCNN 在 Android 上到底能跑多快? 在开始各种环境配置和代码编写之前,先把结论亮出来——这是我用一台骁龙 865 测试机的实测数据(YOLOv8n,640640 输入): 配置 推理耗时(ms) 帧率(FPS) 模型体积(MB) FP32 CPU(单线程) 280 3.6 12.4 FP32…...

【VS Code Copilot Next 工作流自动化终极指南】:20年IDE专家亲授3步极速接入法,97%开发者忽略的配置密钥

更多请点击: https://intelliparadigm.com 第一章:VS Code Copilot Next 自动化工作流配置如何实现快速接入 前置依赖与环境准备 在启用 VS Code Copilot Next 的自动化工作流前,需确保已安装最新版 VS Code(v1.90)…...

梯度下降算法原理与实践指南

1. 梯度下降的本质与直观理解梯度下降算法就像一位蒙着眼睛的滑雪者试图从山顶安全滑到山脚。这位滑雪者无法直接看到整座山的全貌,只能通过脚下的坡度感知当前所处位置的倾斜方向。每次他都会沿着最陡峭的下坡方向迈出一小步,通过不断重复这个过程&…...

部署与可视化系统:大厂内网监控常见架构:Streamlit + OpenCV 构建工业级多路摄像头并发检测流

一、写作动机:为什么要谈“内网监控”和“Streamlit + OpenCV”? 最近三个月内,多家大厂的内部技术博客和开源社区讨论中出现了一个高频趋势:用 Python 生态中的 Streamlit + OpenCV 组合替代传统 C/S 架构的监控客户端,快速构建内网视频分析可视化系统。这件事情在几年前…...

智能网盘直链解析:八大平台高速下载解决方案

智能网盘直链解析:八大平台高速下载解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

百度网盘秒传脚本终极指南:三步告别文件传输烦恼

百度网盘秒传脚本终极指南:三步告别文件传输烦恼 【免费下载链接】rapid-upload-userscript-doc 秒传链接提取脚本 - 文档&教程 项目地址: https://gitcode.com/gh_mirrors/ra/rapid-upload-userscript-doc 还在为百度网盘文件分享而烦恼吗?百…...

裸金属部署实战(ARM Cortex-M7边缘节点全栈裸机开发手记)

更多请点击: https://intelliparadigm.com 第一章:裸金属开发环境搭建与工具链配置 硬件准备与 BIOS/UEFI 设置 裸金属开发要求直接控制物理硬件资源,因此需禁用 Secure Boot、启用 Legacy Boot(或 UEFI 模式下正确配置启动签名…...

【FME应用3】FME在土地延包数据生产中的5大实战应用

FME在土地延包数据生产中的5大实战应用(干货落地) 摘要:农村土地承包到期延包工作核心难点在于存量确权数据杂乱、拓扑错误多、图属不一致、批量更新繁琐、成果标准化难。传统人工处理方式效率低、错漏多、标准不统一。本文结合一线土地延包数…...

深入SAM自动分割引擎:automatic_mask_generator.py参数调优全指南

SAM自动分割引擎参数调优实战手册 当我们需要对整张图像进行无提示的全自动分割时,Segment Anything Model(SAM)的automatic_mask_generator.py脚本是最直接的工具。但很多用户发现,直接使用默认参数生成的结果往往不尽如人意——…...