当前位置: 首页 > article >正文

esProc SPL vs DuckDB:多源数据处理谁更胜一筹?

DuckDB 和 esProc SPL 都支持多样数据源处理,这里比较一下两者的差异。

支持的数据源种类

DuckDB 支持的数据源类型覆盖了常见的文件格式(如 CSV、Parquet、JSON、Excel)、云存储(如 AWS S3、Azure Blob Storage)以及关系型数据库(如 MySQL、PostgreSQL、SQLite),也可以通过 httpfs 访问 web 数据。此外,DuckDB 还支持一些新兴的数据湖格式(如 Delta Lake、Iceberg)。

esProc 支持的数据源类型更丰富,涵盖了更多的本地文件、数据库和远程数据源。以下是 SPL 支持的一些数据源:

  • 本地文件:CSV、Excel、JSON、XML、Parquet、ORC 等

  • 所有关系型数据库:MySQL、PostgreSQL、Oracle、SQL Server 等(通过 JDBC)

  • NoSQL 数据库:MongoDB、Cassandra、Redis 等

  • 云存储:HDFS、AWS S3、GCS 等

  • 远程数据源:RESTful API、WebService、FTP/SFTP 等

  • 其他:Kafka、ElasticSearch 等

从表面的数量上看,esProc 支持的数据源种类更多,尤其是在非关系型数据库(如 MongoDB、Redis)和 Kafka、ES 等支持方面,esProc 优势明显。

从更深层看,DuckDB 的数据源接入依赖专用连接器(Connector),要针对每种数据源单独开发,复杂度很高,用户自行基于开源代码再开发的难度也很大。结果就是可用 Connector 数量明显不多,连最常见的关系数据库也支持的不足,目前能支持 MySQL、PG、SQLite 而不支持 Oracle、MSSQL 等其他常见数据库,这会导致常见的多数据源混合查询困难。比如要做 MySQL 和 Oracle 的混合计算,在没有合适 Connector 时,就只能通过 Python 曲线救国。

esProc 使用数据源 Native 接口,所有关系库都可以用 JDBC 连接,能天然支持,而其他诸如 MongoDB、Kafka 等数据源也都是基于 Native 接口做简单封装即可,开发速度很高,因而提供了更丰富的 Connetor 库。用户自己扩展也不难,可以通过预留的扩展接口实现。

有了这些丰富的支持和数据源扩展能力,使用 esProc 完成多数据源混合计算就非常容易了,MySQL+Oracle 直接算就可以,有不支持的数据源扩展起来也简单。

DuckDB 的专用 Connector 和 esProc 使用 Native 接口简单封装没有好坏之分,前者可以做更深层次的支持和优化,可以做到一定程度的透明化;后者则更加灵活,支持的数据源丰富且扩展灵活,具体倾向于哪个就取决于实际需要了。

数据类型处理

DuckDB 对 CSV 和 Parquet 文件的支持非常成熟,能够高效读取和查询这些文件。例如,DuckDB 可以直接加载 CSV 文件并进行 SQL 查询,操作简单直接:

SELECT * FROM 'data.csv' WHERE column_a > 100;

esProc 用 SPL 语法处理 CSV 文件也简单:

T("data.csv").select(column_a > 100)

除了 SPL 语法,esProc 也同时提供了 SQL 语法:

$SELECT * FROM data.csv WHERE column_a > 100;

简单情况用 SQL 查,复杂情况用 SPL,二者还可以混用。

由于 SQL 语言的限制,很多复杂计算并不好实现,DuckDB 与 Python 做了很好集成,可以通过 Python 辅助实现复杂需求,但两个体系编写调试都不一样,会产生很强的割裂感。esProc 提供 SQL 和更强大的 SPL,SQL 搞不定的运算用 SPL 就都能实现了,通常还更简单,一个体系内完成整体性更强一些。

另外一个比较大的差异在 JSON 处理上,esProc 能更好应对复杂计算以及需要保持 JSON 层次结构的场景。完成多层结构计算时,SPL 可以直接用点(.)取子层级数据,很直观,不需要像 DuckDB 依靠 UNNEST 逐层展开或者嵌套查询来保持数据结构的完整性,多层数据计算支持的非常彻底。

SPL 多层多条件数据过滤:

json(file("orders.json").read()). select(order_details.product.category=="Electronics" && order_details.sum(price*quantity)>200)

相比 DuckDB,esProc 的数据源支持更加丰富,扩展起来也容易,可以完成绝大部分数据源间的混合计算。数据处理上,esProc 除了 SQL 语法还有 SPL,能应对更多复杂情况,一个体系就能搞定,不存在 SQL 和 Python 两个体系的割裂,尤其对 JSON 类多层数据的处理,SPL 更简单直观。

免费下载

相关文章:

esProc SPL vs DuckDB:多源数据处理谁更胜一筹?

DuckDB 和 esProc SPL 都支持多样数据源处理,这里比较一下两者的差异。 支持的数据源种类 DuckDB 支持的数据源类型覆盖了常见的文件格式(如 CSV、Parquet、JSON、Excel)、云存储(如 AWS S3、Azure Blob Storage)以及…...

基于Python的selenium入门超详细教程(第1章)--WebDriver API篇

学习路线 自动化测试介绍及学习路线-CSDN博客 ​自动化测试之Web自动化(基于pythonselenium)-CSDN博客 参照博文:selenium入门超详细教程——网页自动化操作-CSDN博客 目录 前言 一、WebDriver API介绍 1.1 什么是WebDriver? 1.2 工…...

每日Attention学习26——Dynamic Weighted Feature Fusion

模块出处 [ACM MM 23] [link] [code] Efficient Parallel Multi-Scale Detail and Semantic Encoding Network for Lightweight Semantic Segmentation 模块名称 Dynamic Weighted Feature Fusion (DWFF) 模块作用 双级特征融合 模块结构 模块思想 我们提出了 DWFF 策略&am…...

接上一篇,C++中,如何设计等价于Qt的信号与槽机制。

看下面例子: class FileManager : public QObject {Q_OBJECTpublic:FileManager(QObject* parent nullptr) : QObject(parent) {}void changeFileName(const QString& newName) {fileName newName;emit fileNameChanged(fileName);}signals:void fileNameChan…...

Spring(6)——Spring、Spring Boot 与 Spring MVC 的关系与区别

Spring、Spring Boot 与 Spring MVC 的关系与区别 1. 核心定位 Spring 定位:基础框架,提供 IoC(控制反转) 和 DI(依赖注入) 核心功能,管理对象生命周期及依赖关系。功能:支持事务管…...

安装baselines出现的环境配置问题

该错误通常是由于环境配置问题、依赖包缺失、权限不足等原因导致 1. 更新相关工具 pip install --upgrade pip setuptools 2. 检查并安装依赖 conda install setuptools pip wheel 出现新问题: 3.尝试使用 Conda 安装 conda install mpi4py 再尝试安装 baseli…...

【商城实战(38)】Spring Boot:从本地事务到分布式事务,商城数据一致性的守护之旅

【商城实战】专栏重磅来袭!这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建,运用 uniapp、Element Plus、SpringBoot 搭建商城框架,到用户、商品、订单等核心模块开发,再到性能优化、安全加固、多端适配&#xf…...

当今前沿技术:人工智能与区块链的未来发展

在如今快速发展的科技时代,各种前沿技术正在改变的生活。人工智能AI)就是其中之一。它在医疗、金融、制造等多个领域发挥着巨大作用。AI可以分析数据,识别模式,还能辅助决策。比如,在医疗方面,AI帮助医生更…...

perl的package中“Subroutine new redefined”问题

我在一个脚本run_PMseq.V8.pl调用了一些.pm文件 $perl -c run_PMseq.V8.pl Subroutine new redefined at /mnt/lustre/user/wubin/01.Program/Scripts/01.script/GeneLab/PMSeq/package_V3/Add_mismatch.pm line 25. Subroutine generate_shell redefined at /mnt/lustre/use…...

markdown 转 word 工具 ‌Pandoc‌

‌Pandoc‌是一个开源的文档转换工具,由John MacFarlane开发,旨在提供一个通用的文档转换解决方案。它支持多种输入和输出格式,能够高效地将不同格式的文档进行转换‌ 功能 Pandoc支持以下格式之间的转换: **Markdown、reStruct…...

英语学习(GitHub学到的分享)

【英语语法:https://github.com/hzpt-inet-club/english-note】 【离谱的英语学习指南:https://github.com/byoungd/English-level-up-tips/tree/master】 【很喜欢文中的一句话:如果我轻轻松松的学习,生活的幸福指数会提高很多…...

【eNSP实战】三层交换机使用ACL实现网络安全

拓图 要求: vlan1可以访问Internetvlan2和vlan3不能访问Internet和vlan1vlan2和vlan3之间可以互相访问PC配置如图所示,这里不展示 LSW1接口vlan配置 vlan batch 10 20 30 # interface Vlanif1ip address 192.168.40.2 255.255.255.0 # interface Vla…...

Javascript BOM,DOM 知识简介

JSON 一种数据交换格式,作为数据载体,传输数据, Json比xml 更简单,可读性更高.js的对象和Json可以相互转换. //json定义格式: var varName{"key1":value1,"key2":value2};value的数据类型为数字,字符串(在双引号中),布尔值,数组(在方括号中),对象(在花括…...

拆解 “ES 已死“ 伪命题:Agentic RAG 时代搜索引擎的终极形态

作者:来自 Elastic 李捷 xxx:“ES已死,#%#……” 我:??? 最近,某厂商发了一堆公关文章,翻来覆去地炒作 “ES 已死”,“放弃 ES”。这哪是什么正经的技术文章&…...

关于ISP Pipeline LSC(镜头阴影校正)位置的一些想法

关于LSC校正的一些基本原理可以参考如下链接: ISP之LSC 【ISP】浅析Lens Shading ISP-镜头阴影校正(LSC) 这篇博文不打算讲具体的LSC校正原理。 主要是答复一位网友关于LSC校正在ISP Pipeline的问题。 网友问题如下: Rin_Cyn…...

Vue学习笔记集--六大指令

内容渲染指令 内容渲染指令用来辅助开发者渲染 DOM 元素的文本内容。常用的内容渲染指令有如下2 个&#xff1a; v-text&#xff08;类似innerText&#xff09; 使用语法&#xff1a;<p v-text"name">hello</p>&#xff0c;意思是将 name 值渲染到 p 标…...

.net 6程序在IIS中部署后点击IIS设置报错“执行此操作时出错”

.net 6写的程序&#xff0c;需要在Windows服务器的IIS中部署&#xff0c;由于是刚装的系统&#xff0c;先安装.net 6运行时&#xff0c;装了才发现没有IIS&#xff0c;于是又通过“添加角色和功能”添加与IIS相关的功能。安装完毕后&#xff0c;在IIS中添加网站&#xff0c;并将…...

《从零手写Linux Shell:详解进程控制、环境变量与内建命令实现 --- 持续更新》

承接上文Linux 进程的创建、终止、等待与程序替换保姆级讲解-CSDN博客&#xff0c;涉及所用到的代码&#xff0c;本文所绑定的资源就是上篇文章的主要代码。 完整代码在文章末尾 目录 1.实现编写代码输出一个命令行 a.如何获取自己的用户名&#xff0c;主机名&#xff0c;路径…...

【Go语言圣经2.4】

目标 理解 在 Go 中&#xff0c;赋值操作既包括最基本的形式&#xff08;左边一个变量&#xff0c;右边一个表达式&#xff09;&#xff0c;也包括复合赋值、元组赋值和隐式赋值。表达式求值的顺序、变量更新时的副作用以及如何处理多返回值和下划线&#xff08;_&#xff09…...

运维工具推荐 -- 宝塔面板:一键部署服务器

标题&#xff1a;宝塔面板&#xff1a;一键部署服务器&#xff0c;轻松管理你的云端世界 引言 在数字化时代&#xff0c;服务器管理对于个人开发者、中小企业或站长来说既是机遇也是挑战。手动配置服务器环境耗时费力&#xff0c;而 宝塔面板 作为一款 免费开源、功能全面 的服…...

C# 异常处理‌的核心概念

文章目录 一、异常处理的核心概念‌‌二、C# 异常处理的基本语法‌‌三、常见异常类型‌‌四、最佳实践‌‌五、示例&#xff1a;文件读取异常处理‌‌六、总结‌ C# 异常处理‌的详细说明&#xff0c;包括核心概念、使用方法和最佳实践&#xff1a; 一、异常处理的核心概念‌ …...

腾讯云点播key防盗链生成到期自动失效url

package com.xmkjsoft.protect_key;import java.nio.charset.StandardCharsets; import java.security.MessageDigest;public class TencentKeyAntiTheft {private static final String SECRET_KEY ""; // 请替换为腾讯云 VOD 控制台中的 Key/*** 生成腾讯云 Key 防…...

深入 Spring Boot 注解

深入 Spring Boot 注解&#xff1a;我的开发心得与常用注解详解 大家好&#xff0c;我是 [你的 CSDN 昵称/名字]&#xff0c;一位热爱 Spring Boot 的技术博主。 在多年的 Spring Boot 开发实践中&#xff0c;我深深体会到注解的强大魅力。它们不仅让代码变得更简洁&#xff0…...

k8s环境部署

四台机器 分别是 k8s-master&#xff1a;172.25.254.100 k8s-node1&#xff1a;172.25.254.10 k8s-node2&#xff1a;172.25.254.20 docker-harbor&#xff1a;172.25.254.200 reg.timinglee.org 四台机器分别配置好网络和软件仓库 做好地址解析 scp -r /etc/hosts/ root17…...

CentOS 系统安装 docker 以及常用插件

博主用的的是WindTerm软件链接的服务器&#xff0c;因为好用 1.链接上服务器登入后&#xff0c;在/root/目录下 2.执行以下命令安装docker sudo yum install -y yum-utilssudo yum-config-manager \--add-repo \https://download.docker.com/linux/centos/docker-ce.reposudo…...

谷歌云服务器:服务器怎么安装???

谷歌云服务器&#xff1a;服务器怎么安装&#xff1f;&#xff1f;&#xff1f; 以下是详细分步指南&#xff0c;帮助你在 Google Cloud Platform (GCP) 上快速创建并配置云服务器&#xff08;Compute Engine 实例&#xff09;&#xff0c;并安装所需环境&#xff1a; 一、准备…...

Redis--Zset类型

目录 一、引言 二、介绍 三、命令 1.zadd 2.zrange&#xff0c;zrevrange&#xff0c;zrangebyscore 3.zcard&#xff0c;zcount 4.zpopmax&#xff0c;bzpopmax&#xff0c;zpopmin&#xff0c;bzpopmin 5.zrank,zrevrank,zscore 6.zrem&#xff0c;zremrangebyrank&a…...

《阿里云Data+AI:开启数据智能新时代》电子书上线啦!

本书整理了阿里云在DataAI领域的最新实践案例与深度洞察&#xff0c;涵盖电商、游戏、营销、数字内容等多个行业的成功经验&#xff0c;以及技术专家对数据库与AI融合趋势的专业解读。 通过理论与实践的结合&#xff0c;我们将共同探索DataAI如何成为企业智能化转型的核心驱动…...

图像处理篇---图像预处理

文章目录 前言一、通用目的1.1 数据标准化目的实现 1.2 噪声抑制目的实现高斯滤波中值滤波双边滤波 1.3 尺寸统一化目的实现 1.4 数据增强目的实现 1.5 特征增强目的实现&#xff1a;边缘检测直方图均衡化锐化 二、分领域预处理2.1 传统机器学习&#xff08;如SVM、随机森林&am…...

Vue 3 事件总线详解:构建组件间高效通信的桥梁

Vue 3 事件总线详解&#xff1a;构建组件间高效通信的桥梁 为什么需要事件总线&#xff1f;使用 mitt 实现事件总线1. 安装 mitt2. 创建事件总线3. 在组件中使用事件总线发送端组件&#xff08;例如 ComponentA.vue&#xff09;接收端组件&#xff08;例如 ComponentB.vue&…...