DuckDB:PRAGMA语句动态配置数据库行为
PRAGMA语句是DuckDB从SQLite中采用的SQL扩展。PRAGMA命令可能会改变数据库引擎的内部状态,并可能影响引擎的后续执行或行为。本文介绍PRAGMA命令及其典型应用场景。
DuckDB PRAGMA介绍
在 DuckDB 中,PRAGMA 是一种编译指示(compiler directive),它是一种特殊的指令,用于配置数据库的各种内部设置、行为和特性。这些指令可以影响数据库的性能、资源使用、输出显示等诸多方面,就像是为数据库引擎提供了一系列的控制开关和微调旋钮。
PRAGMA特点
-
语法简单
PRAGMA 的语法相对简洁明了。通常使用
PRAGMA
关键字加上具体的指令名称和相应的参数(如果需要)来使用。例如,PRAGMA memory_limit='1GB';
用于设置内存限制,这种语法形式易于理解和使用,即使对于新手用户也能比较快速地掌握如何配置一些基本的数据库设置。 -
动态配置性
许多 PRAGMA 可以在数据库会话过程中动态设置和调整。这意味着用户可以根据具体的查询任务、数据规模和系统资源状况实时改变数据库的行为。与一些数据库中需要修改配置文件并重新启动数据库才能生效的设置相比,DuckDB 的 PRAGMA 提供了更高的灵活性。例如,在处理一个特别复杂且内存密集型的查询时,可以先增加内存限制,然后在查询完成后再将其恢复。
-
针对性强
PRAGMA 主要是针对 DuckDB 自身的运行特性进行配置。它聚焦于数据库引擎内部的关键要素,如内存管理、查询执行机制、输出控制等,不像一些数据库的配置选项可能涉及到更广泛的领域(如数据库的网络连接、安全认证等方面)。这使得用户可以更精准地对 DuckDB 的性能和行为进行优化和控制。
PRAGMA作用
-
资源管理作用
-
内存管理
通过
PRAGMA memory_limit
来控制数据库可使用的内存量。这对于防止内存过度占用至关重要,特别是在处理大型数据集或者复杂查询时。例如,在一个资源有限的服务器上运行 DuckDB,如果不限制内存使用,可能会导致系统内存耗尽,而通过合理设置PRAGMA memory_limit
,可以确保数据库在给定的内存范围内高效运行。 -
线程控制
PRAGMA threads
指令允许用户设置数据库在执行查询时所使用的线程数量。在多核处理器环境下,合理配置线程数可以充分利用 CPU 资源,加速查询的执行。例如,对于一个可以并行处理的数据分析任务,增加线程数可以使 DuckDB 同时处理多个数据子集,从而缩短整体的查询时间。
-
-
性能优化作用
-
查询性能分析
PRAGMA enable_profiling
用于开启查询性能分析功能。当开启这个功能后,DuckDB 会收集查询执行过程中的详细性能数据,例如各个操作的执行时间、数据读取和写入的量等。这些数据存储在特定的表(如duckdb_profiles
)中,通过查询这个表,用户可以深入了解查询的性能瓶颈,进而对查询进行优化。例如,如果发现某个连接操作(JOIN)在查询执行过程中占用了大量时间,就可以考虑优化表结构或者连接条件。 -
优化执行策略(部分情况)
虽然目前公开的直接用于控制查询执行策略的 PRAGMA 相对有限,但在未来或者通过一些间接方式,PRAGMA 可能会用于引导查询执行计划的生成。例如,影响优化器对于索引的使用策略、子查询的展开方式等,从而使查询能够以更高效的方式执行。
-
-
用户体验和输出控制作用
-
进度条显示控制
PRAGMA disable_progress_bar
可以用于控制在执行长时间查询时是否显示进度条。在自动化脚本或者不需要可视化进度反馈的场景下,禁用进度条可以减少不必要的输出,使脚本的输出更加简洁。而在需要用户观察查询进度的情况下,又可以方便地重新启用进度条。 -
潜在的输出格式控制
虽然目前 DuckDB 在这方面的功能有限,但从发展的角度看,PRAGMA 可用于控制查询结果的输出格式。例如,有可能通过特定的 PRAGMA 来决定输出结果是按照传统的表格形式、JSON 格式还是其他自定义的格式,以满足不同用户场景和与其他系统交互需求。
-
PRAGMA 示例
设置内存限制
假设你正在处理一个可能占用大量内存的数据加载任务,并且你的系统内存有限。你可以使用PRAGMA memory_limit
来限制 DuckDB 使用的内存量。例如,要将内存限制设置为 2GB(2 * 1024 * 1024 * 1024 字节),可以在 DuckDB 客户端或脚本中执行以下命令:
# 设置内存限制
PRAGMA memory_limit='2147483648';# 查询内存限制
PRAGMA memory_limit;
没有 PRAGMA 语句时,数据库的许多配置参数可能是固定的,或者需要修改配置文件并重新启动数据库才能生效。例如在一些传统数据库中,要调整内存使用参数,可能需要编辑配置文件(如 PostgreSQL 的postgresql.conf
文件),然后重启数据库服务。而 DuckDB 的 PRAGMA 语句可以在数据库运行过程中动态地改变数据库的行为。例如,通过PRAGMA memory_limit
,可以根据当前的查询任务即时调整内存限制。如果正在执行一个小型查询,可将内存限制设置得较低;当遇到大型数据处理任务时,再动态增加内存限制,这为用户提供了很大的灵活性。
设置线程数量
当你在一个多核处理器的系统上运行 DuckDB,并且希望利用多核优势来加速查询执行时,可以使用PRAGMA threads
来设置线程数。例如,若你的系统有 4 个核心,并且你想让 DuckDB 使用 4 个线程来执行查询,可以执行以下命令:
# 设置线程限制
PRAGMA threads=4;# 查看线程限制
PRAGMA threads;
开启性能分析
当你遇到一个执行速度较慢的查询,并且想要找出性能瓶颈时,可以开启查询性能分析。使用以下命令开启性能分析功能:
PRAGMA enable_profiling = true;
开启后,DuckDB 会在执行查询时收集性能数据。等你执行查询后,可以通过查询duckdb_profiles
表来查看性能分析数据,如:
SELECT * FROM duckdb_profiles;
这个表中会包含诸如查询计划执行时间、各个操作符(如扫描操作、连接操作)的时间消耗等详细信息。通过分析这些数据,你可以确定哪个部分的查询执行花费了最多的时间,例如,如果发现连接操作花费的时间最长,你可以考虑优化表结构或者连接条件来提高性能。
查询元数据
- 列出Schema信息:
# 列出所有数据库
PRAGMA database_list;
# 列出所有数据表
PRAGMA show_tables;# 列出所有表,类似describe
PRAGMA show_tables_expanded;
- 表信息
# 返回所有表的字段信息
PRAGMA table_info('table_name');
CALL pragma_table_info('table_name');
示例输出如下:
cid INTEGER, -- cid of the column
name VARCHAR, -- name of the column
type VARCHAR, -- type of the column
notnull BOOLEAN, -- if the column is marked as NOT NULL
dflt_value VARCHAR, -- default value of the column, or NULL if not specified
pk BOOLEAN -- part of the primary key or not
- 数据库大小
# 获取每个数据库的文件和内存大小:
SET database_size;
CALL pragma_database_size();
返回信息示例如下:
database_name VARCHAR, -- database name
database_size VARCHAR, -- total block count times the block size
block_size BIGINT, -- database block size
total_blocks BIGINT, -- total blocks in the database
used_blocks BIGINT, -- used blocks in the database
free_blocks BIGINT, -- free blocks in the database
wal_size VARCHAR, -- write ahead log size
memory_usage VARCHAR, -- memory used by the database buffer manager
memory_limit VARCHAR -- maximum memory allowed for the database
- 存储信息
# 获取表存储信息
PRAGMA storage_info('table_name');
CALL pragma_storage_info('table_name');
返回下面表格信息:
Name | Type | Description |
---|---|---|
row_group_id | BIGINT | |
column_name | VARCHAR | |
column_id | BIGINT | |
column_path | VARCHAR | |
segment_id | BIGINT | |
segment_type | VARCHAR | |
start | BIGINT | The start row id of this chunk |
count | BIGINT | The amount of entries in this storage chunk |
compression | VARCHAR | Compression type used for this column – see the “Lightweight Compression in DuckDB” blog post |
stats | VARCHAR | |
has_updates | BOOLEAN | |
persistent | BOOLEAN | false if temporary table |
block_id | BIGINT | empty unless persistent |
block_offset | BIGINT | empty unless persistent |
总结
本文介绍DuckDB的PRAGMA特点和作用,并通过示例展示了如何资源管理、查询元数据等。有关DuckDB的更多内置配置选项,请参阅配置参考。DuckDB扩展可以注册额外的配置选项。这些都在各自的扩展文档页面中进行了记录。该页包含支持的PRAGMA设置。
相关文章:

DuckDB:PRAGMA语句动态配置数据库行为
PRAGMA语句是DuckDB从SQLite中采用的SQL扩展。PRAGMA命令可能会改变数据库引擎的内部状态,并可能影响引擎的后续执行或行为。本文介绍PRAGMA命令及其典型应用场景。 DuckDB PRAGMA介绍 在 DuckDB 中,PRAGMA 是一种编译指示(compiler directi…...
GO通过SMTP协议发送邮件
什么是SMTP协议 SMTP(Simple Mail Transfer Protocol,简单邮件传输协议)是用于发送邮件的协议。当一个邮件服务器需要发送邮件给另一个邮件服务器时,它会使用SMTP协议与目标服务器建立连接,并传输邮件内容。SMTP协议的…...
轻量自高斯注意力机制LSGAttention模型详解及代码复现
模型背景 近年来,卷积神经网络(CNN)在高光谱图像分类领域取得了显著进展。然而,CNN面临 长距离关系建模 和 计算成本 增加的挑战。为解决这些问题,研究人员提出了基于 轻量自高斯注意(Light Self-Gaussian-Attention, LSGA) 机制的视觉转换器(Vision Transformer, VIT),旨…...
解读若依框架中的`@Excel` 和 `@Excels` 注解
文章目录 一、Excels 注解详解1.1 适用场景1.2 作用与好处 二、Excel 注解详解2.1 核心属性解析2.2 高级用法2.3 综合应用案例 三、总结 解读若依框架中的 Xss 注解博客:解读若依框架中的 Xss 注解 接下来我们将对若依框架中的 Excel 和 Excels 注解进行更加详细的…...

云商城--基础数据处理和分布式文件存储
第2章 基础数据处理和分布式文件存储 1.分布式文件存储系统Ceph学习 1).掌握Ceph架构 2).掌握Ceph组件 3).搭建Ceph集群(了解) 2.Ceph使用 1).基于Ceph实现文件上传 2).基于Ceph实现文件下载 3.SKU、SPU管理 1).掌握SKU和SPU关系 2).理解商品发…...
六十九:基于openssl实战验证RSA
RSA(Rivest-Shamir-Adleman)是一种非对称加密算法,广泛应用于数据加密和数字签名领域。在实际开发和学习过程中,理解 RSA 的工作原理和使用场景非常重要。本文将以 OpenSSL 工具为基础,通过实例操作来验证和理解 RSA 的…...
Three.js 用户交互:构建沉浸式3D体验的关键
文章目录 前言一、基本交互:鼠标与触摸事件二、高级交互:键盘控制与游戏手柄支持三、物理模拟与碰撞检测四、手势识别与多点触控五、增强现实(AR)与虚拟现实(VR)六、触觉反馈与震动效果七、语音控制八、眼球…...
Android车机DIY开发之学习篇(五)默认应用修改
Android车机DIY开发之学习篇(五)默认应用修改 android默认应用位置 sdk/packages/apps InitRC配置 应用安装的目录 /system/priv-app 该路径存放一些系统底层的应用,比如Setting,systemUI等。该目录中的app拥有较高的系统权限,而且如果要使…...
linux 设置mysql 外网访问
1、修改 MySQL 配置文件 找到并编辑配置文件:在Linux系统中,MySQL的配置文件通常是/etc/mysql/my.cnf,使用命令sudo vim /etc/mysql/my.cnf打开文件。 注释或修改 bindaddress:找到bindaddress 127.0.0.1,将其注释掉…...
SQL UNION 操作符
SQL UNION 操作符 SQL UNION 操作符用于合并两个或多个 SELECT 语句的结果集。它将多个结果集组合成一个单独的结果集,并去除重复的行。为了使用 UNION,每个 SELECT 语句必须具有相同的列数,并且对应列的数据类型必须兼容。 语法 SELECT c…...
c++ 17 constexpr
未来已来:从SFINAE到concepts #include <type_traits> #include <vector> #include <list> #include <iostream> // 一个通用的容器打印函数,支持任何带 begin()/end() 的容器 template<typename Container> …...
Java QueryWrapper groupBy自定义字段,以及List<Map>转List<Entity>
Java queryWrapper groupby自定义字段 String sql "data_id,(select value from lz_html a where a.data_id lz_html.data_id and class_nametest-item-status) status," "(select value from lz_html a where a.data_id lz_html.data_id and class_nametes…...

【Rust自学】11.7. 按测试的名称运行测试
喜欢的话别忘了点赞、收藏加关注哦,对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 11.7.1. 按名称运行测试的子集 如果想要选择运行的测试,就将测试的名称(一个或多个)作为cargo test的…...

Git:Cherry-Pick 的使用场景及使用流程
前面我们说了 Git合并、解决冲突、强行回退等解决方案 >> 点击查看 这里再说一下 Cherry-Pick功能,Cherry-Pick不是merge,只是把部分功能代码Cherry-Pick到远程的目标分支 git cherry-pick功能简介: git cherry-pick 是用来从一个分…...
Ubuntu 24.04 LTS系统安装Docker踩的坑
一开始我跟着Docker给出的官网文档 Ubuntu | Docker Docs 流程走,倒腾了两个多小时,遇到了各种坑,最后放弃了。在我们使用脚本安装Docker命令前,我们先把已经安装的Docker全部卸载掉。 卸载Docker 1.删除docker及安装时自动安装…...
工作生活的感悟
前言 这篇博客基本每年都更新,每年都有新的感悟,作为一个记录吧!以后按照年来记录 2022年 不经意间,已在职场耕耘数载,特此记录以作回顾。 无用之用,方为大用: 年岁渐长,愈发体会…...

NCCL学习笔记-函数解析
前言 1.NCCL 是一个专注于 GPU 间高性能通信的库,不提供进程管理或安全通信功能。 2.用户需要依赖应用程序的进程管理系统(如 MPI)来管理进程,并确保 NCCL 在安全的网络环境中运行。 3.通过正确配置环境变量(如 NCCL_…...

windows系统如何将基座大模型私有化部署
1.windows10系统 安装npm、node、 git 最新版本 安装vmware虚拟机 内存8GB以上 双核4线程 2.vmware虚拟机 安装ubuntu系统 22.04版本 3.进入ubuntu系统 3.1 安装Ollama 基座大模型工具 在命令行中执行 curl -fsSL https://ollama.com/install.sh | sh 浏览器打开 …...

牛客网刷题 ——C语言初阶(6指针)——BC106 上三角矩阵判定
1. 题目描述——BC106 上三角矩阵判定 牛客网OJ题链接 描述 KiKi想知道一个n阶方矩是否为上三角矩阵,请帮他编程判定。上三角矩阵即主对角线以下的元素都为0的矩阵,主对角线为从矩阵的左上角至右下角的连线。 示例 输入: 3 1 2 3 0 4 5 0 0…...

CentOS 7 下 MySQL 5.7 的详细安装与配置
1、安装准备 下载mysql5.7的安装包 https://dev.mysql.com/get/mysql-5.7.29-1.el7.x86_64.rpm-bundle.tar 下载后上传至/home目录下 2、mysql5.7安装 2.1、更新yum并安装依赖 yum update -y sudo yum install -y wget sudo yum install libaio sudo yum install perl su…...

网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...
Cursor实现用excel数据填充word模版的方法
cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...

docker详细操作--未完待续
docker介绍 docker官网: Docker:加速容器应用程序开发 harbor官网:Harbor - Harbor 中文 使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像 是什么 Docker 是一种开源的容器化平台,用于将应用程序及其依赖项(如库、运行时环…...
云计算——弹性云计算器(ECS)
弹性云服务器:ECS 概述 云计算重构了ICT系统,云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台,包含如下主要概念。 ECS(Elastic Cloud Server):即弹性云服务器,是云计算…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...
条件运算符
C中的三目运算符(也称条件运算符,英文:ternary operator)是一种简洁的条件选择语句,语法如下: 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true,则整个表达式的结果为“表达式1”…...
Golang dig框架与GraphQL的完美结合
将 Go 的 Dig 依赖注入框架与 GraphQL 结合使用,可以显著提升应用程序的可维护性、可测试性以及灵活性。 Dig 是一个强大的依赖注入容器,能够帮助开发者更好地管理复杂的依赖关系,而 GraphQL 则是一种用于 API 的查询语言,能够提…...

srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南
1. 项目概述 本跑酷小游戏基于鸿蒙HarmonyOS 5开发,使用DevEco Studio作为开发工具,采用Java语言实现,包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...