当前位置: 首页 > article >正文

SQLGlot:用SQLGlot解析SQL

几十年来,结构化查询语言(SQL)一直是与数据库交互的实际语言。在一段时间内,不同的数据库在支持通用SQL语法的同时演变出了不同的SQL风格,也就是方言。这可能是SQL被广泛采用和流行的原因之一。

SQL解析是解构SQL查询以提取不同信息的过程,如字段、表、过滤器、连接等。查询解析主要由优化器组件在所有数据库后端中使用,以了解如何优化查询以进行处理。数据库优化器查询解析的细节超出了本文的讨论范围。我们在这里的目的是了解SQL解析的各种用例(在数据库引擎之外),并探索SQLGlot如何提供帮助。

SQLGlot介绍

来自官方文档:SQLGlot是一个无依赖性SQL解析器、转译器、优化器和引擎。

这支持:

  • SQL格式化
  • 20种不同的方言
  • 方言转换
  • 自定义解析器实现
  • 查询分析
  • 还有更多……

我使用这个包进行SQL解析,从给定的SQL查询中提取信息。我尝试了其他软件包,如sqlparse,发现sqlglot更好。
在这里插入图片描述

SQL解析应用场景

→数据健康监控/数据可观察性:分析数据库查询历史,提取使用频次高的表和列、未使用表和列、以及表之间关系等信息。

→方言翻译:SQL解析通常产生一个AST(抽象语法树)输出,该输出与数据库无关,可用于将给定查询翻译为不同的SQL方言。

→数据目录:SQL 解析器可用于通过提取诸如特定表上运行的常见查询、用户/组对表的使用情况、查询模式等信息来填充数据目录,从而提高数据集的可发现性。数据目录是一个集中化的元数据存储系统,用于管理和描述组织内的各种数据资产(如数据库表、文件、API等)。它的主要目的是帮助数据使用者(如数据分析师、数据科学家)快速找到和理解他们需要的数据。

→业务规则提取和文档:提取业务规则,ETL转换等,可用于自动生成这些规则的文档,帮助自助数据发现和分析。

→SQL可视化和优化:查询树的快速分析有助于识别执行SQL中的问题和反模式。这对于没有经验的用户/SQL生成工具(如BI可视化工具中可用的那些)生成错误的SQL查询特别有用。

→SQL格式化:可能是SQL解析器最常见的用例。有助于格式化SQL查询的可读性和确定优化的领域。

SQL解析简单示例

从任何给定的SQL中提取表名、数据库名:

from sqlglot import parse_one, expquery = """
SELECT
col1
,col2
,col3
FROM db1.table1
"""
for table in parse_one(query).find_all(exp.Table):print(f"Table => {table.name} | DB => {table.db}")

从任何给定的SQL中提取表名、数据库名:

from sqlglot import parse_one, exp
query = """
SELECT
col1
,col2
,col3
FROM db1.table1
"""
for column in parse_one(query).find_all(exp.Column):print(f"Column => {column.name}")

查找CTE到表的关系(在构建血缘关系/查询DAG时可能很有用):

query = """
with tab1 as
(select a,b from db1.table1
)
,tab2 as
(select a from tab1
)
,tab3 as
(selectt1.a,t2.bfrom tab1 t1join tab2 t2on t1.a = t2.a
)
select
*
from tab3
"""dependencies = {}for cte in parse_one(query).find_all(exp.CTE):dependencies[cte.alias_or_name] = []cte_query = cte.this.sql()for table in parse_one(cte_query).find_all(exp.Table):dependencies[cte.alias_or_name].append(table.name)
print(dependencies)-- Output: {'tab1': ['table1'], 'tab2': ['tab1'], 'tab3': ['tab1', 'tab2']}

SQLGlot详细示例

  • 数据库迁移

当应用从一个数据库系统迁移到另一个数据库系统时,通常需要将现有的 SQL 查询语句转换为目标数据库系统的语法。SQLGlot 可以帮助简化这个过程,使得迁移过程更加顺利。

import sqlglot
sql = "SELECT EPOCH_MS(1618088028295)"
transformed_sql = sqlglot.transpile(sql, read="duckdb", write="hive")[0]
print(transformed_sql)
# 输出: SELECT FROM_UNIXTIME(1618088028295 / 1000)
  • 跨平台开发

在跨平台开发中,不同的平台可能使用不同的数据库系统。SQLGlot 可以帮助开发人员编写一次 SQL 查询语句,然后通过转换功能将其适配到不同的数据库系统上,从而减少重复工作。

import sqlglot
sql = "SELECT * FROM users WHERE age > 30 AND city = 'New York'"
transformed_sql_mysql = sqlglot.transpile(sql, dialect="mysql")[0]
transformed_sql_postgresql = sqlglot.transpile(sql, dialect="postgresql")[0]
print("转换为MySQL语法:", transformed_sql_mysql)
print("转换为PostgreSQL语法:", transformed_sql_postgresql)
  • 数据库查询工具

一些数据库查询工具可能需要支持多种数据库系统,而用户可能希望在不同数据库系统上执行相同的查询。SQLGlot 可以帮助这些工具实现跨数据库的查询支持。

import sqlglot
sql = "SELECT * FROM users WHERE age > 30 AND city = 'New York'"
transformed_sql = sqlglot.transpile(sql, dialect="bigquery")[0]
print(transformed_sql)
  • SQL 语句优化

在数据库开发中,经常会遇到需要优化的查询语句。SQLGlot 可以帮助开发者重写查询语句,优化查询逻辑和执行计划,提高查询效率。

from sqlglot import optimize
sql = "SELECT * FROM users WHERE age > 30 AND city = 'New York'"
optimized_sql = optimize(sql)
print(optimized_sql)
  • 索引优化建议

SQLGlot 可以分析查询语句中的索引使用情况,提出索引优化建议,帮助开发者优化数据库表结构和索引设计。

from sqlglot import index_suggestions
sql = "SELECT * FROM users WHERE age > 30 AND city = 'New York'"
index_suggestions = index_suggestions(sql)
print(index_suggestions)
  • 实时数据分析

SQLGlot 可以结合实时数据流处理框架(如 Apache Kafka、Apache Flink 等),实现实时数据分析和处理,满足大规模数据处理和分析的需求。

from sqlglot import transform
sql = "SELECT * FROM streaming_data WHERE value > 100"
transformed_sql = transform(sql)
print(transformed_sql)
  • 数据血缘分析

通过解析 SQL 查询,SQLGlot 可以提取表和字段级别的信息,帮助构建数据血缘图,了解数据的来源和流向。

from sqlglot import parse_one, exp
query = """
SELECT col1, col2, col3
FROM db1.table1
"""
for table in parse_one(query).find_all(exp.Table):print(f"Table => {table.name} | DB => {table.db}")
for column in parse_one(query).find_all(exp.Column):print(f"Column => {column.name}")
  • 复杂查询解析

SQLGlot 可以解析复杂的查询,包括 CTE(Common Table Expressions)和多表连接查询,帮助开发者理解和优化这些查询。

from sqlglot import parse_one, exp
query = """
WITH tab1 AS (SELECT a, b FROM db1.table1
),
tab2 AS (SELECT a FROM tab1
),
tab3 AS (SELECT t1.a, t2.bFROM tab1 t1JOIN tab2 t2 ON t1.a = t2.a
)
SELECT * FROM tab3
"""
dependencies = {}
for cte in parse_one(query).find_all(exp.CTE):dependencies[cte.alias_or_name] = []cte_query = cte.this.sql()for table in parse_one(cte_query).find_all(exp.Table):dependencies[cte.alias_or_name].append(table.name)
print(dependencies)

SQLGlot 官方文档

有关SQL格式、方言翻译、查询验证的其他示例,请参阅官方文档。(链接如下)。

SQLGlot Official Documentations

  • API documentation
  • Official Github

最后总结

SQLGlot 是一个功能强大的工具,适用于多种数据库开发和数据分析场景。它不仅支持 SQL 语句的解析、转换和优化,还能够帮助开发者进行数据血缘分析、索引优化和实时数据分析。通过这些功能,SQLGlot 可以显著提高开发效率,优化数据库操作,并支持跨数据库的兼容性。

相关文章:

SQLGlot:用SQLGlot解析SQL

几十年来,结构化查询语言(SQL)一直是与数据库交互的实际语言。在一段时间内,不同的数据库在支持通用SQL语法的同时演变出了不同的SQL风格,也就是方言。这可能是SQL被广泛采用和流行的原因之一。 SQL解析是解构SQL查询…...

代码随想录算法训练营Day35

第九章 动态规划part03 正式开始背包问题,背包问题还是挺难的,虽然大家可能看了很多背包问题模板代码,感觉挺简单,但基本理解的都不够深入。 如果是直接从来没听过背包问题,可以先看文字讲解慢慢了解 这是干什么的。 …...

ECharts 样式设置

ECharts 样式设置 引言 ECharts 是一款功能强大的可视化库,广泛用于数据可视化。样式设置是 ECharts 中的重要一环,它能够帮助开发者根据需求调整图表的视觉效果,使其更加美观和易于理解。本文将详细介绍 ECharts 的样式设置,包…...

【腾讯前端面试】纯css画图形

之前参加腾讯面试,第一轮是笔试,面试官发的试卷里有一题手写css画一个扇形、一个平行四边形……笔试时间还是比较充裕的,但是我对这题完全没有思路😭于是就空着了,最后也没过。 今天偶然翻到廖雪峰大佬的博客里提到了关…...

DBeaver连接MySQL提示Access denied for user ‘‘@‘ip‘ (using password: YES)的解决方法

在使用DBeaver连接MySQL数据库时,如果遇到“Access denied for user ip (using password: YES)”的错误提示,说明用户认证失败。此问题通常与数据库用户权限、配置错误或网络设置有关。本文将详细介绍解决此问题的步骤。 一、检查用户名和密码 首先&am…...

截止到2025年2月1日,Linux的Wayland还有哪些问题是需要解决的?

截至2025年2月1日,Wayland需要解决的核心问题可按权重从高到低排序如下: 1. 屏幕共享与远程桌面的完整支持(权重:★★★★★) 问题:企业场景(如 腾讯会议)、开发者远程调试依赖稳定的屏幕共享功能。当前Wayland依赖PipeWire和XWayland,存在权限管理复杂、多显示器选择…...

【C++篇】位图与布隆过滤器

目录 一,位图 1.1,位图的概念 1.2,位图的设计与实现 1.5,位图的应用举例 1.4,位图常用应用场景 二,布隆过滤器 2.1,定义: 2.2,布隆过滤器的实现 2.3, 应…...

[EAI-026] DeepSeek-VL2 技术报告解读

Paper Card 论文标题:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding 论文作者:Zhiyu Wu, Xiaokang Chen, Zizheng Pan, Xingchao Liu, Wen Liu, Damai Dai, Huazuo Gao, Yiyang Ma, Chengyue Wu, Bin…...

CV报错与模型推理注意

错误1: error: OpenCV(4.10.0) :-1: error: (-5:Bad argument) in function warpAffine > Overload resolution failed: > - Cant parse dsize. Sequence item with index 0 has a wrong type > - Cant parse dsize. Sequence item with index 0 has a …...

如何解决云台重力补偿?

如何解决云台重力补偿? 最近在调试步兵云台的时候,由于枪管、图传、摄像头等重力的原因,pitch轴的参数尤其难以调整,又不想抬升和降低使用两套不同的参数,所以使用了重力补偿,效果也是比较理想的,于是整理为一篇文章记录一下 一、问题根源:枪管重力在“搞事情” 想象…...

Java 23新特性

文章目录 Java 23新特性一、引言二、Markdown文档注释(JEP 467)示例 三、ZGC:默认的分代模式(JEP 474)1. 为什么要引入分代模式2. 使用分代模式的优势3. 如何启用分代模式 四、隐式声明的类和实例主方法(JE…...

二叉树--链式存储

1我们之前学了二叉树的顺序存储(这种顺序存储的二叉树被称为堆),我们今天来学习一下二叉树的链式存储: 我们使用链表来表示一颗二叉树: ⽤链表来表⽰⼀棵⼆叉树,即⽤链来指⽰元素的逻辑关系。通常的⽅法是…...

OpenAI 实战进阶教程 - 第七节: 与数据库集成 - 生成 SQL 查询与优化

内容目标 学习如何使用 OpenAI 辅助生成和优化多表 SQL 查询了解如何获取数据库结构信息并与 OpenAI 结合使用 实操步骤 1. 创建 SQLite 数据库示例 创建数据库及表结构: import sqlite3# 连接 SQLite 数据库(如果不存在则创建) conn sq…...

基于直觉的理性思维入口:相提并论的三者 以“网络”为例

以下主要是 腾讯云 AI 代码助手的答问。 Q1、假设有且只有一个 能和主干网和 骨干网 相提并论的其它什么 “**网”,您觉得应该是什么 在考虑能与主干网和骨干网相提并论的“网”时,我们需要思考哪些网络在规模、重要性或功能上与这两者相当。主干网和骨…...

C++,vector:动态数组的原理、使用与极致优化

文章目录 引言一、vector 的核心原理1. 底层数据结构1.1 内存布局的三指针模型1.2 内存布局示意图 2. 动态扩容机制2.1 动态扩容过程示例 3. 关键结论4. 代码验证内存布局5. 总结 二、vector 的使用方法1. 基本操作2. 迭代器与范围遍历 三、vector 的注意事项1. 迭代器失效2. 性…...

bootstrap.yml文件未自动加载问题解决方案

在添加bootstrap.yml文件后,程序未自动扫描到,即图标是这样的: 查了一些资料,是缺少bootstrap相关依赖,虽然已经添加了spring-cloud-context依赖,但是这个依赖并未引入bootstrap依赖,可能是版本问题,需要手动引入 <dependency><groupId>org.springframework.cloud&…...

54【ip+端口+根目录通信】

上节课讲到&#xff0c;根目录起到定位作用&#xff0c;比如我们搭建一个php网站后&#xff0c;注册系统是由根目录的register.php文件执行&#xff0c;那么我们给这个根目录绑定域名https://127.0.0.1&#xff0c;当我们浏览器访问https://127.0.0.1/register.php时&#xff0…...

实现数组的扁平化

文章目录 1 实现数组的扁平化1.1 递归1.2 reduce1.3 扩展运算符1.4 split和toString1.5 flat1.6 正则表达式和JSON 1 实现数组的扁平化 1.1 递归 通过循环递归的方式&#xff0c;遍历数组的每一项&#xff0c;如果该项还是一个数组&#xff0c;那么就继续递归遍历&#xff0c…...

blender 相机参数

目录 设置相机参数&#xff1a; 3. 设置相机参数示例 4. 相机透视与正交 5. 额外的高级设置 设置相机参数&#xff1a; 设置渲染器&#xff1a; 外参转换函数 转换测试代码&#xff1a; 获取blender渲染外参&#xff1a; 设置相机参数&#xff1a; 3. 设置相机参数示…...

物联网 STM32【源代码形式-ESP8266透传】连接OneNet IOT从云产品开发到底层MQTT实现,APP控制 【保姆级零基础搭建】

一、MQTT介绍 MQTT&#xff08;Message Queuing Telemetry Transport&#xff0c;消息队列遥测传输协议&#xff09;是一种基于发布/订阅模式的轻量级通讯协议&#xff0c;构建于TCP/IP协议之上。它最初由IBM在1999年发布&#xff0c;主要用于在硬件性能受限和网络状况不佳的情…...

软考高项笔记 信息技术及其发展

信息技术及其发展 ❝ 信息系统项目管理师第二章第一节 1. 网络标准协议的定义 网络协议是为计算机网络中进行数据交换而建立的规则、标准或约定的集合。网络协议由三个要素组成&#xff0c;分别是语义、语法和时序。 语义&#xff1a;解释控制信息每个部分的含义&#xff0c;它…...

计算机网络 性能指标相关

目录 吞吐量 时延 时延带宽积 往返时延RTT 利用率 吞吐量 时延 时延带宽积 往返时延RTT 利用率...

【初/高中生讲机器学习】0. 本专栏 “食用” 指南——写在一周年之际⭐

创建时间&#xff1a;2025-01-27 首发时间&#xff1a;2025-01-29 最后编辑时间&#xff1a;2025-01-29 作者&#xff1a;Geeker_LStar 你好呀~这里是 Geeker_LStar 的人工智能学习专栏&#xff0c;很高兴遇见你~ 我是 Geeker_LStar&#xff0c;一名高一学生&#xff0c;热爱计…...

[SAP ABAP] 性能优化

1.数据库编程OPEN SQL方面优化 1.避免使用SELECT *&#xff0c;只查询需要的字段即可 尽量使用SELECT f1 f2 ... (具体字段) 来代替 SELECT * 写法 2. 如果确定只查询一条数据时&#xff0c;使用 SELECT SINGLE... 或者是 SELECT ...UP TO 1 ROWS ... 使用语法 UP TO n ROWS 来…...

软件测试02----用例设计方法

今天目标 1.能对穷举场景设计测试点 2.能对限定边界规则设计测试点 3.能对多条件依赖关系进行设计测试点 4.能对项目业务进行设计测试点 一、解决穷举场景 重点&#xff1a;使用等价类划分法 1.1等价类划分法 重点&#xff1a;有效等价和单个无效等价各取1个即可。 步骤&#…...

Nginx 日志分析与监控

一、引言 在当今互联网时代&#xff0c;Web 服务的稳定运行和高效性能是至关重要的。Nginx 作为一款高性能的 HTTP 和反向代理服务器&#xff0c;以其出色的稳定性、高效性和丰富的功能&#xff0c;被广泛应用于各类 Web 项目中&#xff0c;成为了 Web 服务架构中不可或缺的一…...

冷启动+强化学习:DeepSeek-R1 的原理详解——无需监督数据的推理能力进化之路

本文基于 DeepSeek 官方论文进行分析,论文地址为:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 有不足之处欢迎评论区交流 原文翻译 在阅读和理解一篇复杂的技术论文时,逐字翻译是一个重要的步骤。它不仅能帮助我们准确把握作者的原意,还能为后续…...

笔试-二进制

应用题 将符合区间[l,r]内的十进制整数转换为二进制表示&#xff0c;请问不包含“101”的整数个数是多少&#xff1f; 实现 l int(input("请输入下限l&#xff0c;其值大于等于1&#xff1a;")) r int(input("请输入上限r&#xff0c;其值大于等于l&#x…...

014-STM32单片机实现矩阵薄膜键盘设计

1.功能说明 本设计主要是利用STM32驱动矩阵薄膜键盘&#xff0c;当按下按键后OLED显示屏上会对应显示当前的按键键值&#xff0c;可以将此设计扩展做成电子秤、超市收银机、计算器等需要多个按键操作的单片机应用。 2.硬件接线 模块管脚STM32单片机管脚矩阵键盘行1PA0矩阵键盘…...

Spring Boot 2 快速教程:WebFlux处理流程(五)

WebFlux请求处理流程 下面是spring mvc的请求处理流程 具体步骤&#xff1a; 第一步&#xff1a;发起请求到前端控制器(DispatcherServlet) 第二步&#xff1a;前端控制器请求HandlerMapping查找 Handler &#xff08;可以根据xml配置、注解进行查找&#xff09; 匹配条件包括…...