【Text2SQL 经典模型】X-SQL
论文:X-SQL: reinforce schema representation with context
⭐⭐⭐⭐
Microsoft, arXiv:1908.08113
X-SQL 与 SQLova 类似,使用 BERT style 的 PLM 来获得 representation,只是融合 NL question 和 table schema 的信息的方式不太一样,也就是在利用 BERT-style 得到的 representation 后进一步的加工方式不一样。
X-SQL 先由 BERT-style PLM 生成 question 和 schema 的 representation,然后对 schema representation 做上下文信息的进一步加强,再交由 6 个 sub-task 分别构建出 SQL 的一部分,最终得到完整的 SQL。
一、X-SQL
整个架构包含三层:sequence encoder、context enhancing schema encoder 和 output layer。
1.1 Sequence Encoder:得到 PLM 的 representation
将 question 和 table headers 拼装成下面的形式(与 SQLova 的类似):
- 有一个特殊的空 column 被附加到每个 table schema 最后,也就是实际最后一个 column 后面会在加一个
[EMPTY]
- 将
[CLS]
重命名为[CTX]
,用来强调这里是捕获上下文信息,而非用于下游任务的 representation - SQLova 中的 segment embeddings 被替换为 type embeddings,这是我们为四种 types 学习的 embeddings:question、categorial column、numerical column 和 special empty column
另外,这里的 PLM 不是使用 BERT-Large 初始化的,而是使用 MT-DNN 初始化的,它与 BERT 架构相同,只是在多个 GLUE 任务上做过训练,从而能够得到更好的用于下游任务的 representation。
经过这一层,我们为 question 和 table schema 的每个 token 都利用 BERT-style PLM 生成一个 hidden state。
1.2 Context Enhanced Schema Encoder:加强 schema representation
在上一层 seq encoder 中,我们为 question 和 table headers 的每个 token 都得到一个 hidden state vector,在这一层,我们的 context enchanced schema encoder 通过用 h [ C T X ] h_{[CTX]} h[CTX] 来加强前面 encoder 的输出,从而得到每个 column 的一个新的 representation h C i h_{C_i} hCi,它代表 column i 的新 representation。
论文认为,尽管 BERT style 的 sequence encoder 在它的 output 中也捕捉到了一定的 context,但是这种 context influence 受限于 self-attention 的机制(它倾向于关注某个特定 region 从而缺少全局信息),所以这里使用带有全局信息的 [CTX]
的 hidden state 来加强 representation。
这里的具体做法就是,将 column i 的所有 token 的 hidden state 和 h [ C T X ] h_{[CTX]} h[CTX] 一起输入到一个 Attention 层中,得到加强后的新的 column i i i 的 representation:
经过这一层 encoder,我们得到了上下文增强的 schema representation,也就是每个 column 的新 representation。
这一步的做法也体现出 X-SQL 与 SQLova 的区别,这一层的 “context enchanced schema encoder” 和 SQLova 中引入的 column-attention 机制都是为了相同的目标:更好地对齐 question 和 table schema,但两者的实现思路却不同:
- column-attention 通过将 column 作为条件来改变 question 的编码
- context enchanced schema encoder 认为 BERT-style 的 encoder 已经足够好了,只是基于此并试图使用
[CTX]
中捕获的全局上下文信息来得到一个更好的 representation。
1.3 Output Layer:完成各 sub-task 生成 SQL
这一层借助 sequence encoder 输出的 hidden states 和 context enchanced schema encoder 输出的 h C 1 h_{C_1} hC1、 h C 2 h_{C_2} hC2、…、 h [ E M P T Y ] h_{[EMPTY]} h[EMPTY] 来生成 SQL。这里的思路也是基于 SQL sketch 并填充 slots。
这一步的任务被分解成了 6 个子任务,每个子任务预测最终 SQL 程序的一部分。
1.3.1 用来修正 schema representation 的 sub-network
首先,这里引入了一个 sub-network 用来调整 schema representation with context,具体来说,就是分别对 H [ C T X ] H_{[CTX]} H[CTX] 和 H C i H_{C_i} HCi 做一个仿射变换,再加起来经过一个 LayerNorm 得到 r C i r_{C_i} rCi(column i 一个修正后的 representation),图示如下:
公式如下:
注意,这个 sub-network 在每个 sub-task 中都是独立训练的,也就是每个 sub-task 得到的 r C i r_{C_i} rCi 是不同的,这也体现了这个 sub-network 就是针对一个具体 task 来修正 schema representation。
之后,各个 sub-task 就可以基于我们之前得到的 vectors 和 r C i r_{C_i} rCi 来做了。
1.3.2 sub-task 1:S-COL
S-COL 任务是预测 SELECT 语句中的 columns,这其实就是计算各个 columns 的一个概率,计算方式如下:

可以看到,这里只使用了 r C i r_{C_i} rCi,另外的 W W W 是一个可训练参数。
1.3.3 sub-task 2:S-AGG
直觉来说,aggregator 的选择会依赖所选中的 column 的类型,比如 aggregator MIN
只能被用于数字类型的 column。为了实现这个直觉,这个 task 在做 aggregator 分类时,会利用到 column type 的 embedding:

具体公式可以参考原论文
1.3.4 其他 sub-task
其他 sub-task 共同确定出 WHERE 部分,这里可以具体参考原论文,整体思路是差不多的。
二、总结
通过以上改进,X-SQL 在表现 WikiSQL 上的表现提升到 90% 以上,超过了 SQLova:
本文对 BERT-style 生成的 representation 的进一步的加工利用值得研究学习。
相关文章:

【Text2SQL 经典模型】X-SQL
论文:X-SQL: reinforce schema representation with context ⭐⭐⭐⭐ Microsoft, arXiv:1908.08113 X-SQL 与 SQLova 类似,使用 BERT style 的 PLM 来获得 representation,只是融合 NL question 和 table schema 的信息的方式不太一样&#…...

蓉耀·时尚双子星------Yestar艺星首家星美学概念院璀璨启航
在医美行业的璀璨星空中,一颗新星于蓉城冉冉升起,点亮了求美者的道路。5月21日,蓉耀•时尚双⼦星--Yestar艺星首家星美学概念院在成都复城国际璀璨启幕,标志着Yestar艺星全球战略布局在蓉城迈出了重要一步,也意味着其在…...

Undet for SketchUp 2023.3 点云建模软件 支持支持草图大师sketchup2021-2022-2023
1.Undet for sketchup 2023.3支持草图大师sketchup2021-2022-2023。支持机载雷达扫描、车载扫描还是地面扫描,对AEC行业用户来说,真正需要的是如何将这些数据快速处理为三维模型,这样才能将这些信息延展到BIM领域发挥效用。因此面对这些海量的…...

CHI dataless 传输——CHI(4)
上篇介绍了read的操作类型,本篇我们来介绍一下dataless 目录 一、dataless操作概览 二、Non-CMO (Non-Cache Maintenance Operation) 1、CleanUnique 2、StashOnce and StashOnceSep 3、Evict 三、CMO (Cache Maintenance Operation) 一、dataless操作概览 名…...

vue3第三十节(vue3 vite中使用sass)
引言:什么是Sass? Sass(Syntactically Awesome Style Sheets)是一种CSS预处理器,它扩展了CSS的功能,提供了更高级的语法和特性,例如变量、嵌套、混合、继承和颜色功能等,这些特性可以帮助开发…...

blender 烘焙渲染图片,已经导出fbx,导出贴图。插件生成图片
1.新建一个模型。选择资产浏览器的材质,并拖动到模型身上,如下图。资产浏览器的材质可以网上找。 2.打开着色器面板。正下方着色器窗口中,点击空白取消选择,然后右击-添加-着色器-原理化BSDF,右击-添加-纹理-图像纹理。…...

ASO行业面临洗牌,苹果应用商店加搜索广告!
苹果公司全球市场营销高级副总裁菲尔席勒(Phil Schiller),在全球开发者大会开幕前(WWDC)透露了一些应用商店方面的消息。重点包括:1.应用商店搜索中加入广告;2.应用审核加快;3.新的商业模式。 一、 Search Ads搜索广告 这是最令人惊讶的改变,苹果在App Store平台的搜索结果中加…...

Labelme自定义数据集COCO格式【实例分割】
参考博客 labelme标注自定义数据集COCO类型_labelme标注coco-CSDN博客 LabelMe使用_labelme中所有的create的作用解释-CSDN博客 1制作自己的数据集 1.1labelme安装 自己的数据和上面数据的区别就在于没有.json标签文件,所以训练自己的数据关键步骤就是获取标签文…...

【网络安全】Linux 应急响应-溯源-系统日志排查知识点
Linux 应急响应-溯源-系统日志排查知识点汇总 1. 查看当前已经登录到系统的用户 (w 命令) w2. 查看所有用户最近一次登录 (lastlog 命令) lastlog lastlog | grep -v "Never logged in"3. 查看历史登录用户以及登录失败的用户 (last 和 lastb 命令) last lastb4. …...

Spark项目实训(一)
目录 实验任务一:计算级数 idea步骤分步: 完整代码: linux步骤分布: 实验任务二:统计学生成绩 idea步骤分布: 完整代码: linux步骤分步: 实验任务一:计算级数 请…...

爬虫基础1
一、爬虫的基本概念 1.什么是爬虫? 请求网站并提取数据的自动化程序 2.爬虫的分类 2.1 通用爬虫(大而全) 功能强大,采集面广,通常用于搜索引擎:百度,360,谷歌 2.2 聚焦爬虫&#x…...

vlan综合实验
1、实验拓扑 2、实验要求 1、pc1和pc3所在接口为access;属于vlan 2; pc2/pc4/pc5/pc6处于同一网段;其中pc2可以访问pc4/pc5/pc6; pc4可以访问pc6;pc5不能访问pc6; 2、pc1/pc3与pc2/pc4/pc5/pc6不在同一网段; 3、所有pc通过DHC…...

如何使用ffmpeg 实现10种特效
相关特效的名字 特效id 特效名 1 向上移动 2 向左移动 3 向下移动 4 颤抖 5 摇摆 6 雨刷 7 弹入 8 弹簧 9 轻微跳动 10 跳动 特效展示(同时汇总相关命令) pad背景显示 pad背景透明 相关命令(一会再讲这些命令,先往下看) # 合成特效语音 ffmpeg -y -loglevel erro…...

C语言如果变量全部在全局内存空间会怎么样
结论先行 应该根据内存使用的生命周期,选择合适的内存空间应该尽量使用连续内存如果不想在设计封装性上付出太多代价,全部放入全局空间也比较可取 空间类型特点全局空间生命周期最久,空间连续,变量分配紧致,但存在浪…...

【YOLO改进】换遍MMPretrain主干网络之ConvNeXt-Tiny(基于MMYOLO)
ConvNeXt-Tiny ConvNeXt-Tiny 是一种改进的卷积神经网络架构,其设计目的是在保持传统卷积神经网络优势的同时,借鉴了一些Transformer架构的成功经验。 ConvNeXt-Tiny 的优点 架构优化: ConvNeXt-Tiny 对经典ResNet架构进行了多种优化&#…...

【数据库】MySQL
文章目录 概述DDL数据库操作查询使用创建删除 表操作创建约束MySqL数据类型数值类型字符串类型日期类型 查询修改删除 DMLinsertupdatedelete DQL基本查询条件查询分组查询分组查询排序查询分页查询 多表设计一对多一对一多对多设计步骤 多表查询概述内连接外连接 子查询标量子…...

JVM运行时内存:垃圾回收器(Serial ParNew Parallel )详解
文章目录 1. 查看默认GC2. Serial GC : 串行回收3. ParNew GC:并行回收4. Parallel GC:吞吐量优先 1. 查看默认GC -XX:PrintCommandLineFlags:查看命令行相关参数(包含使用的垃圾收集器)使用命令行指令:ji…...

The Missing Semester of Your CS Education(计算机教育中缺失的一课)
Shell 工具和脚本(Shell Tools and Scripting) 一、shell脚本 1.1、变量赋值 在bash中为变量赋值的语法是foobar,访问变量中存储的数值,其语法为 $foo。 需要注意的是,foo bar (使用空格隔开)是不能正确工作的&…...

如何为ChatGPT编写有效的提示词:软件开发者的指南
作为一名软件开发者,特别是使用Vue进行开发的开发者,与ChatGPT等AI助手高效互动,可以极大地提升你的开发效率。本文将深入探讨如何编写有效的提示词,以便从ChatGPT中获取有用的信息和帮助。 1. 明确目标 在编写提示词之前&#…...

angular插值语法与属性绑定
在 Angular 中,您提供的两种写法都是用来设置 HTML 元素的 title 属性,但它们的工作方式有所不同: 插值语法 (Interpolation) <h1 title"{{ name }}">我的名字</h1> 属性绑定 (Property Binding) <h1 [title]&q…...

Python ❀ 使用代码解决今天中午吃什么的重大生存问题
1. 环境安装 安装Python代码环境参考文档 2. 代码块 import random# 准备一下你想吃的东西 hot ["兰州拉面", "爆肚面", "黄焖鸡", "麻辣香锅", "米线", "麻食", "羊肉泡馍", "肚丝/羊血汤&qu…...

做抖音小店需要清楚的5个核心点!
大家好,我是喷火龙。 不管你是在做抖音小店,还是在做其他的电商平台,如果已经做了一段时间了,但还是没有拿到什么结果,我所指的结果不是什么大结果,而是连温饱都解决不了,甚至说还在亏钱。 有…...

文件流下载优化:由表单提交方式修改为Ajax请求
如果想直接看怎么写的可以跳转到 解决方法 节! 需求描述 目前我们系统导出文件时,都是通过表单提交后,接收文件流自动下载。但由于在表单提交时没有相关调用前和调用后的回调函数,所以我们存在的问题,假如导出数据需…...

基础3 探索JAVA图形编程桌面:逻辑图形组件实现
在一个宽敞明亮的培训教室里,阳光透过窗户柔和地洒在地上,教室里摆放着整齐的桌椅。卧龙站在讲台上,面带微笑,手里拿着激光笔,他的眼神中充满了热情和期待。他的声音清晰而洪亮,传遍了整个教室:…...

前后端部署笔记
windows版: 如果傻呗公司让用win电脑部署,类似于我们使用笔记本做局域网服务器,社内使用。 1.安装win版的nginx、mysql、node、jdk等 2.nginx开机自启参考Nginx配置及开机自启动(Windows环境)_nginx开机自启动 wind…...

设计模式9——适配器模式
写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用,主要是下面的UML图可以起到大作用,在你学习过一遍以后可能会遗忘,忘记了不要紧,只要看一眼UML图就能想起来了。同时也请大家多多指教。 适配器模式(Adapte…...

一文了解基于ITIL的运维管理体系框架
本文来自腾讯蓝鲸智云社区用户:CanWay ITIL(Information Technology Infrastructure Library)是全球最广泛使用的 IT 服务管理方法,旨在帮助组织充分利用其技术基础设施和云服务来实现增长和转型。优化IT运维,作为企业…...

Web前端开发技术-格式化文本 Web页面初步设计
目录 Web页面初步设计 标题字标记 基本语法: 语法说明: 添加空格与特殊符号 基本语法: 语法说明: 特殊字符对应的代码: 代码解释: 格式化文本标记 文本修饰标记 计算机输出标记 字体font标记 基本语法: 属…...

Windows下部署Seata1.5.2,解决Seata无法启动问题
目录 1. 版本说明 2. Windows下部署Seata1.5.2 2.1 创建回滚日志表undo_log 2.2 创建Seata服务端需要的四张表 2.3 在nacos创建seata命名空间,添加seataServer.yml配置 2.4 修改本地D:/tool/seata-server-1.5.2/seata/conf/applicaltion.yml文件 2.5 启动Seat…...

我加入了C++交流社区
最近,我决定加入了一个C交流社区,这是一个专注于C编程语言的在线平台。加入这个社区的初衷是为了提升我的编程技能,与其他对C感兴趣的人交流经验和知识。 加入这个社区后,我发现了许多有趣的讨论和资源。每天都有各种各样的话题&…...