当前位置：首页 > news >正文

【Text2SQL 论文】评估 ChatGPT 的 zero-shot Text2SQL 能力

news 2026/2/10 8:59:29

论文：A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability

⭐⭐⭐⭐

arXiv:2303.13547

这篇论文呢综合评估了 ChatGPT 在 zero-shot Text2SQL 任务上的表现。

dataset 使用了 Spider、Spider-SYN、Spider-DK、Spider-Realistic、Spider-CG、ADVETA、CSpider、DuSQL、SParC 以及 CoSQL。

由于 ChatGPT 生成的 SQL 多样性，所以这里主要使用了 execution accuracy 作为 metric。

一、使用的 Prompt

下图展示了使用 ChatGPT 来做 Text2SQL 的 prompts：

在这里插入图片描述

上半的 prompt 是单轮对话的场景
下半的 prompt 是多轮对话的场景

二、Evaluation Metrics

这里主要使用了三个 evaluation metric：

valid SQL（VA）：成功执行的 SQL 语句比例。
execution accuracy（EX）：执行结果与标准 SQL 匹配的比例
test-suite accuracy（TS）：测试套件是一组用于测试软件或系统特定部分的测试用例。在 Text2SQL 任务中，测试套件由一系列设计好的查询组成，这些查询旨在全面测试模型对不同 SQL 操作的理解和执行能力。这个指标通过执行测试套件中的所有测试用例，并根据执行准确性来评估模型的整体性能。它不仅考虑单个查询的成功执行，还考虑整个测试套件的覆盖率和成功率。

三、实验结果

整体上来说，ChatGPT 表现出很强的 Text2SQL 能力。

下面总结一些结论：

在 Spider 数据集上，ChatGPT 的表现比 SOTA 低了 14%，但是 ChatGPT 是 zero-shot 的，且未在 training set 上做 fine-tune。
在 Spider-SYN 和 Spider-Realistic 上，ChatGPT 表现也很不错，但与 SOTA 的差距稍大了一点，这也体现了当前的模型已经具备这两个场景的鲁棒性
在多轮对话的场景和需要外部知识的场景下，ChatGPT 由于其强大的世界知识和上下文建模能力，表现特别好。
在跨语言泛化的 Text2SQL 能力上，ChatGPT 的能力有待进一步改进。

做了一些 case study，发现 ChatGPT 总在一些小细节上犯错，论文给出了 4 个 error case：

ChatGPT 倾向于使用 LEFT JOIN 来设计 JOIN，但这模式在 Spider 数据集上并不经常出现
ChatGPT 经常对 database structure 产生迷惑性，导致找不到具体的 column
由于生成的 SQL 缺少正确的语义解释性，导致生成错误的带有嵌套 SQL 的 WHERE 子句
在 copy 特定 values 时出现错误，比如未保留大小写敏感性

四、总结

可以看出，ChatGPT 在 Text2SQL 任务上表现还不错，但仍然有不少的提高空间：

与 ChatGPT 进行多轮交互，以解决生成不可执行的 SQL 语句的问题
利用 DB 的报错来设计多轮对话，从而确保生成的 SQL 正确性
引入 in-context learning

【Text2SQL 论文】评估 ChatGPT 的 zero-shot Text2SQL 能力

论文：A comprehensive evaluation of ChatGPT’s zero-shot Text-to-SQL capability ⭐⭐⭐⭐ arXiv:2303.13547 这篇论文呢综合评估了 ChatGPT 在 zero-shot Text2SQL 任务上的表现。 dataset 使用了 Spider、Spider-SYN、Spider-DK、Spider-Realistic、Spider-CG…...

编程日记 2024/5/29 23:13:08

安卓手机APP开发___设置闹钟

安卓手机APP开发___设置闹钟目录概述设置不精确闹钟在特定时间后发出闹钟在特定时间范围内触发闹钟以大致有规律的时间间隔响起重复闹钟设置精确的闹钟系统会在未来的某个精确时刻调用精确闹钟。可能不需要精确闹钟的用例设置精确闹钟的方法系统资源消耗…...

编程日记 2024/5/29 23:12:07

如何评价GPT-4o

目录 1.概述 2.对比分析 2.1.版本 2.2.区别 2.2.1.技术方面的差异 2.2.2.性能提升 2.2.3.应用领域扩展 2.2.4.对未来发展的影响 3.技术能力 4.个人感受 1.概述 GPT-4o的发布无疑是人工智能领域的一次重要进展。作为GPT-4的升级版本，GPT-4o不仅在处理速度…...

编程日记 2024/5/29 23:11:05

自定义窗口事件循环系统

1.定义事件类型，mouse，wheel，drag，view。已处理的事件，accept需设置为true，防止重叠热区继续穿透。记录事件生成时间，全局位置和当前帧窗口下位置。 2.定义事件响应系统interactionSystem&…...

编程日记 2024/5/29 23:10:04

随机森林算法教程（个人总结）

背景随机森林（Random Forest）是一种集成学习方法，主要用于分类和回归任务。它通过构建多个决策树并将其结果进行集成，提升模型的准确性和鲁棒性。随机森林在处理高维数据和防止过拟合方面表现出色，是一种强大的机器学…...

编程日记 2024/5/29 23:09:03

解决Android studio 一直提示下载gradle-xxx-all.zip问题

今天用AndroidStdiod打开一个新工程的时候，发现项目一直卡在正在下载gradle-xxx-all.zip的任务上，网络出奇的慢，即使配了VPN也无济于事，于是按照以往经验：将gradle-xxx-all.zip下载到.gradle\gradle\wrapper\dists目录…...

编程日记 2024/5/29 23:08:01

3DEXPERIENCE DELMIA Role: RVN - Robotics Virtual Commissioning Analyst

Discipline: Robotics Role: RVN - Robotics Virtual Commissioning Analyst 通过准确地模拟连接到PLC程序的机器人、设备和传感器，在制造虚拟孪生上执行虚拟调试情景为任何机器人角色的多周期情景创建传感器，生成和变换零件启用 PLC 程序的虚拟验证和…...

编程日记 2024/5/29 23:07:00

js知识点之闭包

闭包什么是闭包闭包，是 JavaScript 中一个非常重要的知识点，也是我们前端面试中较高几率被问到的知识点之一。打开《JavaScript 高级程序设计》和《 JavaScript 权威指南》，会发现里面针对闭包的解释各执一词，在网络上搜索关…...

编程日记 2024/5/29 23:05:59

LORA微调，让大模型更平易近人

技术背景最近和大模型一起爆火的，还有大模型的微调方法。这类方法只用很少的数据，就能让大模型在原本表现没那么好的下游任务中“脱颖而出”，成为这个任务的专家。而其中最火的大模型微调方法，又要属LoRA。增加数据量和模…...

编程日记 2024/5/29 23:03:56

LabVIEW全自动样品处理系统有哪些优势？

基于LabVIEW的全自动样品处理系统在现代科研和工业应用中展现出显著的优势，其在数据采集、分析和控制方面的性能使其成为提高效率和精度的理想选择。以下是该系统的详细优势： 高效自动化 LabVIEW的图形化编程语言极大地简化了自动化流程的开发。用户可…...

编程日记 2024/5/29 23:00:53

shell脚本操作http请求的返回值——shell处理json格式数据

日常工作中，我们经常会遇到http请求会返回大量格式固定的数据，而我们只需要其中的一部分，那么怎么提取我们想要的字段呢。这里会介绍一种用shell脚本处理http请求返回，或者处理json格式数据的方式。这里我们用到了 jq这个强大的…...

编程日记 2024/5/29 22:59:52

leetcode力扣 300. 最长递增子序列 II

给你一个整数数组 nums ，找到其中最长严格递增子序列的长度。子序列是由数组派生而来的序列，删除（或不删除）数组中的元素而不改变其余元素的顺序。例如，[3,6,2,7] 是数组 [0,3,1,6,2,2,7] 的子序列。示例 1&#…...

编程日记 2024/5/29 22:58:51

C++_vector简单源码剖析：vector模拟实现

文章目录 🚀1.迭代器🚀2.构造函数与析构函数⚡️2.1 默认构造函数vector()⚡️2.2 vector(int n, const T& value T())⚡️内置类型也有构造函数 ⚡️2.3 赋值重载operator⚡️2.4 通用迭代器拷贝⚡️2.5 vector(initializer_list<T> il)⚡️…...

编程日记 2024/5/29 22:56:49

第3章数据链路层

王道学习考纲内容 （一）数据链路层的功能 （二）组帧 （三）差错控制检错编码；纠错编码 （四）流量控制与可靠传输机制流量控制、可靠传输与滑动窗口…...

编程日记 2024/5/29 22:55:47

使用OrangePi KunPeng Pro部署AI模型

目录一、OrangePi Kunpeng Pro简介二、环境搭建三、模型运行环境搭建(1)下载Ollama用于启动并运行大型语言模型(2)配置ollama系统服务(3)启动ollama服务(4)启动ollama(5)查看ollama运行状态四、模型部署(1)部署1.8b的qwen(2)部署2b的gemma(3)部署3.8的phi3(4)部署4b的qwen(5)部…...

编程日记 2024/5/29 22:54:47

SpringMVC 数据映射VC

从 view 层发送请求到Controller，在Controller中获取参数： 在不输入值时会报400，参数错误在不输入值时num默认为null 没有找到对应标签名称叫nums的，输入任何值时都报400 设置required默认值为false，即使表单没有nums…...

编程日记 2024/5/29 22:52:45

Clickhouse Bitmap 类型操作总结—— Clickhouse 基础篇（四）

文章目录创建 Bitmap 对象Bitmap 转换为整数数组计算总数（去重）值指定start, end 索引生成子 Bitmap指定 start 索引和数量限制生成子 Bitmap指定偏移量生成子 Bitmap是否包含指定元素两个 Bitmap 是否存在相同元素一个是否为另一个 Bitmap 的子集求最小…...

编程日记 2024/5/29 22:51:44

202474读书笔记|《我自我的田渠归来》——愿你拥有向上的力量，一切的好事都应该有权利发生

202474读书笔记|《我自我的田渠归来》——愿你拥有向上的力量《我自我的田渠归来》作者张晓风，被称为华语散文温柔的一支笔，她的短文很有味道，角度奇特，温柔慈悲而敏锐。很幸运遇到了这本书，以她的感受重新认识一些事…...

编程日记 2024/5/29 22:50:42

SheetJS V0.17.5 导入 Excel 异常修复 Invalid HTML:could not find＜table＞

导入 Excel 提示错误：Invalid HTML:could not find<table> 检查源代码发现 table 属性有回车符 Overview: https://docs.sheetjs.com/docs/ Source: https://git.sheetjs.com/sheetjs/sheetjs/issues The public-facing websites of SheetJS: sheetjs.com…...

编程日记 2024/5/29 22:49:41

重学java51.Collections集合工具类、泛型

"我已不在地坛，地坛在我" —— 《想念地坛》 24.5.28 一、Collections集合工具类 1.概述:集合工具类 2.特点: a.构造私有 b.方法都是静态的 3.使用:类名直接调用 4.方法: static <T> boolean addAll(collection<? super T>c,T... el…...

编程日记 2024/5/29 22:48:39

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/12/14 20:57:41

PHP和Node.js哪个更爽?

先说结论，rust完胜。 php：laravel，swoole，webman，最开始在苏宁的时候写了几年php，当时觉得php真的是世界上最好的语言，因为当初活在舒适圈里，不愿意跳出来，就好比当初活在…...

编程新知 2025/9/14 7:59:52

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2026/1/22 15:36:10

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

0. 概述上一节对安装和使用有个基本介绍。根据这个 issue 的描述，后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作，其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...

编程新知 2026/1/24 6:44:11

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2026/2/3 22:50:06

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2026/2/7 0:28:16

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/10/7 0:32:40

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

2025年#高考将在近日拉开帷幕，#AI 监考一度冲上热搜。当AI深度融入高考，#时间同步不再是辅助功能，而是决定AI监考系统成败的“生命线”。 AI亮相2025高考，40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕，江西、…...

编程新知 2026/2/8 22:07:52

sipsak：SIP瑞士军刀！全参数详细教程！Kali Linux教程！

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求，并检查收到的响应。它以以下模式之一…...

编程新知 2026/1/29 8:51:33

一、使用的 Prompt

二、Evaluation Metrics

三、实验结果

四、总结

相关文章：