当前位置：首页 > article >正文

AI数据分析：deepseek生成SQL

article 2026/3/25 7:04:51

在当今数据驱动的时代，数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展，AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行自动补全SQL 查询语句。

我们都知道，SQL 查询语句是每个数据分析师的必修课，今天就教大家如果使用DeepSeek自动补全SQL.

以下是一个使用 DeepSeek 自动补全SQL 的实际案例。

假设我们有一个订单明细表（t_order_detail）包含order_id（订单id）、goods_id（商品id）、dept_id（门店id）、num（销量）、price（单价）、order_time（销售时间）,我们需要某时间段内贡献门店80%销售额的商品。

接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下：

# 角色: 
SQL查询专家## 背景: 
用户需要根据提供的字段及需求编写SQL查询语句。这可能是因为用户需要从数据库中提取特定数据以支持业务决策、生成报告或进行数据分析。用户可能对SQL语法不熟悉，或者需要优化现有的查询语句。## 注意:
1、用户希望通过SQL查询快速获取所需数据，因此查询语句需要高效且准确。
2、用户可能对数据库结构不熟悉，因此需要清晰的字段描述和表关系说明。
3、用户可能希望查询语句能够灵活应对不同的数据需求，因此需要具备一定的通用性和可扩展性。## 技能:
1、精通SQL语法，能够编写复杂的查询语句。
2、熟悉数据库结构设计，能够理解表之间的关系。
3、具备优化查询性能的能力，能够编写高效的SQL语句。
4、能够根据业务需求设计查询逻辑，确保查询结果符合业务要求。## 目标:
1、根据用户提供的字段及需求，编写准确的SQL查询语句。
2、确保查询语句能够高效执行，避免性能瓶颈。
3、提供查询语句的解释，帮助用户理解查询逻辑。
4、根据用户反馈，优化查询语句以满足不断变化的需求。## 约束:
1、查询语句必须符合SQL语法规范。
2、查询语句必须基于用户提供的字段和表结构。
3、查询语句应尽量避免复杂的嵌套查询，以提高可读性和执行效率。
4、查询语句应考虑到数据库的性能，避免全表扫描等低效操作。## 输入:
<字段描述>需要查询的字段</字段描述>
<表结构描述>已有表结构</表结构描述>
<查询需求描述>需要查询的数据</查询需求描述>## 输出:
1、生成的SQL查询语句。
2、查询语句的解释，包括查询逻辑和字段说明。
3、查询语句的性能优化建议（如有必要）。
4、针对用户需求的进一步建议或扩展查询示例。## 工作流:
1、分析用户提供的字段描述，明确需要查询的字段。
2、分析用户提供的表结构描述，理解表之间的关系。
3、根据用户提供的查询需求描述，设计查询逻辑。
4、编写SQL查询语句，并确保其符合语法规范和性能要求。
5、提供查询语句的解释和优化建议，帮助用户理解和使用查询结果。

接下来我们把我们的需求补充完整后发给大模型：

生成的数据如下

WITH SalesData AS (SELECT dept_id AS 门店,goods_id AS 商品,SUM(num * price) AS 累计销售额,ROW_NUMBER() OVER (PARTITION BY dept_id ORDER BY SUM(num * price) DESC) AS 排名FROM t_order_detailWHERE order_time >= '2025-02-01' AND order_time < '2025-03-01'GROUP BY dept_id, goods_id
)
SELECT 门店,商品,累计销售额,排名
FROM SalesData
WHERE 累计销售额 >= (SELECT PERCENTILE_CONT(0.8) WITHIN GROUP (ORDER BY 累计销售额) FROM SalesData AS sd WHERE sd.门店 = SalesData.门店)
ORDER BY 门店 DESC, 商品 DESC;

查询语句的解释

CTE (Common Table Expression) SalesData:
- 门店: 从t_order_detail表中提取dept_id字段，表示门店。
- 商品: 从t_order_detail表中提取goods_id字段，表示商品。
- 累计销售额: 计算每个门店、每个商品在2025年2月份的累计销售额，即SUM(num * price)。
- 排名: 使用ROW_NUMBER()窗口函数，按门店分组，按累计销售额降序排列，生成每个门店内商品的排名。
主查询:
- 筛选条件: 使用子查询计算每个门店的累计销售额的80%分位数，并筛选出累计销售额大于或等于该分位数的商品。
- 排序: 按门店ID和商品ID倒序排列结果。

性能优化建议

索引优化:
- 在t_order_detail表的order_time字段上创建索引，以加速时间范围的筛选。
- 在dept_id和goods_id字段上创建复合索引，以加速分组和排序操作。
分区表:
- 如果数据量非常大，考虑按时间分区表（如按月分区），以减少查询时需要扫描的数据量。

总之，我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。

如果你也需要数据分析相关的提示词，请访问：
智能 | 巨人肩膀

AI数据分析：deepseek生成SQL

生成的数据如下

查询语句的解释

性能优化建议

相关文章：

AI数据分析：deepseek生成SQL

Kafka 消息 0 丢失的最佳实践

vue3(笔记)3.0 Pinia状态管理数据.持久化插件.内置vue devtools调试工具

装饰器模式：灵活扩展对象功能的利器

linux应用：errno、perror、open、fopen

网络原理--HTTP协议

编译可以在Android手机上运行的ffmpeg程序

华为hcia——Datacom实验指南——配置手工模式以太网链路聚合

【C语言6】数组和函数实践：扫雷游戏的简单实现

LeetCode 热题 100----1.两数之和

《模式和状态管理》知识总结三-EcuM与BswM模块的交互

RK3568平台（网络篇）RTL8111网卡

客户需求模糊或频繁变更怎么办

动静态库-Linux 学习

DeepSeek 系列模型：论文精读《A Survey of DeepSeek Models》

Python解决“找出整形数组中占比超过一半的数”问题

机器人学习模拟框架 robosuite (3) 机器人控制代码示例

kakfa-3：ISR机制、HWLEO、生产者、消费者、核心参数负载均衡

【微知】如何查看Mellanox网卡上的光模块的信息？（ethtool -m enp1s0f0 看型号、厂商、生产日期等）

yum源选要配置华为云的源，阿里云用不了的情况

nginx accesslog 打印自定义header

好数——前缀和思想（题目分享）

MWC 2025 | 移远通信大模型解决方案加速落地，引领服务机器人创新变革

【大模型基础_毛玉仁】0.概述

ADB、Appium 和大模型融合开展移动端自动化测试

springboot425-基于SpringBoot的BUG管理系统(源码+数据库+纯前后端分离+部署讲解等)

Ubuntu系统上部署Node.js项目的完整流程

X Window---图形接口

数据序列化协议 Protobuf 3 介绍（Go 语言）

FineReport 操作注意