9大 HIVE SQL 最频繁被问到的面试题
SQL是用于数据分析和数据处理的最重要的编程语言之一,因此与数据科学相关的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到关于 SQL 的问题。
SQL面试问题旨在评估应聘者的技术和解决问题的能力。因此对于应聘者来说,关键在于不仅要根据样本数据编写出正确的查询,而且还要像对待现实数据集一样考虑各种场景和边缘情况。
在这篇文章中,我将介绍 SQL 面试问题中常见的模式,并提供一些在 SQL 查询中巧妙处理它们的技巧。
问问题
要搞定一场 SQL 面试,最重要的是尽量多问问题,获取关于给定任务和数据样本的所有细节。充分理解需求后,接下来你就可以节省很多迭代问题的时间,并且能很好地处理边缘情况。
我注意到许多候选人经常还没完全理解SQL问题或数据集,就直接开始编写解决方案了。之后,等我指出他们解决方案中存在的问题后,他们只好反复修改查询。最后,他们在迭代中浪费了很多面试时间,甚至可能到最后都没有找到正确的解决方案。
我建议大家在参加SQL面试时,就当成是自己在和业务伙伴共事。所以在你提供解决方案之前,应该要针对数据请求了解清楚所有的需求。
举例:
查找薪水最高的前 3 名员工。

样本employee_salary表
这里你应该要求面试官说清楚“前三名”具体是什么意思。我应该在结果中包括 3 名员工吗?你要我怎样处理关系?此外,请仔细检查样本员工数据。salary 字段的数据类型是什么?在计算之前是否需要清除数据?
选哪一个JOIN

在SQL中,JOIN 通常用来合并来自多个表的信息。
有四种不同类型的 JOIN,但在大多数情况下,我们只使用INNER、LEFT和FULLJOIN,因为 RIGHTJOIN并不是很直观,还可以使用 LEFTJOIN 很简单地重写。在 SQL 面试中,需要根据给定问题的特定要求选择你要使用的正确JOIN。
举例:
查找每个学生参加的课程总数。(提供学生 id、姓名和选课的数量。)

样本student和class_history表
你可能已经注意到了,并非所有出现在 class_history 表中的学生都出现在了 student 表中,这可能是因为这些学生已经毕业了。(这在事务数据库中实际上是非常典型的情况,因为不再活跃的记录往往会被删除。)
根据面试官是否希望结果中包含毕业生,我们需要使用LEFT JOIN或 INNER JOIN来组合两个表:
WITH class_count AS (SELECT student_id, COUNT(*) AS num_of_classFROM class_historyGROUP BY student_id
)
SELECT c.student_id,s.student_name,c.num_of_class
FROM class_count c
-- CASE 1: include only active students
JOIN student s ON c.student_id = s.student_id
-- CASE 2: include all students
-- LEFT JOIN student s ON c.student_id = s.student_id
技术提升
面试要学会分享、交流,不建议闭门造车。一个人走的很快、一堆人可以走的更远。
本文由知识星球技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
方式①、添加微信号:pythoner666,备注:来自CSDN
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
GROUP BY
GROUP BY是SQL中最重要的功能,因为它广泛用于数据聚合。如果在一个 SQL 问题中看到诸如求和、平均值、最小值或最大值之类的关键字,这就表明你可能应该在查询中使用GROUP BY了。
一个常见的陷阱是在GROUP BY过滤数据时混淆 WHERE和HAVING——我见过很多人犯了这个错误。
举例:
计算每个学生在每个学年的必修课程平均 GPA,并找到每个学期中符合 Dean’s List(GPA≥3.5)资格的学生。

样本gpa_history表
由于我们在GPA计算中仅考虑必修课程,因此需要使用WHERE is_required=TRUE来排除选修课程。
我们需要每位学生在每学年的平均GPA,因此我们将同时GROUP BY student_id和school_year 列,并取gpa列的平均值。最后,我们只保留学生平均 GPA高于3.5的行,可以使用HAVING来实现。合起来是下面这样:
SELECT student_id,school_year,AVG(gpa) AS avg_gpa
FROM gpa_history
WHERE is_required = TRUE
GROUP BY student_id, school_year
HAVING AVG(gpa) >= 3.5
注意: 每当在查询中使用GROUP BY时,都只能选择group-by列和聚合列,因为其他列中的行级信息已被舍弃。
SQL 查询执行顺序
大多数人会从SELECT开始,从上到下编写SQL查询。
但你知道SQL引擎执行函数时要到后面才执行SELECT吗?以下是 SQL 查询的执行顺序:
-
FROM, JOIN
-
WHERE
-
GROUP BY
-
HAVING
-
SELECT
-
DISTINCT
-
ORDER BY
-
LIMIT, OFFSET
再次考虑前面的示例:
因为我们想在计算平均GPA之前过滤掉选修课程,所以我使用WHERE is_required=TRUE代替HAVING,因为WHERE会在GROUP BY和HAVING之前执行。我不能编写HAVING avg_gpa >= 3.5的原因是,avg_gpa被定义为SELECT的一部分,因此无法在SELECT之前执行的步骤中引用它。
我建议在编写查询时遵循引擎的执行顺序,这在编写复杂查询时会很有用。
Window 函数
Window函数也经常出现在SQL面试中。共有五种常见的Window函数:
-
RANK/DENSE_RANK/ROW_NUMBER: 它们通过排序特定列来为每行分配一个排名。如果给出了任何分区列,则行将在其所属的分区组中排名。
-
LAG/LEAD: 它根据指定的顺序和分区组从前一行或后一行检索列值。
在SQL面试中,重要的是要了解排名函数之间的差异,并知道何时使用LAG/LEAD。
举例:
查找每个部门中薪水最高的前 3 名员工。

另一个示例employee_salary表
当一个SQL问题要求计算“TOP N”时,我们可以使用ORDER BY或排名函数来回答问题。
但在这个示例中,它要求计算“每个 Y 中的 TOP N X”,这强烈暗示我们应该使用排名函数,因为我们需要对每个分区组中的行进行排名。
以下查询恰好能找到 3 名薪水最高的员工,而不论他们的关系如何,如下:
WITH T AS (
SELECT *,ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY employee_salary DESC) AS rank_in_dep
FROM employee_salary)
SELECT * FROM T
WHERE rank_in_dep <= 3
-- Note: When using ROW_NUMBER, each row will have a unique rank number and ranks for tied records are assigned randomly. For exmaple, Rimsha and Tiah may be rank 2 or 3 in different query runs.
此外,根据关系的处理方式,我们可以选择其他排名函数。同样,细节是很重要的!

ROW_NUMBER,RANK,DENSE_RANK结果比较
重复项
SQL面试中的另一个常见陷阱是忽略数据重复。
尽管样本数据中的某些列似乎具有不同的值,但面试官还是希望候选人考虑所有可能性,就像他们在处理真实数据集一样。
例如:
在上一个示例employee_salary表中,可以让雇员共享相同的名称。
要避免由重复项导致的潜在问题,一种简单方法是始终使用 ID 列唯一地标识不同的记录。
举例:
使用 employee_salary 表查找每个部门所有员工的总薪水。
正确的解决方案是 GROUP BY employee_id,然后使用 SUM(employee_salary) 计算总薪水。如果需要雇员姓名,请在末尾与 employee 表联接以检索雇员姓名信息。
错误的方法是使用 GROUP BY employee_name。
NULL
在SQL中,任何谓词都可以产生三个值之一true,false和NULL,后者是unknown或missing数据值的保留关键字。处理NULL数据集时可能会意外地很棘手。
在SQL面试中,面试官可能会特别注意解决方案是否处理了NULL值。有时,很明显有一列是不能nullabl的,但对于其他大多数列来说,很有可能会有NULL值。
建议:确认示例数据中的关键列是否为nullable,
如果可以,请利用IS(NOT)NULL,IFNULL和COALESCE 之类的函数来覆盖这些边缘情况。
交流
最后一点也非常重要:在SQL面试期间要随时与面试官沟通交流。
我面试过的许多候选人都很沉默寡言,有疑问的时候才会知声。当然如果他们最终给出了完美的解决方案,那也不是什么问题。
但是,在技术面试期间保持沟通交流往往会是有价值的。
例如:你可以谈论对问题和数据的理解,说明你计划如何解决问题,为什么使用某些函数而不是其他选项,以及正在考虑哪些极端情况。
总结
-
首先要提问,收集所需的细节
-
在INNER,LEFT和FULL JOIN之间谨慎选择
-
使用GROUP BY聚合数据并正确使用WHERE和HAVING
-
了解三个排名函数之间的差异
-
知道何时使用LAG/LEAD窗口函数
-
如果在创建复杂的查询时遇到困难,请尝试遵循SQL执行顺序
-
考虑潜在的数据问题,例如重复和NULL值
-
与面试官交流你的思路
相关文章:
9大 HIVE SQL 最频繁被问到的面试题
SQL是用于数据分析和数据处理的最重要的编程语言之一,因此与数据科学相关的工作(例如数据分析师、数据科学家和数据工程师)在面试时总会问到关于 SQL 的问题。 SQL面试问题旨在评估应聘者的技术和解决问题的能力。因此对于应聘者来说&#x…...
学大数据算跟风吗?
随着互联网、物联网和人工智能等技术的不断发展,大数据技术逐渐进入人们的视野,成为一个备受关注的热点话题。那么,大数据专业好学吗?前景如何?下面我们来一起探讨一下。 一、大数据专业的学习难度 大数据技术是一种综…...
[C#]关于ListBox的坑
在用C#写个Demo程序的时候,使用ListBox保存读取到的每行内容。然后在重复读取的时候需要清除ListBox中的内容,我看到ListBox有清除的函数:lsbFiles.Items.Clear();以为这个函数就可以解决所有的问题,但是....于是想了个方法准备一…...
Apache POI 入门·第一话
文章目录1 摘要2 Apache POI2.1 介绍2.2 应用场景2.3 入门案例2.3.1 将数据写入Excel文件2.3.1.1 导入POI maven坐标2.3.1.2 代码开发2.3.1.3 实现效果2.3.2 读取Excel文件中的数据2.3.3 实现效果2.4 开发案例——导出运营数据Excel报表2.4.1 产品原型2.4.2 接口设计2.4.3 代码…...
8个python自动化脚本提高打工人幸福感~比心~
人生苦短,我用Python 最近有许多打工人都找我说打工好难 每天都是执行许多重复的任务, 例如阅读新闻、发邮件、查看天气、打开书签、清理文件夹等等, 使用自动化脚本,就无需手动一次又一次地完成这些任务, 非常方便…...
【嵌入式烧录/刷写文件】-1-详解Motorola S-record(S19/SREC/mot/SX)格式文件
目录 1 什么是Motorola S-record 2 Motorola S-record的格式 2.1 Motorola S-record的结构 2.1.1 “Record type记录类型”的说明 2.1.2 “Record length记录长度”的说明 2.1.3 如何计算“Checksum校验和” 2.2 Record order记录顺序 2.3 Text line terminator文本行终…...
图形视图界面 图形效果
Qt的标准图形效果类: QGraphicsBlurEffect提供模糊效果QGraphicsColorizeEffect提供染色效果QGraphicsDropShadowEffect提供阴影效果QGraphicsOpacityEffect提供透明效果 QGraphicsBlurEffect(模糊效果) 模糊效果会模糊源。此效果对于减少细…...
ElementUI学习笔记
目录 一、简单介绍 二、安装 1、下载 2、引入 三、布局 1、简介 2、使用 3、好处 四、布局容器 1、常见排布 2、调整样式 五、按钮 1、简单引用 2、改变样式 3、加载中效果 六、表格 1、简单使用 2、样式修改 七、对话框 1、简单使用 2、添加自定义内容 3、…...
安装KVM并创建虚拟机及基本使用
#环境说明:Centos7 环境准备: CPU开启虚拟化,给宿主机的CPU和内存分配足够多的配置 安装KVM 1.安装相关软件包 yum -y install qemu-kvm libvirt virt-manager virt-install virt-viewer 软件包简介: qemu-kvm: 为kvm提供…...
一种LCD屏闪问题的调试
背景 项目使用ESP32-S3 RGB接口驱动的LCD, 框架 idf-v5.0, LVGL-v7.11 显示画面正常, 但肉眼可见的像是背光在闪烁, 背光电路是应用很久的经典电路, 且排查背光驱动无错, 但开机一段时间后, 闪烁会明显减轻 记录 这块屏的显示驱动芯片为ST7701S, 查看芯片手册有说明特定的上…...
Java程序运行在Docker等容器环境有哪些新问题?
第30讲 | Java程序运行在Docker等容器环境有哪些新问题? 如今,Docker 等容器早已不是新生事物,正在逐步成为日常开发、部署环境的一部分。Java 能否无缝地运行在容器环境,是否符合微服务、Serverless 等新的软件架构和场景&#x…...
C语言面试最常问的三个关键字
文章目录前言一,static关键字的作用二,const 关键字的作用2.1, 修饰局部变量2.2,修饰指针2.3, 修饰函数形参2.4,修饰函数的返回值三,volatile关键字的作用前言 面试的时候,C语言最常…...
【Linux】-初识Linux
作者:学Java的冬瓜 博客主页:☀冬瓜的主页🌙 专栏:【Linux】 分享:逆着光行走,任风吹雨打。 ——《起风了》 主要内容:Linux的一些最基本指令,Linux的小程序,Linux关于连…...
精选7个 Python 学习资源库,助你成为优秀的开发者
当你在学习编程时,很容易被大量的资源所吓到,不知道该从何开始。 GitHub 仓库是一个很好的起点,因为它们提供了一种非常实用的方式来了解实际的编程应用。你可以查看其他人的代码,并将其与自己的代码进行比较和学习。 当涉及到 …...
【大数据处理与可视化】三 、Pandas库的运用
【大数据处理与可视化】三 、Pandas库的运用实验目的实验内容实验步骤一、使用pandas库分别创建Series对象和DataFrame对象,并对创建的对象使用索引、排序等相关操作;练习DataFrame对象的统计计算和统计描述的功能。1&2、创建一个DataFrame(d…...
FPGA解码SDI视频任意尺寸缩放拼接输出 提供工程源码和技术支持
目录1、前言2、SDI理论练习3、设计思路和架构SDI摄像头Gv8601a单端转差GTX解串SDI解码VGA时序恢复YUV转RGB图像缩放FDMA图像缓存实现拼接HDMI驱动4、vivado工程详解5、上板调试验证并演示6、福利:工程代码的获取1、前言 FPGA实现SDI视频编解码目前有两种方案&#…...
线索二叉树结构
线索二叉树结构1.线索二插树的作用2.线索二叉树的定义3.线索二叉树的结构4. 线索二叉树的操作4.1. 建立一棵中序线索二叉树4.2. 在中序线索二叉树上查找任意结点的中序前驱结点4.3. 在中序线索二叉树上查找任意结点的中序后继结点4.4. 在中序线索二叉树上查找任意结点在先序下的…...
6.网络爬虫——BeautifulSoup详讲与实战
网络爬虫——BeautifulSoup详讲与实战BeautifulSoup简介:BS4下载安装BS4解析对象Tag节点遍历节点find_all()与find()find_all()find()豆瓣电影实战前言: 📝📝此专栏文章是专门针对网络爬虫基础,欢迎免费订阅&#…...
Vue:路由管理模式
三种模式 Vue.js 的路由管理有三种模式: Hash 模式(默认):在 URL 中使用 # 符号来管理路由。例如,http://example.com/#/about。这个模式的好处是可以避免浏览器向服务器发送不必要的请求,并且不需要特殊…...
7个最好的PDF编辑器,帮你像编辑Word一样编辑PDF
PDF 是具有数字思维的组织的重要交流工具。提供高效的工作流程和更好的安全性,可以创建重要文档并与客户、同事和员工共享。文档的布局已锁定,因此无论在什么设备上查看,格式都保持不变。这是让每个人保持一致的好方法——尤其是那些使用Micr…...
Ubuntu系统下交叉编译openssl
一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...
ES6从入门到精通:前言
ES6简介 ES6(ECMAScript 2015)是JavaScript语言的重大更新,引入了许多新特性,包括语法糖、新数据类型、模块化支持等,显著提升了开发效率和代码可维护性。 核心知识点概览 变量声明 let 和 const 取代 var…...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序
一、开发准备 环境搭建: 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 项目创建: File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
2025季度云服务器排行榜
在全球云服务器市场,各厂商的排名和地位并非一成不变,而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势,对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析: 一、全球“三巨头”…...
在Ubuntu24上采用Wine打开SourceInsight
1. 安装wine sudo apt install wine 2. 安装32位库支持,SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库(解决显示问题) sudo apt install fonts-wqy…...
永磁同步电机无速度算法--基于卡尔曼滤波器的滑模观测器
一、原理介绍 传统滑模观测器采用如下结构: 传统SMO中LPF会带来相位延迟和幅值衰减,并且需要额外的相位补偿。 采用扩展卡尔曼滤波器代替常用低通滤波器(LPF),可以去除高次谐波,并且不用相位补偿就可以获得一个误差较小的转子位…...
从零开始了解数据采集(二十八)——制造业数字孪生
近年来,我国的工业领域正经历一场前所未有的数字化变革,从“双碳目标”到工业互联网平台的推广,国家政策和市场需求共同推动了制造业的升级。在这场变革中,数字孪生技术成为备受关注的关键工具,它不仅让企业“看见”设…...
【51单片机】4. 模块化编程与LCD1602Debug
1. 什么是模块化编程 传统编程会将所有函数放在main.c中,如果使用的模块多,一个文件内会有很多代码,不利于组织和管理 模块化编程则是将各个模块的代码放在不同的.c文件里,在.h文件里提供外部可调用函数声明,其他.c文…...
