当前位置：首页 > news >正文

Hive【Hive（四）函数-单行函数】

news 2025/12/14 3:57:43

函数

函数简介

方便完成我们一些复杂的操作，就好像我们 Spark 中的 UDF 函数，避免用户反复写逻辑。

Hive 提供了大量的内置函数，主要可以分为以下几类：

单行函数
聚合函数
炸裂函数
窗口函数

下面的命令可以查看内置函数的相关信息：

1）查看系统自带的函数

show functions;

2）显示自带的函数的用法

查看函数 upper 的用法（显示函数参数）：

desc function upper;

3）详细显示自带的函数的用法

查看函数 upper 的详细用法：

desc function extended upper;

1、单行函数

特点：输入一行，输出一行（或多行）。

按照功能可以分为：

日期函数
字符串函数
集合函数
数学函数
流程控制函数

1.1、算数运算函数

处理常用的 +、-、*、/ 还有 %、&、^、~、| 等

查询出员工薪资后全部 +100 显示：

select sal+1 from emp;

1.2、数值函数

1）round：四舍五入

默认不保留小数部分，直接四舍五入为整数。

select round(3.5);  -- 输出4

可以设置第二个参数（控制小数部分的长度）：

select round(3.1415,2)  --输出3.14

2）ceil：向上取整

select ceil(3.11);  -- 输出4

3）floor：向下取整

select floor(3.6);    --输出3

1.3、字符串函数

1）substring（str，beg[，len]）：截取字符串

解释：从第 beg 个下标对 str 进行截取，共截取 len 长度的字符串。

注意: 下标是从 1 开始的，负数代表取后 beg 位（-4代表取后4位）。

select substring("hello",1);    --返回helloselect substring("hello",1,2);  --返回heselect substring("hello",-4);    --返回elloselect substring("hello",-4,2);    --返回el

2）replace（str1,str2,str3）：替换

解释：将字符串 str1 中的子字符串 str2 用 str3 替换。

select replace("hello sxau",'sxau','tylg'); --返回 hello tylg

3）regexp_replace（str1,regex,str2）：正则替换

解释：将字符串 str1 中满足正则表达式 regex 的部分用 str2 替换掉。

select regexp_replace("身份证号:141125...","\\d",'*');  --返回 身份证号:******...

注意：这里的正则表达式语法是我们 Java 中的语法，比正常的正则表达式多一个斜杠 \；

4）regexp：正则匹配

解释：满足正则表达式返回 true 否则返回 false。

select '141125' regexp '\\d+';  --返回true

5）repeat（str，count）：重复字符串

将字符串 str 重复 count 次。

select repeat('good ',3);    --返回 good good good

6）split（str，regex）：字符串切割

解释：根据正则表达式 regex 将字符串切割开来。

注意：这里返回的是一个数组。

select split("name sex id sal",' '); --返回 ["name","sex","id","sal"]

7）nvl（a，b）：替换 null 值

解释：如果 a 不是null，则返回a，否则返回 b。

用法：通常用于判断字段是否为空。

select nvl(null,1);    --返回1

8）concat（str1，str2，...）：拼接字符串

select concat('tom','jerry','school');  --返回 tomjerryschool

9）concat_ws：以指定的分隔符拼接字符串

select concat_ws('.','192','168','88','134') --返回 192.168.88.134

10）get_json_object（json_string，path）：解析json字符串

JSON 的相关知识可以查看菜鸟教程。

解释：解析 json 字符串 json_string，并返回 path 指定的内容。如果输入的 json 字符串无效，那么返回 null。

-- 返回 lyh
select get_json_object('{"name": "lyh",	"friends": ["my","zht"],"students": {"drj": 48,"lyf": 30},"address": {"street": "chang an jie","city":	"beijing","postal_code": 10010}}','$.name');

注意：

如果是 json 数组，可以通过 '$.[0].name' 的方式获取到下标为 0 的json对象的 name 属性值。
注意如果 json 字符串内用的是双引号，那么我们的函数参数最好用单引号。

1.4、日期函数

我们的日期时间基本格式为：年-月-日时:分:秒

1）unix_timestamp（[date_str，format]）：返回当前或指定时间的时间戳

解释：将时间字符串 date_str 根据 format 格式解析为时间戳。

注意：一定要注意字符串 date_str 中的间隔符必须要和 format 中一一对应。

select unix_timestamp();    --当前时间的时间戳  1696390814select unix_timestamp('2023/10/04 11-41-08','yyyy/MM/dd HH-mm-ss');    -- 1696419668

2）from_unixtime（timestamp）：将时间戳转为时间

注意：

这里的参数不是字符串，而是一个数值。
from_unixtime() 只能精确到秒级别。
from_utc_time() 可以精确到毫秒级别，但相应的如果参数是 unix_timestamp 需要*1000 转为毫秒数。

select from_unixtime(1696419668);    --输出 2023-10-04 11:41:08select from_utc_timestamp(cast(1696419668 as bigint)*1000,'GMT+8');

3）current_date（）：当前日期

注意：括号可以省略。

select current_date;    --返回 2023-10-04

4）current_timestamp（）：当前日期的时间，并精确到毫秒

select current_timestamp();     --返回 2023-10-04 11:49:51.696000000

5）month（str）：获取日期中的月

select month(current_date());    --返回 10

6）day（str）：获取日期的日

select day(current_date());    --返回 4

7）hour（str）：获取日期的时

select hour('2023-10-04 11:59:10');    --返回 11

8）datediff（enddate，startdate）：两个日期相差的天数

select datediff('2023-10-4','2023-10-1');    --返回 3

9）date_add（startdate，days）：日期加天数

注意：有 add 就有 sub，一个加，一个减。

select date_add('2023-10-1',365);    --返回 2024-9-30select date_sub('2023-10-1',365);    --返回 2022-10-1

10）date_format（date-str，format）：将日期字符串转为指定格式的字符串

select date_format('2023-10-4 12:00:05','yyyy年MM月dd日-HH时mm分:ss秒'); --返回2023年10月04日-12时00分:05秒

1.5、流程控制函数

1）case when：条件判断函数

select stu_id,course_id,score,casewhen score>=90 then 'A'when score>=80 then 'B'when score>=70 then 'C'when score>=60 then 'D'else '不及格'end as grade
from score_info;

如果是等值查询（直接 case 后面跟字段名，when 条件处直接写值即可）：

select stu_id,course_id,score,case scorewhen 90 then 'A'when 80 then 'B'when 70 then 'C'when 60 then 'D'end as grade
from score_info;

2）if：条件判断，类似于 Java 的三元运算符

select stu_id,course_id,if(score>60,'及格','不及格') `grade`
from score_info;

1.6、集合函数

集合函数用来处理复杂的数据类型，比如 array、map 和 struct。

1）size ：集合中元素的个数

select size(array(1,2,3));    --3

2）map（k1，v1，k2，v2）：创建 map 集合

select map('hadoop',1,'spark',1);    --{"hadoop":1,"spark":1}

3）map_keys（map）：返回 map 中的 key

select map_keys(map('hadoop',1,'spark',1));    --["hadoop","spark"]

4）map_values（map）：返回 map 中的 value

select map_values(map('hadoop',1,'spark',1));    --[1,1]

5）array：声明 array 集合

select array(1,2,3);    --[1,2,3]

6）array_contains（arr，ele）：判断 arr 中是否包含元素 ele

select array_contains(array(1,2,3),3);    --true

7）sort_array（arr）：将 arr 中的元素排序

select sort_array(array(5,3,4,1));    --[1,3,4,5]

8）struct：声明 struct

select struct('name','age','sex');    --{"col1":"name","col2":"age","col3":"sex"}

9）named_struct（）：声明 struct 的属性和值

select named_struct('name',"tom",'age',"18",'sex',"男");    --{"name":"tom","age":"18","sex":"男"}

案例演示

数据准备

create  table  employee(name string,  --姓名sex  string,  --性别birthday string, --出生年月hire_date string, --入职日期job string,   --岗位salary double, --薪资bonus double,  --奖金friends array<string>, --朋友children map<string,int> --孩子
);
insert into employeevalues('张无忌','男','1980/02/12','2022/08/09','销售',3000,12000,array('阿朱','小昭'),map('张小无',8,'张小忌',9)),('赵敏','女','1982/05/18','2022/09/10','行政',9000,2000,array('阿三','阿四'),map('赵小敏',8)),('宋青书','男','1981/03/15','2022/04/09','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),('周芷若','女','1981/03/17','2022/04/10','研发',18000,1000,array('王五','赵六'),map('宋小青',7,'宋小书',5)),('郭靖','男','1985/03/11','2022/07/19','销售',2000,13000,array('南帝','北丐'),map('郭芙',5,'郭襄',4)),('黄蓉','女','1982/12/13','2022/06/11','行政',12000,null,array('东邪','西毒'),map('郭芙',5,'郭襄',4)),('杨过','男','1988/01/30','2022/08/13','前台',5000,null,array('郭靖','黄蓉'),map('杨小过',2)),('小龙女','女','1985/02/12','2022/09/24','前台',6000,null,array('张三','李四'),map('杨小过',2));

需求

1）统计每个月的入职人数

select month(replace(hire_date,'/','-')) as month,count(*) as cn
from employee
group by
month(replace(hire_date,'/','-'));

2）查询每个人的年龄（年+月）

select name,concat(if(month>=0,year,year-1),'年',if(month>=0,month,12+month),'月') age
from(
select name,year(current_date())-year(t1.birthday) year,month(current_date())-month(t1.birthday) month
from (select name,replace(birthday,'/','-') birthdayfrom employee
)t1)t2;

3）按照薪资进行倒序，如果奖金为 null 置为 0

select name,salary+nvl(bonus,0) 
from employee
order by salary;

4）查询每个人有多少个朋友

select name,size(friends) `朋友` from employee;

5）查询每个人孩子的姓名

select name,map_keys(children) from employee;

6）查询每个岗位男女各多少人

select job,sum(if(sex='男',1,0)) male,sum(if(sex='女',1,0)) female
from employee
group by job;

Hive【Hive（四）函数-单行函数】

函数函数简介方便完成我们一些复杂的操作，就好像我们 Spark 中的 UDF 函数，避免用户反复写逻辑。 Hive 提供了大量的内置函数，主要可以分为以下几类： 单行函数聚合函数炸裂函数窗口函数下面的命令可以查看内置函数的相关…...

编程日记 2023/10/9 2:31:47

C语言学生成绩录入系统

一、系统概述该系统是一个由链表创建主菜单的框架，旨在快速创建学生成绩录入系统的主菜单结构。其主要任务包括： 实现链表的创建、插入和遍历功能，用于存储和展示学生成绩录入系统各个模块的菜单项。 2. 提供用户友好的主菜单界面&#xf…...

编程日记 2023/10/9 2:29:45

操作系统对内存的管理：分配与回收，虚拟内存，内存容量的扩充，内存保护，补充（链接方式、装入方式）

内存：即内存条，也称主存储器（简称主存），用于存放数据。为了缓和CPU和外存（磁盘）的速度矛盾，外存的程序先放入内存才能被CPU处理。内存地址从0开始，每个内存地址对应一…...

编程日记 2023/10/9 2:28:44

[开源]基于Vue的拖拽式数据报表设计器，为简化开发提高效率而生

一、开源项目简介 Cola-Designer 是一个基于VUE，实现拖拽配置方式生成数据大屏，为简化开发、提高效率而生。二、开源协议使用GPL-2.0开源协议三、界面展示概览部分截图： 四、功能概述特性 0 代码实现完全拖拽配置式生成…...

编程日记 2023/10/9 2:27:43

微信小程序——CSS3渐变

SS3 渐变（gradients）可以在两个或多个指定的颜色之间显示平稳的过渡。CSS3 定义了两种类型的渐变（gradients）： 说明 1、线性渐变（Linear Gradients）- 向下/向上/向左/向右/对角方向&#xff1…...

编程日记 2023/10/9 2:26:42

CCF中国开源大会专访｜毛晓光：“联合”是开源走向“共赢”的必由之路

受访嘉宾 | 毛晓光记者 | 朱珂欣 2023 CCF 中国开源大会（ CCF ChinaOSC ）拟于 2023 年 10 月 21 日至 22 日在湖南省长沙市北辰国际会议中心召开。作为第二届 CCF 中国开源大会，本届大会将组织特邀报告、高峰论坛和领域分论坛等不同类…...

编程日记 2023/10/9 2:25:41

多校联测11 8ady

题目大意有一个排列 a 1 , a 2 , … , a n a_1,a_2,\dots,a_n a1,a2,…,an，我们现在进行如下操作： for(int i1;i<n-m1;i) sort(ai,aim);设最后的结果为 b 1 , b 2 , ⋯ , b n b_1,b_2,\cdots,b_n b1,b2,⋯,bn，求满足条件的…...

编程日记 2023/10/9 2:24:40

【软考】9.1 顺序表/链表/栈和队列

《线性结构》顺序存储和链表存储每个元素最多只有一个出度和一个入度，表现为一条线状链表存储结构：每个节点有两个域，即数据，指针域（指向下一个逻辑上相邻的节点） 时间复杂度：与其数量级成正…...

编程日记 2023/10/9 2:23:39

来来来国家开放大学模拟题型训练

试卷代号：2110 行政法与行政诉讼法参考试题一、单项选择题（每小题只有一项正确答案，请将正确答案的序号填在括号内。每小题2分，共20分） 1.下列案件中属于行政诉讼受案范围的是( )。 A.因人民政府对某工作人员的…...

编程日记 2023/10/9 2:22:38

【ONE·Linux || 多线程（二）】

总言多线程：生产者消费者模型与两种实现方式（条件变量、信号量）、线程池。文章目录总言4、生产者消费者模型4.1、基本概念4.2、基于BlockingQueue的生产者消费者模型（理解条件变量）4.2.1、单生产者单消费者模式&am…...

编程日记 2023/10/9 2:21:37

pandas.DataFrame.to_excel：在同一个sheet内追加数据

参考了这篇文章的方法 pandas to_excel:写入数据，在同一个sheet中追加数据，写入到多个sheet里，基本逻辑是： 通过数据框获取到该Excel表的行数 df_rows，然后将需要存储的数据，限制开始写入的行数&#xff0c…...

编程日记 2023/10/9 2:20:36

基于卷积神经网络的图像识别技术研究与实践

基于卷积神经网络的图像识别技术研究与实践卷积神经网络（CNN）是一种深度学习模型，它在图像识别领域取得了显著的成果。本文旨在探讨基于卷积神经网络的图像识别技术研究与实践。一、卷积神经网络概述卷积神经网络是一种深度学习模型&am…...

编程日记 2023/10/9 2:19:35

Linux防火墙之--SNAT和DNAT

1.SNAT是什么 SNAT又称源地址转换。源地址转换是内网地址向外访问时，发起访问的内网ip地址转换为指定的ip地址（可指定具体的服务以及相应的端口或端口范围），这可以使内网中使用保留ip地址的主机访问外部网络，即内网的多…...

编程日记 2023/10/9 2:18:34

Bean注入方式：@Autowired、@Resource的区别

Autowired 和 Resource 的区别是什么？ Autowired 属于 Spring 内置的注解，默认的注入方式为 byType（根据类型进行匹配），也就是说会优先根据接口类型去匹配并注入 Bean （接口的实现类）。这会有…...

编程日记 2023/10/9 2:16:32

文章目录前言基本概念 Design Principles⭐单一职责原则(SRP) Single Responsibility PrincipleCode ⭐里氏替换原则(LSP) Liskov Substitution PrincipleCode ⭐开闭原则(OCP) Open Closed PrincipleCode ⭐依赖倒置原则(DIP) Dependency Inversion PrincipleCode ⭐接口隔离…...

编程日记 2023/10/9 2:15:31

数据结构--》解锁数据结构中树与二叉树的奥秘（一）

数据结构中的树与二叉树，是在建立非线性数据结构方面极为重要的两个概念。它们不仅能够模拟出生活中各种实际问题的复杂关系，还常被用于实现搜索、排序、查找等算法，甚至成为一些大型软件和系统中的基础设施。无论你是初学者还是进阶者&…...

编程日记 2023/10/9 2:14:30

23.4 Bootstrap 框架5

1. 背景颜色 1.1 背景颜色样式在Bootstrap 5中, 可以使用以下类来设置背景颜色: * 1. .bg-primary: 设置为主要的背景颜色(#007bff, 深蓝色). * 2. .bg-secondary: 设置为次要的背景颜色(#6c757d, 灰色). * 3. .bg-success: 设置为成功的背景颜色(#28a745, 绿色). * 4. …...

编程日记 2023/10/9 2:13:29

Spring源码解析——IOC属性填充

正文 doCreateBean() 主要用于完成 bean 的创建和初始化工作，我们可以将其分为四个过程： 最全面的Java面试网站 createBeanInstance() 实例化 beanpopulateBean() 属性填充循环依赖的处理initializeBean() 初始化 bean 第一个过程实例化 bean在前面一篇…...

编程日记 2023/10/9 2:12:28

寒露到了，冬天还会远吗？

寒露惊秋晚，朝看菊渐黄。日复一日间，光影如梭，我们便很快将告别了秋高气爽，白日将变得幽晦， 天寒夜长，风气萧索，雾结烟愁。还没好好体会秋高气爽,寒露就到了。今天晚上9点多，我们…...

编程日记 2023/10/9 2:10:26

科普②| 大数据有什么用？大数据技术的应用领域有哪些？

1、提供个性服务很多人觉得大数据好像离我们很远，其实我们在日常所使用的智能设备，就需要大数据的帮助。比如说我们运动时候戴的运动手表或者是运动手环，就可以在我们平时运动的时候，帮助我们采集运动数据及热量消耗情况。进入睡眠…...

编程日记 2023/10/9 2:09:24

【磁盘】每天掌握一个Linux命令 - iostat

目录【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景注意事项【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat（I/O Statistics）是Linux系统下用于监视系统输入输出设备和CPU使…...

编程新知 2025/9/30 16:39:11

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/10/6 6:10:29

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2025/11/13 13:42:14

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2025/12/5 13:16:54

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2025/12/12 16:32:10

Java + Spring Boot + Mybatis 实现批量插入

在 Java 中使用 Spring Boot 和 MyBatis 实现批量插入可以通过以下步骤完成。这里提供两种常用方法：使用 MyBatis 的 <foreach> 标签和批处理模式（ExecutorType.BATCH）。方法一：使用 XML 的 <foreach> 标签&#xff…...

编程新知 2025/6/11 2:44:05

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

编程新知 2025/12/13 7:09:55

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2025/11/30 16:08:59

Linux系统部署KES

1、安装准备 1.版本说明V008R006C009B0014 V008：是version产品的大版本。 R006：是release产品特性版本。 C009：是通用版 B0014：是build开发过程中的构建版本2.硬件要求 #安全版和企业版内存：1GB 以上硬盘&#xf…...

编程新知 2025/11/3 8:50:43

Vue 模板语句的数据来源

🧩 Vue 模板语句的数据来源：全方位解析 Vue 模板（<template> 部分）中的表达式、指令绑定（如 v-bind, v-on）和插值（{{ }}）都在一个特定的作用域内求值。这个作用域由当前组件…...

编程新知 2025/10/4 11:36:04

函数