当前位置：首页 > news >正文

大数据学习笔记14-Hive基础2

news 2025/10/21 19:10:59

一、数据字段类型

数据类型：LanguageManual Types - Apache Hive - Apache Software Foundation

基本数据类型
- 数值相关类型
  - 整数
    - tinyint
    - smallint
    - int
    - bigint
  - 小数
    - float
    - double
    - decimal 精度最高
- 日期类型
  - date 日期
  - timestamps 日期时间
- 字符串类型
  - string
  - varchar
  - char
- 布尔类型
  - BOOLEAN 表示真假只能存储0或1
复杂类型
- array 数组类型
  - [1,2,3]
  - ['a','b','c']
- map
  - {key:value}

-- hive中的数据类型演示
use itcast;
-- 创建表
create table tb_test(id tinyint comment 'id值',age smallint comment '年龄',phone int comment '手机号',name varchar(20),gender string,weight decimal(10,2),create_time timestamp,hobby array<string> comment '兴趣爱好', -- [数据1]  arrary<数组中的数据类型>hero map<string,int> comment '游戏英雄' -- {key:value}  指定key值类型，指定value值类型
)comment '数据类型测试表';

-- 写入数据进行类型测试
insert into tb_test values(1,20,13711111111,'张三','男',180.21,'2020-10-01 10:10:10',array('篮球','足球'),map('关羽',80,'小乔',60));
insert into tb_test values(2000,20,13711111111,'张三','男',1800.21,'2020-10-01 10:10:10',array('篮球','足球'),map('关羽',80,'小乔',60));

select * from tb_test;
select hobby[1] from tb_test;
select hero['关羽'] from tb_test;

二、分隔符指定

对hdfs上的文件数据存储时的分割符进行指定

hive在将行数据存储在hdfs上时，默认字段之间的数据分隔符 \001

在创建表时可以指定分割符

row format delimited fields terminated by '分割符'

create table tb_row_field
(id     int,name   string,age    int,gender string
) row format delimited fields terminated by ','; -- 指定分隔符 固定格式

insert into tb_row_field values(1,'aa',20,'男');

三、表的修改

名字修改，字段名修改，字段类型修改

alter 关键字

alter table 表名  rename to 新的表名
alter table 表名  add columns(字段名 字段类型)
alter table 表名  change  旧字段名  新字段 字段类型
alter table 表名  set  属性设置

-- 表的修改修改操作
create table tb_ddl(id int,name string,age int,gender string
);

desc formatted tb_ddl2;

-- 修改表名
alter table tb_ddl rename to tb_ddl2;

-- 增加字段
alter table tb_ddl2 add columns(phone string);


-- 修改字段
alter table tb_ddl2 change id id bigint;
desc tb_ddl2;
-- 修改字段类型是，只能将小字节的类型修改为大字节的类型
-- alter table tb_ddl2 change id id int;



-- 修改表属性
alter table tb_ddl2 set tblproperties('age12'='20');
desc formatted tb_ddl2;

-- hdfs://node1:8020/user/hive/warehouse/itcast.db/tb_ddl2
alter table tb_ddl2 set location 'hdfs://node1:8020/tb_ddl2';
desc formatted tb_ddl2;
insert into tb_ddl2 values(1,'aa',20,'ccc','123123123');


alter table tb_ddl2 add columns(create_time date comment '创建时间',price decimal(10,2));
desc tb_ddl2;
alter table tb_ddl2 change age age1 string after phone;
desc tb_ddl2;
alter table tb_ddl2 change age1 age double after id;
desc tb_ddl2;

四、表的删除

-- 表删除  会删除表的目录和表的元数据信息
drop table tb_ddl2;
select * from tb_ddl2;
-- 表清空数据  把存储数据的文件一并删除
select * from tb_row_field;
truncate table tb_row_field;

五、表的分类

内部表 Managed Tabel

外部表 External Tables

区别：

在删除表时，

内部表会把表的所有数据删除(元数据和行数据)

外部表会把表的元数据删除，保留hdfs上的文件数据

默认创建的表都是内部表

创建外部表需要使用关键字External

create external table 表名(字段 字段类型
)

-- 创建内部表
create table tb_managed(id int,name string
);
-- 创建外部表
create external table tb_external(id int,name string
);

desc formatted tb_managed;
desc formatted tb_external;

drop table tb_managed;
drop table tb_external;

-- 修改表的类型
desc formatted tb_managed;
alter table tb_managed set tblproperties('EXTERNAL'='TRUE'); -- 设置为外部表
alter table tb_managed set tblproperties('EXTERNAL'='FALSE');-- 设置为内部表

六、表数据写入

在对表数据写入时有两张方式

方式一直接将数据文件上传到指定的表目录下

方式二通过insert将数据写入的表目录的文件中

6-1 方式一将数据文件上传到对应的表目录下

可以使用hdfs上传

可以使用hivesql的load语句上传
- hive运行的位置就文件上传的位置

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]
-- filepath 指定本地服务器的数据文件位置 ，本地指的是hive运行的服务器

-- 使用load语句将文件数据上传表中
-- file:// 是本地文件的路径协议，是一个固定写法
load data local inpath 'file:///root/order5.txt' into table tb_order;

-- 覆盖上传文件
load data local inpath 'file:///root/order5.txt' overwrite into table tb_order;

6-2 方式2 使用insert指定数据导入

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement;

insert into tb_order values (1,123.23,5,'北京');

insert overwrite table tb_order values (2,123.23,5,'上海');


-- 写入数据是在values中指定
-- 也可以将一个select 查询结果写到表中
create table tb_order_new(id int,total_price decimal(10,2),total_number int,address string
)row format delimited  fields terminated by ',';

insert into tb_order_new select * from tb_order;


-- 通过该方式可以实现计算结果的保存
create table tb_result(cnt int comment '总数'
);

insert into tb_result select count(*) from tb_order;

select * from tb_result;

6-3 将表数据导出到服务器

insert overwrite local directory 'file:///root/data' row format delimited fields terminated by ',' select * from tb_order;

七、表的分区

在公司会产生大量数据，数据存储在hdfs上时，需要对数据进行拆分，在进行数据查询时就可以快速查询到需要的内容

如果需要进行数据的分区操作，就需要再建表的时候指定分区字段

-- 创建分区表
create table tb_user_partiton(id int,name string,age int,create_time date
)partitioned by(gender int)row format delimited fields terminated by ',';
-- 静态分区数据写入
-- 手动指定分区数据
insert into tb_user_partiton partition(gender=0) values(1,'张三',20,'2024-10-10 14:21:21');

-- 动态分区数据写入，可以根据select中指定的字段数据最为分区的依据
-- 需要进行设置开启
set hive.exec.dynamic.partition.mode=nonstrict;
insert into tb_user_partiton partition(gender) select id,name,age,create_time,gender from tb_user;

-- 多层分区
create table tb_user_partiton_many(id int,name string,age int,gender int,create_time date
)partitioned by (y string,m string,d string)row format delimited fields terminated by ',';

insert into tb_user_partiton_many partition(y,m,d) select id,name,age,gender,create_time,year(create_time),month(create_time),day(create_time) from tb_user limit 100;

select * from tb_user_partiton_many where y=2015 and m=10;

大数据学习笔记14-Hive基础2

一、数据字段类型数据类型 ：LanguageManual Types - Apache Hive - Apache Software Foundation 基本数据类型数值相关类型整数 tinyint smallint int bigint 小数 float double decimal 精度最高日期类型 date 日期 timestamps 日期时间字符串类型 s…...

编程日记 2024/5/7 18:00:16

单图片下载 //使用 download(https://img1.baidu.com/it/u1493209339,2544178769&fm253&app138&sizew931&n0&fJPEG&fmtauto?sec1715101200&t854f3434686cfd2cba9d6a528597d15c)//下载逻辑 const download async (modelUrl) > {const respons…...

编程日记 2024/5/7 17:59:14

LabVIEW如何通过子VI更改主VI控件属性？

在LabVIEW中，可以通过使用Local Variable或Property Node来实现主VI控件属性的更改。这些方法可以在主VI和子VI之间传递数据和控件属性。 Local Variable: 使用Local Variable可以在子VI中直接访问并修改主VI中的控件属性。在子VI中创建Local Variable，并…...

编程日记 2024/5/7 17:58:13

关于MS-DOS时代的回忆

目录一、MS-DOS是什么？ 二、MS-DOS的主要功能有哪些？ 三、MS-DOS的怎么运行的？ 四、微软开源MS-DOS源代码五、高手与漂亮女同学一、MS-DOS是什么？ MS-DOS（Microsoft Disk Operating System）是微软公…...

编程日记 2024/5/7 17:57:11

数据库索引(Mysql)

简述:数据库索引是加速数据检索,提高查询效率的一种数据结构语法规则创建索引 --通用语法规则 --[内容] 可选参数 --UNIQUE: 可选关键字，用于创建唯一索引，确保索引列的值是唯一的 CREATE [UNIQUE] INDEX 索引名 ON 表名(字段名,...) [ASC | DESC];…...

编程日记 2024/5/7 17:56:10

异常-Exception

异常介绍基本概念 Java语言中，将程序执行中发生的不正常情况称为“异常”。（开发过程中的语法错误和逻辑错误不是异常）执行过程中所发生的异常事件可分为两大类 1，Error（错误）：Java虚拟机无法…...

编程日记 2024/5/7 17:55:08

ctfshow——SQL注入

文章目录 SQL注入基本流程普通SQL注入布尔盲注时间盲注报错注入——extractvalue()报错注入——updataxml()Sqlmap的用法 web 171——正常联合查询web 172——查看源代码、联合查询web 173——查看源代码、联合查询web 174——布尔盲注web 176web 177——过滤空格web 178——过…...

编程日记 2024/5/7 17:54:07

第十三章计算机网络

这里写目录标题 1.网络设备2.协议簇2.1电子邮件(传输层)2.2地址解析(网际层)2.3DHCP(动态主动配置协议)2.4URL(统一资源定位器)2.5IP地址和子网掩码 1.网络设备物理层：中继器，集线器(多路中继器) 数据链路层：网桥，交换机(多端口…...

编程日记 2024/5/7 17:52:04

商品详情 API 返回值说明

商品详情API接口在多个领域和场景中都有广泛的应用，以下是一些常见的应用场景： 竞品分析：企业可以利用商品详情API接口获取竞品的所有详细信息，如价格、发货地、上架时间、销售量等。通过分析这些竞品信息，企业可以更…...

编程日记 2024/5/7 17:51:03

层级实例化静态网格体组件：开启大量模型处理之门

前言在数字孪生的世界里，我们常常需要构建大量的模型来呈现真实而丰富的场景。然而，当使用静态网格体 （StaticMesh ）构建大量模型时，可能会遇到卡顿的问题，这给我们带来了不小的困扰😣。那么&…...

编程日记 2024/5/7 17:50:01

【网络知识】光猫、路由器和交换机的作用和区别？

数字信号：是指自变量是离散的、因变量也是离散的信号，这种信号的自变量用整数表示，因变量用有限数字中的一个数字来表示。在计算机中，数字信号的大小常用有限位的二进制数表示。模拟信号：模拟信号是指用连续变化的物…...

编程日记 2024/5/7 17:49:00

初识Electron，创建桌面应用

历史小剧场呜呼！古有匈奴犯汉，晋室不纲，铁木夺宋，虏清入关，神舟陆沉二百年有余，中国之见灭于满清初非满人能灭之，能有之也因有汉奸以作虎怅，残同胞媚异种，始有吴三桂洪承…...

编程日记 2024/5/7 17:47:58

AI编码时代到来？实现编程梦想的利器—Baidu Comate测评

文章目录 Comate智能编码是什么？Comate支持的环境 Comate应用安装实际操作对话式生成代码生成代码注释智能单测项目测试调优功能总结 Comate智能编码是什么？ 在如今这个拥抱AI的时代，市面上已经产出了很多Ai代码助手，如果你还没…...

编程日记 2024/5/7 17:46:57

去中心化自治组织（DAO）

文章目录一、DAO (Decentralized Autonomous Organization) 去中心化自治组织二、举例说明 1、例子1 2、例子2 总结一、DAO (Decentralized Autonomous Organization) 去中心化自治组织 DAO是一种基于区块链平台上的组织结构，它通过智能合约来实现组织的…...

编程日记 2024/5/7 17:45:56

MySQL之多表查询

1. 前言多表查询，也称为关联查询.指两个或两个以上的表一起完成查询操作.前提条件 : 这些一起查询的表之间是有关系的(一对一/一对多).他们之间一定是有关联字段，这个关联字段可能建立了外键，也可能没有建立外键. 2. 笛卡尔积现象(交叉连接…...

编程日记 2024/5/7 17:42:53

极端天气频发，我们普通人如何保全自己

随着全球气候变暖的加剧，极端天气事件如同一位不请自来的“不速之客”，频繁地闯入我们的生活。暴风雨、暴风雪、台风、干旱、热浪等极端天气现象，不仅给人们的生命和财产安全带来了前所未有的挑战，更对社会的正常秩序构成了严重威…...

编程日记 2024/5/7 17:39:49

直面市场乱价，品牌商家该如何解决？

在当今的商业世界中，品牌商面临着一系列严峻挑战，其中如何有效管理经销商价格是一个关键难题。经销商随意调整价格的行为，不仅会损害品牌的信誉与形象，还可能导致市场秩序混乱，使品牌利润大幅缩水。因此，采…...

编程日记 2024/5/7 17:38:47

Spring中的Bean相关理解

在Spring框架中，Bean是一个由Spring IoC容器实例化、配置和管理的对象。Bean是一个被Spring框架管理并且被应用程序各个部分所使用的对象。Spring IoC容器负责Bean的创建、初始化、依赖注入以及销毁等生命周期管理。注：喜欢的朋友可以关注公众号“JAVA学…...

编程日记 2024/5/7 17:37:46

操作系统实战（二）（linux+C语言）

实验内容通过Linux 系统中管道通信机制，加深对于进程通信概念的理解，观察和体验并发进程间的通信和协作的效果 ，练习利用无名管道进行进程通信的编程和调试技术。管道pipe是进程间通信最基本的一种机制,两个进程可以通过管道一个在管道一…...

编程日记 2024/5/7 17:36:45

哪些情况下会触发MySQL的预读机制？

MySQL的预读机制主要与其底层存储引擎的实现有关，尤其是InnoDB存储引擎。预读（Pre-reading）或预取（Prefetching）是一种性能优化技术，其中数据库系统主动读取可能很快就会被查询到的数据页到缓冲池&#xff…...

编程日记 2024/5/7 17:35:43

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/9/11 12:55:08

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2025/10/14 13:26:08

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中，时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志，到供应链系统的物流节点时间戳，时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库，其日期时间类型的…...

编程新知 2025/10/16 13:22:06

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/9/23 9:00:33

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

医院信息管理系统 1. 课程设计内容在 visual studio 2017 平台上，开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的综合运用 c#.net 知识，在 vs 2017 平台上，进行 ASP.NET 应用程序和简易网站的开发；初步熟悉开发一…...

编程新知 2025/10/18 5:41:44

CMake基础：构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

编程新知 2025/10/21 5:14:43

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/10/14 4:10:21

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2025/10/19 12:57:19

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台

🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景随着大语言模型（LLM）的广泛应用，开发者常面临多个挑战：各大模型（OpenAI、Claude、Gemini、Ollama）接口风格不统一；缺乏一个统一平台进行模型调用与测试；本地模型 Ollama 的集成与前…...

编程新知 2025/10/19 5:00:39

ABAP设计模式之---“简单设计原则(Simple Design)”

“Simple Design”（简单设计）是软件开发中的一个重要理念，倡导以最简单的方式实现软件功能，以确保代码清晰易懂、易维护，并在项目需求变化时能够快速适应。其核心目标是避免复杂和过度设计，遵循“让事情保…...

编程新知 2025/10/18 20:03:53