当前位置: 首页 > article >正文

【Hive入门】

之前实习写的笔记,上传留个备份。

1. 使用docker-compose快速搭建Hive集群

使用docker快速配置Hive环境

  • 拉取镜像

2. Hive数据类型

  • 隐式转换:窄的可以向宽的转换
  • 显式转换:cast

3. Hive读写文件

  • SerDe:序列化(对象转为字节码)、反序列化
3.1 hive读写文件流程
  • 反序列化(将文件映射为表)

    调用inputFormat,转为<key,value>类型,然后进行反序列化。

3.2 SerDe语法
  1. row format 指定序列化方式和分割符

    • Delimited:默认序列化方式
    • Json:改变序列化方式
  2. hive 默认分割符"\001"

4. 存储路径

  • 默认存储:/usr/hive/warehouse
  • 指定存储路径:location hdfs_path

5. 练习

创建表并加载数据。

use ods;
create external table hero_info_1(id bigint comment "ID",name string comment "英雄名称",hp_max bigint comment "最大生命"
) comment "王者荣耀信息"
row format delimited
fields terminated by "\t";

将文件上传到相应路径,只要指定好分割符就可以。

hadoop fs -put test1.txt /usr/hive/warehouse/test.db/hero_info_1
  • map类型
create table hero_info_2(id int comment "ID",name string comment "英雄名字",win_rate int comment "胜率",skin map<string, int> comment "皮肤:价格" -- 注意map分割类型
) comment "英雄皮肤表"
row format delimited
fields terminated by "," -- 指定字段分割符
collection items terminated by '-' -- 指定集合元素之间分割符
map keys terminated by ':'; -- 指定map元素kv之间的分割符
hadoop fs -put test2.txt /usr/hive/warehouse/test.db/hero_info_2

6. 指定路径使用

create table t_hero_info_3(id int comment "ID",name string comment "英雄名字",win_rate int comment "胜率",skin map<string, int> comment "皮肤:价格" -- 注意map分割类型
) comment "英雄皮肤表"
location "/tmp";select * from t_hero_info_3; 

7. 内部表和外部表

  • 外部表,删除不会删除hdfs文件

  • 一般都用外部表

drop table t_hero_info_3; -- 文件也被删除

9. 分区表

  • 上传多个文件

  • 发现sql执行很慢,因为where需要进行全表扫描,所以效率慢

  • 但是我们是根据射手类型来进行分类的,因此可以只扫描这一个分区的数据

  • 分区字段不能是表中已经存在的字段

create external table t_hero_info_1(id int comment "ID",name string comment "名字"
) comment "英雄信息"
partitioned by (role string)
row format delimited
fields terminated by "\t";
  • 静态分区
load data local inpath '/root/a.txt' into table t_hero_info_1 partition(role='sheshou');
​
​
-- 分区扫描 role是分区字段,不用全表扫描
select count(*) from t_hero_info_1 where role = "sheshou" and hp_max > 6000;

10. 多重分区表

  • 一般为双重分区表
create external table t_hero_info_1(id int comment "ID",name string comment "名字"
) comment "英雄信息"
partitioned by (province string, city string); -- 分区字段存在顺序-- 分区1
load data local inpath '/root/a.txt' into table t_hero_info_1 partition(province='beijing',city='chaoyang');
-- 分区2
load data local inpath '/root/b.txt' into table t_hero_info_1 partition(province='beijing',city='haidian');
-- 多重分区
load data local inpath '/root/b.txt' into table t_hero_info_1 partition(province='shanghai',city='pudong');

11. 动态分区

  • 根据字段值来进行动态分区,使用insert+select
  • 步骤:创建完分区表后,存在一个分区字段role,这时我们使用insert+select方法将原先表的数据插入到分区表中。
-- 原始数据表 t_all_hero
-- 分区表 t_all_hero_part-- role这里是分区字段,role_main是我们给指定的分区类型
insert into table t_all_hero_part partition(role) select tmp.*, tmp.role_main from t_all_hero tmp;
  • 在企业中,一般根据日期来进行分区表。
  • 注意:分区的字段不能是已有的字段,即字段名字不能重复
  • 分区的字段是个虚拟的字段,并不存在于底层当中

12. 分桶表

  • 来进行优化查询

  • 分桶是将一个文件分为若干个文件

规则
  • 将文件中数据哈希,从而分到不同桶中。

  • 一般是根据主键来进行分桶

  • 创建一个普通的表,然后上传数据;通过inset+select来加载分桶

-- 创建分桶表
create table test.t_state_info()
clustered by(state) into 5 buckets; -- state一定是表中已有的字段-- 插入数据
insert into t_state_info_bucket select * from t_state_info;
好处
  1. 可以基于分桶字段来查找,不需要进行全表过滤

  2. join时减少笛卡尔积数量

    窗口函数

    • over后返回的表行数不变

解析json

get_json_object:一次只能解析一个字段

相关文章:

【Hive入门】

之前实习写的笔记&#xff0c;上传留个备份。 1. 使用docker-compose快速搭建Hive集群 使用docker快速配置Hive环境 拉取镜像 2. Hive数据类型 隐式转换&#xff1a;窄的可以向宽的转换显式转换&#xff1a;cast 3. Hive读写文件 SerDe:序列化&#xff08;对象转为字节码…...

亚马逊站内信规则2025年重大更新:避坑指南与合规策略

亚马逊近期对Buyer-Seller Messaging&#xff08;买家-卖家站内信&#xff09;规则进行了显著收紧&#xff0c;明确将一些曾经的“灰色操作”列为违规。违规操作轻则收到警告&#xff0c;重则导致账户暂停或绩效受限。本文为您全面解析本次规则更新的核心要点、背后逻辑&#x…...

01 - AI 时代的操作系统课 [2025 南京大学操作系统原理]

01 - AI 时代的操作系统课 [2025 南京大学操作系统原理] [00:00:00]-[D:\movie\南京大学操作系统\01-AI时代的操作系统课[2025南京大学操作系统原理].mp4] 大家好&#xff01;我是姜艳艳&#xff0c;来自南京大学计算机软件研究所。今天我们开启《操作系统原理》的第一课&…...

数组1 day7

六&#xff1a;数组 一&#xff1a;数据类型 1.int a[10] //想要知道一个标识符对应的数据类型&#xff0c;去掉标识符&#xff0c;剩下就是它对应的数据类型 ​ //eg&#xff1a;a所谓代表的类型&#xff0c;就是int[10]这种类型&#xff08;是一个数组&#xff0c;包含10个…...

SAP学习笔记 - 开发15 - 前端Fiori开发 Boostrap,Controls,MVC(Model,View,Controller),Modules

上一章讲了Fiori开发的准备&#xff0c;以及宇宙至简之HelloWorld。 SAP学习笔记 - 开发14 - 前端Fiori开发 HelloWorld-CSDN博客 本章继续学习 Fiori 开发的知识&#xff1a; Bootstrap&#xff0c;Controls&#xff0c;MVC(Model&#xff0c;View&#xff0c;Controller&a…...

Redis中的过期策略与内存淘汰策略

因为Redis是纯内存操作&#xff0c;所以在Redis中创建的键一般都会带有过期时间&#xff0c;以此来保证内存中存储数据的时效性。这篇文章我们就来讲解一下Redis中的过期策略与内存淘汰策略。 如何设置Redis中键的过期时间&#xff1f; Redis提供了4个命令来设置键的过期时间&…...

基于SDN环境下的DDoS异常攻击的检测与缓解

参考以下两篇博客&#xff0c;最后成功&#xff1a; 基于SDN的DDoS攻击检测和防御方法_基于sdn的ddos攻击检测与防御-CSDN博客 利用mininet模拟SDN架构并进行DDoS攻击与防御模拟&#xff08;Ryumininetsflowpostman&#xff09;_mininet模拟dos攻击-CSDN博客 需求 H2 模拟f…...

HarmonyOS 实战:给笔记应用加防截图水印

最近在做笔记类应用时&#xff0c;遇到一个头疼的需求&#xff1a;防止用户内容被非法截图传播。思来想去&#xff0c;加水印是个直接有效的方案。研究了 HarmonyOS 的开发文档后&#xff0c;发现用 Canvas 配合布局组件能轻松实现动态水印效果。今天就来聊聊如何给笔记页面加上…...

如何轻松地将文件从 PC 传输到 iPhone?

传统上&#xff0c;您可以使用 iTunes 将文件从 PC 传输到 iPhone&#xff0c;但现在&#xff0c;使用 iTunes 已不再是唯一的选择。现在有多种不同且有效的方法可以帮助您传输文件。在今天的指南中&#xff0c;您可以找到 8 种使用或不使用 iTunes 传输文件的方法&#xff0c;…...

前端面试二之运算符与表达式

目录 1.JavaScript 中的 和 运算符 2.|| (逻辑或) 运算符 与 ES6 默认参数的区别 与 ?? (空值合并运算符) 的区别 3.?.&#xff08;可选链&#xff09;运算符 (1). 安全访问深层嵌套属性 (2). 安全调用可能不存在的函数 (3). 安全访问数组元素 4.展开运算符 (..…...

【运维实战】使用Nvm配置多Node.js环境!

背景 新项目 使用Node.js-v16.17.1旧项目 使用Node.js- v14.18.0 【且依赖于node-saas模块&#xff0c;根据 node-sass 的官方文档&#xff0c;目前最新版本的 node-sass&#xff08;即 v5.0.0&#xff09;支持的 Node.js 版本范围是 Node.js 10.x、Node.js 12.x、Node.js 14.…...

Bresenham算法

一 Bresenham 绘直线 使用 Bresenham 算法&#xff0c;可以在显示器上绘制一直线段。该算法主要思想如下&#xff1a; 1 给出直线段上两个端点 &#xff0c;根据端点求出直线在X,Y方向上变化速率 &#xff1b; 2 当 时&#xff0c;X 方向上变化速率快于 Y 方向上变化速率&am…...

【从GEO数据库批量下载数据】

从GEO数据库批量下载数据 1&#xff1a;进入GEO DataSets拿到所需要下载的数据的srr.list&#xff0c;上传到linux&#xff0c; 就可以使用prefetch这个函数来下载 2&#xff1a;操作步骤如下&#xff1a; conda 安装sra-tools conda create -n sra-env -c bioconda -c co…...

day 44

使用DenseNet预训练模型对cifar10数据集进行训练 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms, models from torch.utils.data import DataLoader import matplotlib.pyplot as plt import os# 设置中文字体…...

鸿蒙OSUniApp开发跨平台AR扫描识别应用:HarmonyOS实践指南#三方框架 #Uniapp

UniApp开发跨平台AR扫描识别应用&#xff1a;HarmonyOS实践指南 前言 随着增强现实&#xff08;AR&#xff09;技术在移动应用中的广泛应用&#xff0c;越来越多的开发者需要在跨平台应用中实现AR功能。本文将深入探讨如何使用UniApp框架开发一个高性能的AR扫描识别应用&…...

NER实践总结,记录一下自己实践遇到的各种问题。

更。 没卡&#xff0c;跑个模型休息好几天&#xff0c;又闲又急。 一开始直接套用了别人的代码进行实体识别&#xff0c;结果很差&#xff0c;原因是他的词表没有我需要的东西&#xff0c;我是用的医学文本。代码直接在github找了改的&#xff0c;用的是BERT的Chinese版本。 然…...

微信小程序实现运动能耗计算

微信小程序实现运动能耗计算 近我做了一个挺有意思的微信小程序&#xff0c;能够实现运动能耗的计算。只需要输入性别、年龄、体重、运动时长和运动类型这些信息&#xff0c;就能算出对应的消耗热量。 具体来说&#xff0c;在小程序里&#xff0c;性别不同&#xff0c;身体基…...

iTunes 无法备份 iPhone:10 种解决方法

Apple 设备是移动设备市场上最先进的产品之一&#xff0c;但有些人遇到过 iTunes 因出现错误而无法备份 iPhone 的情况。iTunes 拒绝备份 iPhone 时&#xff0c;可能会令人非常沮丧。不过&#xff0c;幸运的是&#xff0c;我们有 10 种有效的方法可以解决这个问题。您可以按照以…...

施耐德特价型号伺服电机VIA0703D31A1022、常见故障

⚙️ ‌一、启动类故障‌ ‌电机无法启动‌ ‌可能原因‌&#xff1a;电源未接通、制动器未释放、接线错误或控制器故障。‌解决措施‌&#xff1a; 检查电源线路及断路器状态&#xff1b;验证制动器是否打开&#xff08;带制动器型号&#xff09;&#xff1b;核对电机与控制器…...

LangChain4J 使用实践

这里写目录标题 大模型应用场景&#xff1a;创建一个测试示例AIService聊天记忆实现简单实现聊天记录记忆MessageWindowChatMemory实现聊天记忆 隔离聊天记忆聊天记忆持久化 添加AI提示词 大模型应用场景&#xff1a; 创建一个测试示例 导入依赖 <dependency><groupI…...

慢SQL调优(二):大表查询

最近在工作中写SQL出现几次慢SQL的BUG&#xff0c;总结下来归根到底就是因为大表的原因~这表有多大呢&#xff0c;执行 select COUNT(1) FROM position 是出不来结果滴&#xff0c;每天保底新增1000条数据&#xff0c;可想而知有多大了&#xff0c;所以多次踩坑了这张表。所以…...

【C++】—— 从零开始封装 Map 与 Set:实现与优化

人生的态度是&#xff0c;抱最大的希望&#xff0c;尽最大的努力&#xff0c;做最坏的打算。 —— 柏拉图 《理想国》 目录 1、理论基石——深度剖析 BSTree、AVLTree 与 RBTree 的概念区别 2、迭代器机制——RBTree 迭代器的架构与工程实现 3、高级容器设计——Map 与 Set…...

内网穿透之Linux版客户端安装(神卓互联)

选择Linux系统版本 获取安装包 &#xff1a;https://www.shenzhuohl.com/download.html 这里以Ubuntu 18.04为例&#xff0c;其它版本方法类似 登录Ubuntu操作系统&#xff1a; 打开Ubuntu系统终端&#xff0c;更新版本 apt-get update 安装运行环境&#xff1a; 安装C 运…...

开疆智能Profinet转Profibus网关连接CMDF5-8ADe分布式IO配置案例

本案例是客户通过开疆智能研发的Profinet转Profibus网关将PLC的Profinet协议数据转换成IO使用的Profibus协议&#xff0c;操作步骤如下。 配置过程&#xff1a; Profinet一侧设置 1. 打开西门子组态软件进行组态&#xff0c;导入网关在Profinet一侧的GSD文件。 2. 新建项目并…...

华为云Flexus+DeepSeek征文|Flexus云服务器单机部署+CCE容器高可用部署快速搭建生产级的生成式AI应用

前引&#xff1a; 在AI技术高速演进的浪潮中&#xff0c;如何快速、高效、安全地搭建一个大模型应用平台&#xff0c;成为开发者和企业关注的焦点。近日&#xff0c;华为云推出的Flexus云服务器配合CCE容器引擎和Dify LLM应用开发平台&#xff0c;带来了极具吸引力的解决方案。…...

扫地机产品--材质传感器算法开发与虚拟示波器

扫地机产品–材质传感器算法开发与虚拟示波器 文章目录 扫地机产品--材质传感器算法开发与虚拟示波器**一、材质传感器的工作原理**二、核心功能与应用场景三、技术参数与产品示例四.MCU 与压电陶瓷超声波的材质检测技术方案实现原理分析4.1 超声波原理4.2表面类型检测4.3 超声…...

[蓝桥杯]上三角方阵

上三角方阵 题目描述 方阵的主对角线之上称为"上三角"。 请你设计一个用于填充 nn 阶方阵的上三角区域的程序。填充的规则是&#xff1a;使用 1&#xff0c;2&#xff0c;3.... 的自然数列&#xff0c;从左上角开始&#xff0c;按照顺时针方向螺旋填充。 例如&am…...

60天python训练计划----day44

DAY 44 预训练模型 知识点回顾&#xff1a; 预训练的概念常见的分类预训练模型图像预训练模型的发展史预训练的策略预训练代码实战&#xff1a;resnet18 一、预训练的概念 我们之前在训练中发现&#xff0c;准确率最开始随着epoch的增加而增加。随着循环的更新&#xff0c;参数…...

【JAVA版】意象CRM客户关系管理系统+uniapp全开源

一.介绍 CRM意象客户关系管理系统&#xff0c;是一个综合性的客户管理平台&#xff0c;旨在帮助企业高效地管理客户信息、商机、合同以及员工业绩。系统通过首页、系统管理、工作流程、审批中心、线索管理、客户管理、商机管理、合同管理、CRM系统、数据统计和系统配置等模块&…...

API异常信息如何实时发送到钉钉

#背景 对于一些重要的API&#xff0c;开发人员会非常关注API有没有报错&#xff0c;为了方便开发人员第一时间获取错误信息&#xff0c;我们可以使用插件来将API报错实时发送到钉钉群。 接下来我们就来实操如何实现 #准备工作 #创建钉钉群 如果已有钉钉群&#xff0c;可以跳…...