当前位置: 首页 > news >正文

利用hive元数据统计数据量

对于数据量的统计,从表是否分区分为分区表非分区表两者有着不同的统计方式

非分区表

1. 利用传统方法count

2. 利用元数据计算:

select
sum(tb.param_value) AS TOTAL
from sys.tbls t
left join sys.dbs d
on t.db_id = d.db_id
left join sys.table_params tb
on t.tbl_id = tb.tbl_id
where
tb.param_key='numRows' 
and
d.name='dw'
and (t.tbl_name ='ods_pre_t_glj_nb_road_s')

但是有时候会出现特殊情况,有非分区表的numrows为0

此时需要执行:

ANALYZE TABLE dw.ods_pre_t_lwzx_zdsj COMPUTE STATISTICS;

重新再次执行SQL语句:numRows已经有数据了

分区表

selectsum(e.PARAM_VALUE) as numRowsfrom sys.TBLS tleft join sys.DBS don t.DB_ID = d.DB_IDleft join sys.PARTITIONS a on t.TBL_ID=a.TBL_IDleft join sys.PARTITION_PARAMS e on a.part_id=e.part_idwhere t.TBL_NAME='ods_pre_tbl_ex_waste'AND e.PARAM_KEY='numRows'

同样也会出现统计数量为0或NULL或者数据量缺少的情况,此时同样需要执行

ANALYZE TABLE dw.ods_pre_t_lwzx_zdsj COMPUTE STATISTICS;

ANALYZE TABLE

ANALYZE TABLE是什么?为什么每次元数据信息统计时总会出现个别统计不准确的情况?

ANALYZE TABLE 是 Hive 中用于收集表或分区统计信息的命令。它的作用是通过扫描数据文件来计算表或分区的关键统计信息,例如行数、数据大小、列值分布等。这些统计信息存储在 Hive 的元数据中,用于优化查询计划。

统计不准确的原因有很多,分区未被正确扫描、数据未完全加载或变动后未重新统计、数据文件格式的限制等等。

优化后的SQL:

SELECTa.tbl_id,a.tbl_name,COALESCE(IF(a.table_numRows=0,b.PARTITION_numRows,a.table_numRows),0) as numRowsFROM(-- 各表总行数SELECT t.tbl_id,t.tbl_name,COALESCE(param_value,0) as table_numRowsfrom sys.TBLS tleft join sys.DBS don t.DB_ID = d.DB_IDleft join sys.table_params tbon t.tbl_id = tb.tbl_id-- 需要统计的数据库where d.name='dw'and tb.param_key='numRows' )aleft join(-- 各分区表总行数select a.tbl_id,SUM(COALESCE(PARAM_VALUE,0)) as PARTITION_numRowsfrom  sys.PARTITIONS a left join sys.PARTITION_PARAMS bon a.part_id=b.part_idWHERE b.PARAM_KEY='numRows'GROUP BY a.tbl_id)bON a.tbl_id=b.tbl_id

没有办法去批量的analyze表,可以写个shell脚本,执行以上优化后的SQL,将查询结果为0的表执行analyze以及所有分区表analyze后,再执行优化后的SQL。

相关文章:

利用hive元数据统计数据量

对于数据量的统计,从表是否分区分为分区表和非分区表两者有着不同的统计方式 非分区表 1. 利用传统方法count 2. 利用元数据计算: select sum(tb.param_value) AS TOTAL from sys.tbls t left join sys.dbs d on t.db_id d.db_id left join sys.tabl…...

平均值(水题???)

今天刷题时发现了一道十分难简单的题。大家仔细看看题目。 题目 5. K11937 平均值 题目描述 在演讲比赛中,当参赛者完成演讲时,评委会对他的表演进行评分。工作人员会去掉一个最高分,一个最低分,然后计算其余的平均值作为参赛者…...

免费开源!DBdoctor推出开源版系统诊断工具systool

​前言 在开发和运维过程中,经常会遇到难以定位的应用问题,我们通常需要借助Linux系统资源监控工具来辅助诊断。然而,系统的IO、网络、CPU使用率以及文件句柄等信息通常需要通过多个独立的命令工具来获取。在没有部署如Prometheus这样的综合…...

Bufferevent and SSL

bufferevent可以使用OpenSSL库实现SSL/TLS安全传输层。因为很多应用不需要或者不想链接OpenSSL,这部分功能在单独的libevent_openssl库中实现。未来版本的libevent可能会添加其他SSL/TLS库,如NSS或者GnuTLS,但是当前只有OpenSSL。 OpenSSL功能…...

我要成为算法高手-位运算篇

目录 1. 判断字符是否唯一2. 消失的数字3. 两整数之和4. 只出现一次的数字II5. 消失的两个数字 前情提要:如果对一些常见的二进制位运算不熟悉,请看这篇文章: 常见的位运算 1. 判断字符是否唯一 面试题 01.01. 判定字符是否唯一 - 力扣&…...

分布式IO模块:智慧楼宇的“智慧眼”与“智慧手”

在现代化的城市建设中,智慧楼宇作为一种集成了建筑、通信、计算机和控制等多方面技术的新型建筑,正逐渐成为城市发展的重要驱动力。智慧楼宇不仅提高了建筑设备的运行效率,降低了能源消耗,还提供了更加安全、舒适和便捷的生活办公…...

嵌入式八股文

硬件 1.CPU、MPU、MCU、SOC联系与差别 Cpu是一台计算机的运算核心和控制核心。CPU由运算器、控制器和寄存器及实现它们之间联系的数据、控制及状态的总线构成。差不多所有的CPU的运作原理可分为四个阶 段:提取(Fetch)、解码(Dec…...

【IOS】Undefined symbol: _OBJC_CLASS_$_PAGFile

项目场景: flutter构建framework包,ios导入时,报PAG动画第三方库引用错误问题。 问题描述 Undefined symbol: _OBJC_CLASS_$_PAGFile Undefined symbol: _OBJC_CLASS_$_PAGPlayer Undefined symbol: _OBJC_CLASS_$_PAGSurface 1.第三方PAG…...

Spring Boot整合Tomcat底层源码分析

引言 Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置和起步依赖等特性,大大简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring…...

工具类-基于 axios 的 http 请求工具 Request

基于 axios 的 http 请求工具 基于 axios 实现一个 http 请求工具,支持设置请求缓存和取消 http 请求等功能 首先实现一个 简单的 http 请求工具 import axios, {AxiosError,AxiosInterceptorManager,AxiosRequestConfig,AxiosResponse, } from axios;// 接口返回…...

WPF的基础控件详解

WPF的基础控件详解 在WPF学习中 基本控件是最简单也是最基础的东西。也是很初学者容易忽略的 本此笔记教程主要针对WPF中基础控件使用和应用进行手把手教学,如果学习了此笔记对你有帮助记得一键三连哦~~~~ TextBlock 基本用法 长字串处理 LineBreak标籤在指定的地…...

qt学习:截图+键盘事件

效果 生成一个透明无边框全屏的窗口,然后按ctrlb键就可以选择区域进行截图保存 步骤 新建一个项目新建一个ctrlb类继承QMainWindow新建一个CaptureScreen类继承QWidget在main中启动ctrlb类 代码 ctrlb类.cpp #include "ctrlb.h" #include "cap…...

Scala中Arry

import scala.collection.mutable.ArrayBuffer //Arry:数组 //可修改的:ArryBuffer //不可修改的:Arryobject Test_1118_2 {//可修改的:ArrayBufferdef main(args: Array[String]): Unit {//1.新建val arr1ArrayBuffer(1,2,3)//2.添加arr14a…...

学习threejs,使用AnimationMixer实现变形动画

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.AnimationMixer 动画…...

两大新兴开发语言大比拼:Move PK Rust

了解 Move 和 Rust 的差异有助于开发者根据项目的具体需求选择最合适的语言。选择不恰当的语言可能会导致项目后期出现技术债务。不同语言有其独特的优势。了解 Move 和 Rust 的差异可以帮助开发者拓展技术视野,发现不同语言在不同领域的应用潜力。 咱们直奔主题&a…...

基于一种基于OCR图像识别技术的发票采集管理系统及方法

本发明涉及了一种基于OCR图像识别技术的发票采集管理系统及方法,该系统的发票信息采集单元采集发票图片信息数据,OCR图像识别单元基于OCR图像识别技术并结合人工智能深度学习算法对发票图片信息数据进行识别读取以获得OCR图像识别结果,发票信…...

基于深度学习的车牌检测系统的设计与实现(安卓、YOLOV、CRNNLPRNet)+文档

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…...

JavaWeb——JS、Vue

目录 1.JavaScript a.概述 b.引入方式 c.JS的基础语法 d.JS函数 e.JS对象 f.JS事件监听 2.Vue a.概述 b.Vue常用指令 d.生命周期 1.JavaScript a.概述 JavaScript是一门跨平台、面向对象的脚本语言。是用来控制网页行为的,它能使网页可交互。JavaScript和…...

Springboot 整合 Java DL4J 构建股票预测系统

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…...

ATmaga8单片机Pt100温度计源程序+Proteus仿真设计

目录 1、项目功能 2、仿真图 ​3、程序 资料下载地址:ATmaga8单片机Pt100温度计源程序Proteus仿真设计 1、项目功能 设计Pt100铂电阻测量温度的电路,温度测量范围是0-100摄氏度,要求LCD显示。画出电路图,标注元器件参数&am…...

5个环保主题HTML网页设计实战:从零到一构建绿色网站

1. 环保主题网页设计入门指南 第一次接触环保主题网页设计时,我盯着空白的编辑器整整半小时不知从何下手。直到看到某公益组织的网站,才发现原来绿叶图标和自然色系能瞬间传递环保理念。对于前端新手来说,这类主题最大的优势在于视觉元素明确…...

GHelper深度解析:重新定义华硕笔记本性能控制体验

GHelper深度解析:重新定义华硕笔记本性能控制体验 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地址: h…...

Linux 内核中的内存管理:从物理内存到虚拟内存

Linux 内核中的内存管理:从物理内存到虚拟内存 引言 作为一名深耕操作系统和嵌入式开发的工程师,我深知资源管理的重要性。在系统开发中,合理的资源管理可以提高系统的性能和可靠性。在 Linux 内核中,内存管理是一个核心组件&…...

Packet Tracer实战:交换机基础配置与常见问题排查

1. Packet Tracer与交换机配置入门 第一次接触网络设备配置的朋友可能会觉得交换机是个神秘的黑盒子。其实用Cisco Packet Tracer这个仿真工具,你完全可以在自己的电脑上搭建一个虚拟实验室。我刚开始学习时也是从这个工具入手的,它比真机操作更友好——…...

基于Python的线上学习资源智能推荐系统毕设

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Python的线上学习资源智能推荐系统,以实现个性化学习资源的精准推送。具体而言,研究目的可概括为以下几个方面&am…...

颠覆式突破限制:五大核心技术实现网盘下载加速革命

颠覆式突破限制:五大核心技术实现网盘下载加速革命 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广&#xf…...

达梦DCA认证必看:主从同步原理与ARCH_WAIT_APPLY参数深度实验

达梦DCA认证核心考点解析:主从同步机制与ARCH_WAIT_APPLY实战指南 1. 主从同步架构设计原理 达梦数据库的主从同步机制建立在MAL(Message Automatic Load)通信框架之上,这是实现高可用性的核心技术底座。通过Wireshark抓包分析可以…...

ABAQUS UMAT子程序实现应变梯度塑性理论模拟损伤和断裂的分析 (包含的文件如图所示,p...

ABAQUS UMAT子程序实现应变梯度塑性理论模拟损伤和断裂的分析 (包含的文件如图所示,pdf详细介绍子程序的内容,公式等)在金属材料的断裂分析中,传统本构模型经常遇到网格敏感性问题。五年前我第一次尝试用应变梯度理论解决这个问题时&#xff…...

OpenClaw局域网访问配置

根据OpenClaw最新官方文档(截至2026年3月),以下是更新后的局域网访问配置指南,整合了网络架构、安全加固和自动化配对等新特性:一、核心配置命令(基于新版网关协议)启用LAN多接口监听 使用新参数…...

如何用免费AI助手提升3倍编码效率?DeepSeek-Coder-V2全解析

如何用免费AI助手提升3倍编码效率?DeepSeek-Coder-V2全解析 【免费下载链接】DeepSeek-Coder-V2 项目地址: https://gitcode.com/GitHub_Trending/de/DeepSeek-Coder-V2 在AI编程工具层出不穷的今天,开发者面临着一个关键选择:是为商…...