当前位置: 首页 > news >正文

海量数据存储组件Hbase

hdfs

hbase

NoSQL数据库 支持海量数据的增删改查 基于Rowkey查询效率特别高

kudu

介于hdfs和hbase之间

hbase依赖hadoop+zookeeper,同时整合框架phoenix(擅长读写),hive(分析数据)

k,v 储存结构

稀疏的(为空的不存储)、分布式的、持久地、多维排序map-》映射:行键、列键、时间戳,未解释的(序列化的,存储效率高)

数据存储整体有序  列 、 列族 、 rowkey按字典序排序,然后将一个“表格”切分出一个Region,对应有rowkey的范围,每个Region的rowkey范围都不重叠。竖行切分store,按列族为单位进行。

 

 

 使用timestamp实现数据修改,version确认版本,操作类型type

namespace=database

cell唯一确定的单元

架构

master通过zookeeper管理region server,region server向zookeeper注册自己的信息

操作表格的命令是有master进行的,修改和删除

loadBalancer均衡负载器

预写日志处理器:容错机制

master backup server 高可用信息

hbase shell 常用命令: list_namespace

DDL:

create_namespace 'bigdata'

create 't1',  {NAME=>'F1',VERSION=>5}

           表名   列族 名             指定维护的时间戳版本数,例子中的版本数为5        

describe 't1'

alter 't1' ,'delete'=>'info1'  删除列族

删除表: disable 't1'       drop 't1'

DML:

插入数据: put 'bigdata:t1'         ,'r1'         ,'c1'                   ,'value'    ts1

                          '库名 :表名'   rowkey    列族:列名           列值   时间戳

读取数据:

get 一行数据  和scan 多行数据

scan 'bigdata:t1' {startrow=>'',stoprow=>''}

                            前开后闭

删除数据:

delete 删除一行数据,一个cell。 默认是删除给定时间戳之前的第一个遇到的时间戳的数据。实际是在插入一条delete记录。

delete all 删除所有版本的数据,即多个cell。

API

涉及java建造者 Builder模式: 命名空间建造者=》设计师

集成phoenix  针对hbase上面还没有数据,需要写入数据  不适合复杂SQL查询

开源hbase的sql皮肤  标准jdbc API 自带sql优化器 如谓词下推

phoenix的primarykey对应hbase的rowkey    官网查询语法,与sql类似

!table

 

已经存在于hbase的表,phoenix需要进行视图映射或表映射才能使用。

create view  drop view 只能看,无法操作数据

表映射可以修改删除数据

phoenix二级索引-将 全表扫描优化为范围扫描

默认 全局索引:专门创建一张索引表,给非rowkey列去做rowkey排序(如字典序)。写的时候需要写两张表,故适合多读少写的场景。

explain 查看执行计划

 

全局索引的局限,不能包含非索引字段

全局索引的补充:包含索引

 

 

本地索引

hbase参数优化:

zookeeper timeout优化 

rpc监听数量 :put、get

 

多个写缓存加起来大小大于40%

JVM调优

 并发垃圾回收:一边读写一边垃圾回收

 

 

 

 

集成hive 针对hbase上面已经存好数据,需要分析数据

hbase的数据其实也是存储在hdfs上面的

 HQL创建hbase表

 

load data 只是将数据上传到文件系统指定目录中,而insert into 才能把格式对应上,因为它要跑商计算程序(如mr);

 rowkey设计原则

TSDB 将时间戳加入rowkey中,增量抽取数据变化的部分

目的是让数据均匀地分布在region中,3中方法:

 

相关文章:

海量数据存储组件Hbase

hdfs hbase NoSQL数据库 支持海量数据的增删改查 基于Rowkey查询效率特别高 kudu 介于hdfs和hbase之间 hbase依赖hadoopzookeeper,同时整合框架phoenix(擅长读写),hive(分析数据) k,v 储存结构 稀疏的(为空的不存…...

(一)基于Spring Reactor框架响应式异步编程|道法术器

在执行程序时: 通常为了提供性能,处理器和编译器常常会对指令进行重排序。 从排序分为编译器重排序和处理器重排序两种 * (1)编译器重排序: 编译器保证不改变单线程执行结构的前提下,可以调整多线程语句执行顺序; * (2)处理器重排序: 如果不存在数据依赖…...

Vue3 让localstorage变响应式

Hook使用方式: import {useLocalStore} from "../js/hooks"const aauseLocalStore("aa",1) 需求一: 通过window.localStorage.setItem可以更改本地存储是,还可以更新aa的值 window.localStorage.setItem("aa&quo…...

【深度学习】InST,Inversion-Based Style Transfer with Diffusion Models,论文,风格迁移,实战

代码:https://github.com/zyxElsa/InST 论文:https://arxiv.org/abs/2211.13203 文章目录 AbstractIntroductionRelated WorkImage style transferText-to-image synthesisInversion of diffusion models MethodOverview ExperimentsComparison with Sty…...

【CSS】3D卡片效果

效果 index.html <!DOCTYPE html> <html><head><title> Document </title><link type"text/css" rel"styleSheet" href"index.css" /></head><body><div class"card"><img…...

OrderApplication

目录 1 OrderApplication 2 /// 查询订单 2.1.1 //补充商品单位 2.1.2 //补充门店名称 2.1.3 //补充门店名称 2.1.4 //订单售后 2.1.5 //订单项售后 OrderApplication...

如何在保健品行业运用IPD?

保健品是指能调节机体功能&#xff0c;不以治疗为目的&#xff0c;并且对人体不产生任何急性、亚急性或者慢性危害的产品。保健品是食品的一个种类&#xff0c;具有一般食品的共性&#xff0c;其含有一定量的功效成分&#xff0c;能调节人体的机能&#xff0c;具有特定的功效&a…...

Flink系列之:动态发现新增分区

Flink系列之&#xff1a;动态发现新增分区 一、动态发现新增分区二、Flink SQL动态发现新增分区三、Flink API动态发现新增分区 为了在不重新启动 Flink 作业的情况下处理主题扩展或主题创建等场景&#xff0c;可以将 Kafka 源配置为在提供的主题分区订阅模式下定期发现新分区。…...

eclipse版本与jdk版本对应关系

官网&#xff1a;Eclipse/Installation - Eclipsepedia eclipse历史版本&#xff08;2007-&#xff09;&#xff1a;Older Versions Of Eclipse - Eclipsepedia Eclipse Packaging Project (EPP) Releases | Eclipse Packages...

File类的学习

java.io.File类 文件和目录路径的抽象表达形式是一个与操作系统无关的类&#xff0c;任何一个操作系统都可以使用这个类中的方法 File.pathSeparator 文件路径分隔符&#xff0c;windows是分号&#xff0c;linux是&#xff1a; File.separator 文件名分隔符&#xff0c;window…...

Linux 操作系统 Red Hat Enterprise Linux 安装教程

文章目录 笔者的操作环境&#xff1a; 制作环境&#xff1a; Win32 Disk Imager 1.0.0 Windows 10 教育版 ISO&#xff1a; Red Hat Enterprise Linux 9.2 x86_64 Red Hat Enterprise Linux&#xff08;RHEL&#xff09;是一种 Linux 操作系统。安装此操作系统的难题在于&a…...

关于拓扑排序

又重新学了一下拓扑排序&#xff0c;这次发现就十分简单了&#xff0c;拓扑排序的步骤 1.他必须是一个有向无环图&#xff0c;起点我们就是入度为0的点 2.我们首先要输出的就是入度为0的点&#xff0c;然后依次删除这些点连向的点&#xff0c;使这些点的入度-1&#xff0c;如果…...

【C++】开源:Boost库常用组件配置使用

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍Boost库常用组件配置使用。 无专精则不能成&#xff0c;无涉猎则不能通。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xff0c…...

用python通过http实现文件传输,分为发送端和接收端

要使用Python通过HTTP实现文件传输&#xff0c;可以使用Python的 requests 库来发送和接收HTTP请求。以下是一个示例代码&#xff0c;其中包括发送端和接收端的实现。 发送端&#xff1a; import requestsdef send_file(file_path, url):with open(file_path, rb) as file:re…...

数据结构--图的遍历 DFS

数据结构–图的遍历 DFS 树的深度优先遍历 //树的先根遍历 void PreOrder(TreeNode *R) {if(R ! NULL){visit(R); //访问根节点while(R还有下一个子树T)PreOrder(T);//先根遍历下一棵子树} }图的深度优先遍历 bool visited [MAX_VERTEX_NUM]; //访问标记数组 void DFS(Grap…...

SpringBoot集成MyBatisPlus+MySQL(超详细)

前言 查看此文章前强烈建议先看这篇文章&#xff1a;Java江湖路 | 专栏目录 该文章纪录的是SpringBoot快速集成MyBatis Plus&#xff0c;每一步都有记录&#xff0c;争取每一位看该文章的小伙伴都能操作成功。达到自己想要的效果~ 文章目录 前言1、什么是MyBatisPlus2、Spring…...

一边是计算机就业哀鸿遍野,一边是高考生疯狂涌向计算机专业

在张雪峰推荐的几大专业里&#xff0c;计算机专业是其中之一。近几年&#xff0c;计算机专业报考热度不减&#xff0c;但就业前景却令人堪忧&#xff0c;互联网裁员接二连三&#xff0c;许多码农找不到工作。 一位网友感叹&#xff1a;一边是计算机就业哀鸿遍野&#xff0c;一…...

解决外部主机无法访问Docker容器的方法

使用Docker启动了一个tomcat容器&#xff0c;并做了端口映射&#xff0c;但是外部主机仍然无法访问。 编辑centos上的配置文件 vi /etc/sysctl.conf net.ipv4.ip_forward1 systemctl restart network保存以后即可生效&#xff0c;这个配置是开启linux的ip数据包转发功能&#…...

IDEA中修改类头的文档注释信息

IDEA中修改类头的文档注释信息 选择File--Settings--Editor--File and Code Templates--Includes&#xff0c;可以把文档注释写成这种的 /**author: Arbicoralcreate: ${YEAR}-${MONTH}-${DAY} ${TIME}Description: */这样回看就可以很清楚的看到自己创建脚本的时间&#xff…...

建模教程:如何利用3ds Max 和 After Effects 实现多通道渲染和后期合成

推荐&#xff1a; NSDT场景编辑器 助你快速搭建可二次开发的3D应用场景 1. 创建基本场景 步骤 1 打开 3ds Max。 打开 3ds Max。 步骤 2 我做了一个简单的场景。我放了三个 彼此之间有一定距离的物体。 制作对象 步骤 3 按 Ctrl-C 键 在透视视图中创建摄影机。 创建相机 …...

群晖7.2 Docker小白也能搞定:手把手教你部署WPS Office并绑定自己的域名

群晖7.2 Docker部署WPS Office全攻略&#xff1a;从零搭建专属云端办公平台 在数字化办公时代&#xff0c;拥有一个随时可访问的私有化办公套件不仅能提升团队协作效率&#xff0c;更能确保数据安全。本文将带你一步步在群晖NAS上通过Docker部署WPS Office&#xff0c;并绑定专…...

深入理解Java AQS:抽象队列同步器的核心原理与实战指南

深入理解Java AQS&#xff1a;抽象队列同步器的核心原理与实战指南 【免费下载链接】JavaGuide Java 面试 & 后端通用面试指南&#xff0c;覆盖计算机基础、数据库、分布式、高并发、系统设计与 AI 应用开发 项目地址: https://gitcode.com/gh_mirrors/ja/JavaGuide …...

GitHub加速完全指南:从诊断到优化的全方位解决方案

GitHub加速完全指南&#xff1a;从诊断到优化的全方位解决方案 【免费下载链接】gh-proxy github release、archive以及项目文件的加速项目 项目地址: https://gitcode.com/gh_mirrors/gh/gh-proxy GitHub作为全球最大的代码托管平台&#xff0c;其访问速度直接影响开发…...

别再只盯着芯片手册了!用CC6902SO搭建电流检测电路,这些实测数据和避坑经验更重要

别再只盯着芯片手册了&#xff01;用CC6902SO搭建电流检测电路&#xff0c;这些实测数据和避坑经验更重要 第一次用CC6902SO搭建电流检测电路时&#xff0c;我完全按照芯片手册推荐的电路设计&#xff0c;结果发现实际输出和理论值差了将近15%。这让我意识到&#xff0c;真正影…...

抽象推理终极指南:10个ARC经典案例解析助你掌握核心技巧

抽象推理终极指南&#xff1a;10个ARC经典案例解析助你掌握核心技巧 【免费下载链接】ARC-AGI The Abstraction and Reasoning Corpus 项目地址: https://gitcode.com/GitHub_Trending/ar/ARC-AGI 抽象与推理语料库&#xff08;ARC&#xff09;是一个专门用于评估通用人…...

5个简单步骤掌握LiteDB.Studio:免费开源的LiteDB数据库终极GUI管理工具

5个简单步骤掌握LiteDB.Studio&#xff1a;免费开源的LiteDB数据库终极GUI管理工具 【免费下载链接】LiteDB.Studio A GUI tool for viewing and editing documents for LiteDB v5 项目地址: https://gitcode.com/gh_mirrors/li/LiteDB.Studio 在当今数据驱动的软件开发…...

Qwen3-ASR-1.7B惊艳效果:自动识别中英文技术文档朗读中的公式/代码块

Qwen3-ASR-1.7B惊艳效果&#xff1a;自动识别中英文技术文档朗读中的公式/代码块 你有没有遇到过这样的场景&#xff1f;听一场技术分享的录音&#xff0c;讲师在讲解代码逻辑时&#xff0c;你一边听一边手忙脚乱地记录&#xff0c;生怕漏掉一个括号或一个变量名。或者&#x…...

Python 批量导出数据库数据至 Excel 文件

简介 langchain专门用于构建LLM大语言模型&#xff0c;其中提供了大量的prompt模板&#xff0c;和组件&#xff0c;通过chain(链)的方式将流程连接起来&#xff0c;操作简单&#xff0c;开发便捷。 环境配置 安装langchain框架 pip install langchain langchain-community 其中…...

3个核心功能让视频创作者轻松提取硬字幕

3个核心功能让视频创作者轻松提取硬字幕 【免费下载链接】video-subtitle-extractor 视频硬字幕提取&#xff0c;生成srt文件。无需申请第三方API&#xff0c;本地实现文本识别。基于深度学习的视频字幕提取框架&#xff0c;包含字幕区域检测、字幕内容提取。A GUI tool for ex…...

SiameseAOE模型多模态扩展探索:结合图像信息的属性抽取

SiameseAOE模型多模态扩展探索&#xff1a;结合图像信息的属性抽取 最近在做一个项目&#xff0c;需要从一堆产品说明书里自动提取技术参数。这些说明书五花八门&#xff0c;有的是纯文本PDF&#xff0c;有的则是图文混排&#xff0c;甚至有些关键参数就印在产品图片的标签上。…...