当前位置：首页 > news >正文

大数据课程G1——Hbase的概述

news 2026/4/11 11:40:37

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解HIve的概念；

⚪ 了解HIve与数据库的区别；

⚪ 了解HIve的特点；

一、简介

1. 概述

1. HBase原本是由Yahoo!公司开发后来贡献给了Apache的一套开源的、基于Hadoop的、分布式的、可扩展的、非关系型数据库。

2. 如果需要对大量数据进行随机且实时读写，那么可以考虑使用HBase。

3. HBase能够管理非常大的表：billions of rows * millions of columns。

4. HBase是仿照Google的Big Table来进行实现的，因此，HBase和BigTable的原理几乎一致，只有实现语言不同。HBase是使用Java语言实现的，BigTable使用的是C语言实现的 - HBase最终将数据落地到HDFS上。

5. HBase提供了2个大版本，并且2个版本都在同时更新。其中，Hadoop3.1.3版本支持的是HBase2.2.X及以上版本。

6. HBase作为非关系型数据库，不支持标准的SQL语法，提供了一套全新的命令。

7. HBase能够存储稀疏类型的数据，也因此HBase能够存储结构化(数据本身有结构，经过解析之后，能够用传统数据库中的一个或者几个表来存储)和半结构化数据(数据本身有结构，但是解析之后无法用传统数据库中的表来存储)。

8. HBase本身作为数据库，提供了完整的增删改查的功能。HBase基于HDFS来进行存储，HDFS的特点是允许一次写入多次读取，不允许修改而允许追加写入，但是HBase提供了"改"功能，HBase如何实现"改"功能的？- HBase实际上并没有去修改写入的数据，而是在文件末尾去追加数据。HBase会对写入的每条数据自动添加一个时间戳，当用户获取数据的时候，HBase自动返回最新的数据，那么从用户角度来看，就是发生了数据的修改。

9. 在HBase中，数据的每一个时间戳称之为是一个版本。

10. 如果要锁定唯一的一条数据，那么需要通过行键+列族+列+时间戳这四个维度来锁定，这种结构称之为是一个Cell(单元格)。

11. HBase中的表在创建的时候，如果不指定，那么只对外提供一个版本的数据。

12. 如果建好表之后再修改可以获取的版本，那么已经添加的数据不起作用。

13. 即使表允许对外获取多个版本的数据，在获取的时候如果不指定，依然只获取一个版本的数据。

2. 基本概念

1. Rowkey：行键

a. 在HBase中没有主键的概念，取而代之的是行键。

b. 不同于传统的关系型数据库，在HBase中，定义表的时候不需要指定行键列，而是在添加数据的时候来手动添加行键。

c. HBase默认会对行键来进行排序，按照字典序排序。

2. Column Family：列族/列簇

a. 在HBase中，没有表关联的概念，取而代之的是用列族来进行设计。

b. 在HBase中，一个表中至少要包含1个列族，可以包含多个列族，理论上不限制列族的数量。

c. 在HBase中强调列族，但是不强调列 - 在定义表的时候必须定义列族，但是列可以动态增删，一个列族中可以包含0到多个列。

3. namespace：名称空间

a. 在HBase中没有database的概念，取而代之的是namespace。

b. 在HBase启动的时候，自带了两个空间：default和hbase。hbase空间下放的是HBase的基本信息；在建表的时候如果不指定，则表默认是放在default空间下。

3. 基本命令

命令	解释
processlist	查看当前HBase在执行的任务
status	查看HBase的运行状态
version	查看HBase的版本
whoami	查看HBase的当前用户
create 'person', {NAME => 'basic'}, {NAME => 'info'}, {NAME => 'other'} 或者 create 'person', 'basic', 'info', 'other'	建立一个person表，包含3个列族:basic，info，other
append 'person', 'p1', 'basic:name', 'Bob'	在person表中添加一个行键为p1的数据，向basic列族的name列中添加数据
get 'person', 'p1'	获取指定行键的数据
get 'person', 'p1', {COLUMN => 'basic'} 或者 get 'person', 'p1', 'basic'	获取指定行键指定列族的数据
get 'person', 'p1', {COLUMN => ['basic', 'info']} 或者 get 'person', 'p1', 'basic', 'info'	获取指定行键多列族的数据
get 'person', 'p1', {COLUMN => 'basic:name'} 或者 get 'person', 'p1', 'basic:name'	获取指定行键指定列的数据
scan 'person'	扫描整表
scan 'person', {COLUMNS => 'basic'}	获取指定列族的数据
scan 'person', {COLUMNS => ['basic', 'info']}	获取多列族的数据
scan 'person', {COLUMNS => ['basic:name', 'other:address']}	获取多个列的数据
put 'person', 'p1', 'basic:age', 20	修改数据
delete 'person', 'p1', 'other:adderss' 或者 deleteall 'person', 'pb', 'basic:name'	删除指定行键指定列族的指定列
deleteall 'person', 'p1'	删除指定行键的所有数据
create 'students', {NAME => 'basic', VERSIONS => 3}, {NAME => 'info', VERSIONS => 4}	指定每一个列族允许对外获取的版本数量
desc 'students' 或者 describe 'students'	描述表
get 'students', 's1', {COLUMN => 'basic:age', VERSIONS => 3}	获取指定行键指定列的指定数量版本的数据
scan 'students', {COLUMNS => 'basic:age', VERSIONS => 3}	获取指定列的指定数量版本的数据
count 'person'	统计person表中行键的个数
get_splits 'person'	获取person表对应的HRegion的个数
truncate 'person'	摧毁重建person表
list_namespace	查看所有的空间
create_namespace 'demo'	创建demo空间
create 'demo:users', 'basic'	在demo空间下创建users表
list_namespace_tables 'demo'	获取demo空间下的所有表
describe_namespace 'demo'	描述demo空间
drop_namespace 'demo'	删除demo空间，要求这个空间为空
disable 'demo:users'	禁用表
drop 'demo:users'	删除表
enable 'person'	启用表
exists 'users'	判断表是否存在
is_disabled 'person'	判断person表是否被禁用
is_enabled 'person'	判断person表是否被启用
list	查看所有空间下的所有的表
locate_region 'person', 'p1'	定位p1行键所在的HRegion的位置
show_filters	展现所有的过滤器
disable_all 'demo:.*'	禁用demo空间下的所有的表
drop_all 'demo.*'	删除demo空间下的所有的表
enable_all 'demo:.*'	启用demo空间下的所有的表

4. Hive和HBase的比较

1. Hive本质上是一个用于进行数据仓库管理的工具，在实际过程中经常用于对数据进行分析和清洗，提供了相对标准的SQL结构，底层会将SQL转化为MapReduce来执行，因此Hive的效率相对较低，更适合于离线开发的场景。Hive一般针对历史数据进行分析，一般只提供增加和查询的能力，一般不会提供修改和删除的功能。

2. HBase本质上是一个非关系型数据库，在实际过程中，用于存储数据。因为HBase的读写效率较高，吞吐量较大，因此一般使用HBase来存储实时的数据，最终数据会落地到HDFS上。HBase作为数据库，提供了完整的增删改查的能力，但是相对而言，HBase的事务能力较弱。HBase不支持SQL，提供了一套完整的命令。

3. 总结：Hive强调的是分析能力，但是HBase强调的是存储能力，相同的地方在于两者都是利用HDFS来存储数据。

二、安装

1. 硬件环境：至少需要3台虚拟机或者云主机，Centos7.5及以上版本，至少需要双核，至少4G内存+20G磁盘。

2. 软件环境：JDK1.8+Zookeeper3.5.7+Hadoop3.1.3。

3. 进入/home/software目录下。

cd /home/software

4. 上传或者下载HBase的安装包，云主机的下载地址。

wget http://bj-yzjd.ufile.cn-north-02.ucloud.cn/hbase-2.4.2-bin.tar.gz

5. 解压。

tar -xvf hbase-2.4.2-bin.tar.gz

6. 进入HBase的配置目录

cd hbase-2.4.2/conf

7. 编辑文件。

vim hbase-env.sh

#添加如下属性

export JAVA_HOME=/home/software/jdk1.8

export HBASE_MANAGES_ZK=false

#保存退出，重新生效

source hbase-env.sh

8. 编辑文件。

vim hbase-site.xml

#添加如下内容

<name>hbase.rootdir</name>

<value>hdfs://hadoop01:9000/hbase</value>

</property>

<name>hbase.cluster.distributed</name>

</property>

<name>hbase.zookeeper.quorum</name>

<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value>

</property>

<name>hbase.unsafe.stream.capability.enforce</name>

<value>false</value>

</property>

<name>hbase.wal.provider</name>

<value>filesystem</value>

</property>

9. 编辑文件。

vim regionservers

#添加当前的三台主机的主机名

10. 需要将Hadoop的核心配置文件拷贝到当前的HBase的配置目录下。

cp /home/software/hadoop-3.1.3/etc/hadoop/core-site.xml ./

11. 回到software目录下，远程拷贝给另外两台云主机。

cd /home/software/

scp -r hbase-2.4.2 root@hadoop02:$PWD

scp -r hbase-2.4.2 root@hadoop03:$PWD

12. 配置三台主机的环境变量。

vim /etc/profile

#在文件末尾添加

export HBASE_HOME=/home/software/hbase-2.4.2

export PATH=$PATH:$HBASE_HOME/bin

#保存退出，重新生效

source /etc/profile

13. 启动Zookeeper。

cd /home/software/apache-zookeeper-3.5.7-bin/bin

sh zkServer.sh start

sh zkServer.sh status

14. 在第一台主机上启动Hadoop的HDFS。

start-dfs.sh

15. 在第一台主机上启动HBase。

start-hbase.sh

16. 可以通过IP:16010来访问HBase的界面。

大数据课程G1——Hbase的概述

▲ 本章节目的

一、简介

1. 概述

2. 基本概念

3. 基本命令

4. Hive和HBase的比较

二、安装

相关文章：

大数据课程G1——Hbase的概述

第三章图论 No.2单源最短路之虚拟源点，状压最短路与最短路次短路条数

汉诺塔问题

Java on Azure Tooling 6月更新｜标准消费和专用计划及本地存储账户（Azurite）支持

Prometheus(八)-网络嗅探-黑盒监控

modbus TCP 通信测试

GDB Debug

【项目流程】前端项目的开发流程

JS监听浏览器关闭、刷新及切换标签页触发事件

Unity 引擎做残影效果——3、顶点偏移方式

【Linux】权限

Excel导入日期格式时自动转为五位数文本

Mac使用brew安装软件报错

Android 实现MQTT客户端，用于门禁消息推送

跨境电商的广告推广怎么做？7个方法

《Java-SE-第二十八章》之CAS

git之reflog分析

《吐血整理》进阶系列教程-拿捏Fiddler抓包教程(18)-Fiddler如何接口测试，妈妈再也不担心我不会接口测试了

Oracle open JDK和 Amazon Corretto JDK的区别

Spark写PGSQL分区表

deepin系统更换镜像源

Qwen3-VL-4B Pro应用场景：电商商品识别、学习资料解读，真实案例分享

如何在不安装Steam的情况下获取创意工坊模组

告别杂音！利用ES7210阵列麦克风提升RK3288设备录音质量的实战优化

如何快速掌握Node.js MySQL驱动：纯JavaScript实现的终极指南

DeepSeek-OCR-2参数详解：--max_pages --batch_size --conf_threshold 高级调优指南

Qwen3-ASR-1.7B在Windows下的WSL2部署教程

告别复杂配置：用Chainlit前端5分钟体验Qwen3-14B文本生成

告别代码移植烦恼：STM32CubeMX 6.4.0 + STM32F407ZGT6 + YT8512C PHY芯片的LWIP网络配置全攻略

Emscripten构建优化指南：针对不同目标平台的终极优化策略