当前位置：首页 > news >正文

hadoop 常用命令

news 2025/10/27 20:00:30

hadoop 常用命令

hadoop fs -mkdir /test
hadoop fs -put /opt/frank/tb_test03.txt /test/
hadoop fs -ls /test/
hadoop fs -cat /test/tb_test03.txt
hadoop fs -rm /test/tb_test03.txt

hadoop dfs 也能使用、但不推荐，执行会提示：

DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

常看hdfs系统使用情况
hadoop fs -du -s -h /

Hive LOAD 语法

LOAD DATA [ LOCAL ] INPATH {file_path} [ OVERWRITE ] INTO TABLE { table_name } [ PARTITION(partition_colname1="val1", partition_colname2="val2",)... ];

LOAD 示例：
-- 从本地OS系统目录加载文件到Hive表
LOAD DATA LOCAL INPATH '/opt/frank/tb_test03.txt' INTO TABLE tb_test03;
LOAD DATA LOCAL INPATH '/opt/frank/tb_test03.txt' OVERWRITE INTO TABLE tb_test03;
LOAD DATA LOCAL INPATH '/opt/frank/tb_test04_pt.txt' OVERWRITE INTO TABLE tb_test04_pt PARTITION(pt="20240101");

-- 从HDFS系统目录加载文件到Hive表
hadoop fs -put /opt/frank/tb_test03.txt /test/
LOAD DATA INPATH '/test/tb_test03.txt' INTO TABLE tb_test03;

slave 节点查看 datanode 服务状态：
$ jps -v |grep DataNode
$ hadoop dfsadmin -report

slave 节点重启（停止、启动） datanode 服务：
$ ./sbin/hadoop-daemon.sh stop datanode
$ ./sbin/hadoop-daemon.sh start datanode

查看 HDFS 文件中系统的DFS使用情况：
$ hadoop fs -du -s -h /

垃圾清理（多次执行）：
$ hadoop fs -expunge

datanode 使用率占满&配置容量显示为0的问题【DFS Used%: 100.00% & Configured Capacity: 0 (0 B)】
$ hadoop dfsadmin -report
查看到使用率占满，显示：
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Configured Capacity: 0 (0 B)
Present Capacity: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used: 0 (0 B)
DFS Used%: NaN%
Under replicated blocks: 76125
Blocks with corrupt replicas: 0
Missing blocks: 76125
Missing blocks (with replication factor 1): 21993

-------------------------------------------------
Live datanodes (1):

Name: 192.168.1.188:50010 (hadoop01)
Hostname: hadoop01
Decommission Status : Normal
Configured Capacity: 0 (0 B)
DFS Used: 0 (0 B)
Non DFS Used: 0 (0 B)
DFS Remaining: 0 (0 B)
DFS Used%: 100.00%
DFS Remaining%: 0.00%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 0
Last contact: Mon Mar 25 17:02:43 CST 2024

配置容量显示为0了：
Configured Capacity: 0 (0 B)

尝试多种方法、最终原因是 slave 中配置的 datanode 节点 hostname 配置成了 localhost 而导致的问题。
vi salve 把配置的 datanode 主机名配置为 hadoop01 后，重启 datanode 服务，问题就解决了。

$ ./sbin/hadoop-daemon.sh stop datanode
$ ./sbin/hadoop-daemon.sh start datanode
$ hadoop dfsadmin -report
DEPRECATED: Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

Configured Capacity: 98337751040 (91.58 GB)
Present Capacity: 65340043264 (60.85 GB)
DFS Remaining: 61911707648 (57.66 GB)
DFS Used: 3428335616 (3.19 GB)
DFS Used%: 5.25%
Under replicated blocks: 73720
Blocks with corrupt replicas: 0
Missing blocks: 82
Missing blocks (with replication factor 1): 21993

-------------------------------------------------
Live datanodes (1):

Name: 192.168.1.188:50010 (hadoop01)
Hostname: hadoop01
Decommission Status : Normal
Configured Capacity: 98337751040 (91.58 GB)
DFS Used: 3428335616 (3.19 GB)
Non DFS Used: 32997707776 (30.73 GB)
DFS Remaining: 61911707648 (57.66 GB)
DFS Used%: 3.49%
DFS Remaining%: 62.96%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Mar 25 17:27:05 CST 2024

Hive建表和LOAD数据：

-- 普通表（TextFile存储格式）
drop table if exists testdb.tb_test03;
create table testdb.tb_test03 (
id int,
info string,
cnt bigint)
-- partitioned by (pt_sheng string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
STORED AS TextFile
-- STORED AS INPUTFORMAT
-- 'org.apache.hadoop.mapred.TextInputFormat'
-- OUTPUTFORMAT
-- 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'hdfs://192.168.1.188:9000/user/hive/warehouse/testdb.db/tb_test03'
;

-- hadoop fs -ls /user/hive/warehouse/testdb.db/tb_test03.txt

show tables;
show create table testdb.tb_test03;
select * from testdb.tb_test03;

-- 方法1：
$ echo '1,jack,95
2,frank,96
3,lucy,97
4,hack,99' > /opt/frank/tb_test03.txt

-- hiveSQL: load from Local OS dir
LOAD DATA LOCAL INPATH '/opt/frank/tb_test03.txt' OVERWRITE INTO TABLE tb_test03;

-- 方法2：
-- shell_cmd: 先拷贝到 hdfs, 再从 hdfs 路径 load
-- $ hadoop fs -rm /frank/tb_test03.txt
-- $ hadoop fs -put /opt/frank/tb_test03.txt /frank/
-- $ hadoop fs -cat /frank/tb_test03.txt
-- -- hiveSQL: load from HDFS FileSystem dir
-- LOAD DATA INPATH '/frank/tb_test03.txt' OVERWRITE INTO TABLE tb_test03;
select * from tb_test03;

-- load后会在配置文件决定的固定目录下产生一个表名对应的目录，目录下为对应的数据文件
$ hadoop fs -ls /user/hive/warehouse/testdb.db/tb_test03/

drop table if exists testdb.tb_test03;
create table testdb.tb_test03 (
id int,
info string,
cnt bigint)
-- partitioned by (pt_sheng string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
-- STORED AS TextFile
STORED AS TextFile
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'hdfs://192.168.1.188:9000/user/hive/warehouse/testdb.db/tb_test03'
;

show tables;
show create table testdb.tb_test03;
select * from testdb.tb_test03;

-- 分区表（TextFile存储格式）
drop table if exists testdb.tb_test04_pt;
create table testdb.tb_test04_pt (
id int,
info string,
cnt bigint)
PARTITIONED BY (pt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
STORED AS TextFile
LOCATION 'hdfs://192.168.1.188:9000/user/hive/warehouse/testdb.db/tb_test04_pt'
;

show tables;
show create table testdb.tb_test04_pt;
select * from testdb.tb_test04_pt;

echo '1,jack,95
2,frank,96
3,lucy,97
4,hack,99' > /opt/frank/tb_test04_pt.txt

LOAD DATA LOCAL INPATH '/opt/frank/tb_test04_pt.txt' OVERWRITE INTO TABLE tb_test04_pt PARTITION(pt="20240101");

如果创建 PARQUET 存储格式的表则指定 STORED AS PARQUET

hadoop 常用命令

hadoop 常用命令 hadoop fs -mkdir /test hadoop fs -put /opt/frank/tb_test03.txt /test/ hadoop fs -ls /test/ hadoop fs -cat /test/tb_test03.txt hadoop fs -rm /test/tb_test03.txt hadoop dfs 也能使用、但不推荐，执行会提示： DEPRECATED: Us…...

编程日记 2024/3/30 10:55:20

pdf在浏览器上无法正常加载的问题

一、背景觉得很有意思给大家分享一下。事情是这样的，开发给我反馈说，线上环境接口请求展示pdf异常，此时碰巧我前不久正好在ingress前加了一层nginx，恰逢此时内心五谷杂陈，思路第一时间便放在了改动项。捣鼓了好久无果…...

编程日记 2024/3/30 10:52:17

实时语音识别（Python+HTML实战）

项目下载地址：FunASR 1 安装库文件项目提示所需要下载的库文件：pip install -U funasr 和 pip install modelscope 运行过程中，我发现还需要下载以下库文件才能正常运行： 下载：pip install websockets，pi…...

编程日记 2024/3/30 10:50:15

x86_64 ubuntu22.04编译MetaRTC

metaRTC5.0 API https://github.com/metartc/metaRTC/wiki/metaRTC5.0-API Sample https://github.com/metartc/metaRTC/wiki/metaRTC5.0-API-Sample MetaRTC7.0编译 https://github.com/metartc/metaRTC/wiki/Here-we-come,-write-a-C-version-of-webRTC-that-runs-everywhere…...

编程日记 2024/3/30 10:49:14

FreeRTOS day1

1.总结keil5下载代码和编译代码需要注意的事项需要与板子连通配置完成后才点击下载 2.总结STM32Cubemx的使用方法和需要注意的事项下载支持包打开芯片配置界面 3.总结STM32Cubemx配置GPIO的方法...

编程日记 2024/3/30 10:44:10

SqlSugar快速入门

文章目录配置SqlSugar0、引入SqlSugarCore包1、编写Context类2、配置实体类3、创建Service服务类进行数据库的CRUD4、配置Controller进行路由配置SqlSugar 0、引入SqlSugarCore包 1、编写Context类 public static SqlSugarClient db new SqlSugarClient(new ConnectionCon…...

编程日记 2024/3/30 10:43:09

基于el-table实现行内增删改

实现效果： 核心代码： <el-table :data"items"style"width: 100%;margin-top: 16px"border:key"randomKey"><el-table-column label"计划名称"property"name"><template slot-scope&q…...

编程日记 2024/3/30 10:42:08

《霍格沃茨之遗》推荐购买吗《霍格沃茨之遗》不支持Mac电脑怎么办 crossover24软件值得买吗 crossover中文官网

《霍格沃茨之遗》作为一款期待已久的游戏，自发布以来就吸引了无数玩家的目光。它以哈利波特系列为背景，提供了一个沉浸式的魔法世界体验，让玩家能够探索广阔的霍格沃茨魔法学校，体验魔法学习与战斗，解开古老谜团的乐趣…...

编程日记 2024/3/30 10:41:07

神经网络代码实现（用手写数字识别数据集实验）

目录一、前言二、神经网络架构三、算法实现 1、导入包 2、实现类 3、训练函数 4、权重参数矩阵初始化 5、参数矩阵变换向量 6、向量变换权重参数矩阵 7、进行梯度下降 7.1、损失函数 7.1.1、前向传播 7.2、反向传播 8、预测函数四、完整代码五、手写数字识别一、前言 …...

编程日记 2024/3/30 10:40:06

菜鸟笔记-Python函数-linspace

linspace 是 NumPy 库中的一个函数，用于生成具有指定数量的等间距样本的数组。它的名字来源于“linear space”（线性空间），因为它在指定的范围内均匀地生成数值。 linspace 函数的基本语法如下： numpy.linspace(star…...

编程日记 2024/3/30 10:39:05

为什么我们应该使用QGIS

QGIS地理信息系统是免费的开源软件，已成为创建地图和分析空间数据的强大工具。在本文中，我们将探讨 QGIS 为地图公司带来的诸多好处，以及为什么使用它可以促进您的业务成功。使用QGIS的好处： 1. 免费开源软件，但从长远…...

编程日记 2024/3/30 10:38:04

用Python实现办公自动化（自动化处理Excel工作簿）

自动化处理Excel工作簿 （一）批量生产产品出货清单以“出货统计表”为例， 需求：将出货记录按照出货日期分类整理成多张出货清单 “出货统计表数据案例” “产品出货清单模板” 1.提取出货统计表的数据 “Python程序代码” # 使用…...

编程日记 2024/3/30 10:37:03

BaseDao入门使用

目录一、什么是BaseDao?BaseDao的优点：BaseDao用来做什么操作？ 二、BaseDao封装增删改查案例演示：1、java与数据库进行连接2、连接后可对其进行操作（增、删、改）返回影响行数3、查询查询一个字段（返回一…...

编程日记 2024/3/30 10:32:59

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统高考数据分析高考可视化高考大数据大数据毕业设计机器学习深度学习人工智能

学院（全称）： 专业（全称）： 姓名学号年级班级设计（论文） 题目基于Spark的高考志愿推荐系统设计与实现指导教师姓名职称拟…...

编程日记 2024/3/30 10:31:58

基于java+springboot+vue实现的电商个性化推荐系统（文末源码+Lw+ppt）23-389

摘要伴随着我国社会的发展，人民生活质量日益提高。于是对电商个性化推荐进行规范而严格是十分有必要的，所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套电商个性化推荐系统，帮…...

编程日记 2024/3/30 10:30:57

论文阅读，The Lattice Boltzmann Method: Principles and Practice（六）(1)

目录一、流体模拟方法概述二、传统的Navier-Stokes求解器 2.1 有限差分 2.2 有限体积法 2.3 有限元法三、基于粒子的求解器 3.1 动力学理论 3.2 分子动力学 3.3 格子气体模型 3.4 耗散粒子动力学 3.5 多粒子碰撞动力学 3.6 直接模拟蒙特卡罗方法 3.7 平滑粒子流…...

编程日记 2024/3/30 10:29:56

新能源充电桩站场视频汇聚系统建设方案及技术特点分析

随着新能源汽车的普及，充电桩作为新能源汽车的基础设施，其安全性和可靠性越来越受到人们的关注。为了更好地保障充电桩的安全运行与站场管理，TSINGSEE青犀&触角云推出了一套新能源汽车充电桩视频汇聚管理与视频监控方案。方案采用高清摄…...

编程日记 2024/3/30 10:28:55

三、音频隐写[Audacity、deepsound、dtmf2num、MMSSTV、虚拟声卡、MP3Stego]

工具 1.Audacity 下载：https://www.audacityteam.org/download/windows/ 使用： 删除：先用左键长按拖着选中内容，然后选择软件最上方菜单栏的编辑，然后选择“删除”，最后点击文件的导出音频就能成功导出…...

编程日记 2024/3/30 10:27:54

二、Web3 学习（区块链）

区块链基础知识一、基础知识1. 区块链可以做什么？2. 区块链的三个特点二、区块链的类型概括1. PoW2. PoS3. 私有链和联盟链三、智能合约1. 什么是智能合约2. 如何使用智能合约四、困境1. 三难选择的基本要素2. 这真的是一个三难选择吗? 五、比特币1. 什么是比特…...

编程日记 2024/3/30 10:21:49

Linux内网提权

一、SUID提权前提条件： （1）SUID仅对二进制有效（2）执行者对于该程序需要有x的可执行权限（3）本权限仅在程序的执行过程中有效 1、设置SUID权限：（root权限） …...

编程日记 2024/3/30 10:16:45

椭圆曲线密码学(ECC)

一、ECC算法概述椭圆曲线密码学（Elliptic Curve Cryptography）是基于椭圆曲线数学理论的公钥密码系统，由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA，ECC在相同安全强度下密钥更短（256位ECC ≈ 3072位RSA…...

编程新知 2025/10/1 22:26:06

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现题目链接：3577. Count the Number of Computer Unlocking Permutations 1. 解题思路这一题其实就是一个脑筋急转弯，要想要能够将所有的电脑解锁&#x…...

编程新知 2025/10/19 0:02:23

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2025/10/20 17:54:14

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

摘要本论文旨在设计并实现基于 SpringBoot 和 uniapp 的 Champion 俱乐部微信小程序，以满足俱乐部线上活动推广、会员管理、社交互动等需求。通过 SpringBoot 搭建后端服务，提供稳定高效的数据处理与业务逻辑支持；利用 uniapp 实现跨平台前…...

编程新知 2025/10/27 3:49:19

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码五、报告文件爬取5.1 提…...

编程新知 2025/10/19 15:58:29

基于Java+MySQL实现（GUI）客户管理系统

客户资料管理系统的设计与实现第一章需求分析 1.1 需求总体介绍本项目为了方便维护客户信息为了方便维护客户信息，对客户进行统一管理，可以把所有客户信息录入系统，进行维护和统计功能。可通过文件的方式保存相关录入数据，对…...

编程新知 2025/10/27 4:40:22

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2025/10/26 17:42:47

A2A JS SDK 完整教程：快速入门指南

目录什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库&#xff…...

编程新知 2025/9/29 5:00:25

MySQL JOIN 表过多的优化思路

当 MySQL 查询涉及大量表 JOIN 时，性能会显著下降。以下是优化思路和简易实现方法： 一、核心优化思路减少 JOIN 数量数据冗余：添加必要的冗余字段（如订单表直接存储用户名）合并表：将频繁关联的小表合并成…...

编程新知 2025/10/17 22:08:13

Kafka主题运维全指南：从基础配置到故障处理

#作者：张桐瑞文章目录主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1：主题删除失败。常见错误2：__consumer_offsets占用太多的磁盘。主题日常管理 …...

编程新知 2025/6/10 21:14:43

相关文章：