当前位置：首页 > news >正文

分布式文件系统HDFS

news 2026/4/24 6:40:25

一、HDFS简介

HDFS（ Hadoop Distributed File System ），意为：Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。
分布式文件系统解决大数据如何存储问题。分布式意味着是横跨在多台计算机上的存储系统。
HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据 (比如 TB 和 PB)。
HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。

二、HDFS设计目标

硬件故障（Hardware Failure）是常态， HDFS可能有成百上千的服务器组成，每一个组件都有可能出现故障。因此故障检测和自动快速恢复是HDFS的核心架构目标。
HDFS上的应用主要是以流式读取数据（Streaming Data Access）。HDFS被设计成用于批处理，而不是用户交互式的。相较于数据访问的反应时间，更注重数据访问的高吞吐量。
典型的HDFS文件大小是GB到TB的级别。所以，HDFS被调整成支持大文件（Large Data Sets）。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。
大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。
移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效。将计算移动到数据附近，比之将数据移动到应用所在显然更好。
HDFS被设计为可从一个平台轻松移植到另一个平台。这有助于将HDFS广泛用作大量应用程序的首选平台。

三、HDFS应用场景

四、HDFS重要特性

1. 主从架构

HDFS采用master/slave架构。一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是HDFS主节点，Datanode是HDFS从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。

2. 分块存储机制

HDFS中的文件在物理上是分块存储（block）的，块的大小可以通过配置参数来规定，参数位于hdfs-default.xml中：dfs.blocksize。默认大小是128M（134217728）。

3. 副本机制

文件的所有block都会有副本。每个文件的block大小（dfs.blocksize）和副本系数（dfs.replication）都是可配置的。副本系数可以在文件创建的时候指定，也可以在之后通过命令改变。
默认dfs.replication的值是3，也就是会额外再复制2份，连同本身总共3份副本。

4. namespace

HDFS支持传统的层次型文件组织结构。用户可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。
Namenode负责维护文件系统的namespace名称空间，任何对文件系统名称空间或属性的修改都将被Namenode记录下来。
HDFS会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。

5. 元数据管理

在HDFS中，Namenode管理的元数据具有两种类型：

文件自身属性信息：文件名称、权限，修改时间，文件大小，复制因子，数据块大小。
文件块位置映射信息：记录文件块和DataNode之间的映射信息，即哪个块位于哪个节点上。

6. 数据块存储

文件的各个block的具体存储管理由DataNode节点承担。每一个block都可以在多个DataNode上存储。

五、微博HDFS案例

1. HDFS Shell CLI客户端

命令行界面（英语：command-line interface，缩写：CLI）是指用户通过键盘输入指令，计算机接收到指令后，予以执行一种人际交互方式。
Hadoop提供了文件系统的shell命令行客户端，使用方法如下：

hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

SUBCOMMAND：Admin Commands、Client Commands、Daemon Commands。

跟文件系统读写使用相关的命令是 hdfs dfs [generic options]

说明

HDFS Shell CLI支持操作多种文件系统，包括本地文件系统（file:///）、分布式文件系统（hdfs://nn:8020）等
操作的是什么文件系统取决于URL中的前缀协议。
如果没有指定前缀，则将会读取环境变量中的fs.defaultFS属性，以该属性值作为默认文件系统

hdfs dfs -ls file:/// #操作本地文件系统

hdfs dfs -ls hdfs://node1:8020/ #操作HDFS分布式文件系统

hdfs dfs -ls / #直接根目录，没有指定协议将加载读取fs.defaultFS值

hadoop dfs、hdfs dfs、 hadoop fs 三者区别

hadoop dfs 只能操作HDFS文件系统（包括与Local FS间的操作），不过已经Deprecated
hdfs dfs 只能操作HDFS文件系统相关（包括与Local FS间的操作）,常用
hadoop fs 可操作任意文件系统，不仅仅是hdfs文件系统，使用范围更广

目前版本来看，官方最终推荐使用的是hadoop fs。当然hdfs dfs在市面上的使用也比较多。

HDFS文件系统的操作命令很多和Linux类似，因此学习成本相对较低。
可以通过hadoop fs -help命令来查看每个命令的详细用法。

2. 微博案例--HDFS Shell实操

微博用户数据HDFS操作

需求：微博作为社交平台，拥有大量的用户评论数据。为了更好的分析微博用户的行为和习惯，进行精准的营销和推荐。可以将微博的用户评论数据上传到HDFS，供后续其他大规模文本、情感分析程序来处理。因为HDFS作为分布式文件存储系统，是整个大数据平台的最底层的核心。

1）目录规划：

2）创建规划目录

命令：hadoop fs -mkdir [-p] <path> ...

path 为待创建的目录

-p选项的行为与Unix mkdir -p非常相似，它会沿着路径创建父目录。

hadoop fs -mkdir /common

hadoop fs -mkdir /workspace

hadoop fs -mkdir /tmp/

hadoop fs -mkdir /warehouse

hadoop fs -mkdir /source

3）查看指定目录下内容

命令：hadoop fs -ls [-h] [-R] [<path> ...]

path 指定目录路径

-h 人性化显示文件size

4）上传文件到指定目录下（1）

hadoop fs -put [-f] [-p] <localsrc> ... <dst>

-f 覆盖目标文件（已存在下）

-p 保留访问和修改时间，所有权和权限。

localsrc 本地文件系统（客户端所在机器）

dst 目标文件系统（HDFS）

hadoop fs -mkdir -p /source/weibo/star/comment_log/20190810_node1.itcast.cn/

hadoop fs -put caixukun.csv /source/weibo/star/comment_log/20190810_node1.itcast.cn

5）上传文件到指定目录下（2）

命令：hadoop fs -moveFromLocal <localsrc> ... <dst>

和-put功能意义，只不过上传结束，源数据会被删除

hadoop fs -moveFromLocal caixukun.csv /tmp/

6）查看HDFS文件内容（1）

hadoop fs -cat <src> ...

读取指定文件全部内容，显示在标准输出控制台。

注意：对于大文件内容读取，慎重。

hadoop fs -cat /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv

7）查看HDFS文件内容（2）

hadoop fs -head <file>

查看文件前1KB的内容。

hadoop fs -head /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv

8）查看HDFS文件内容（3）

hadoop fs -tail [-f] <file>

查看文件最后1KB的内容

-f选择可以动态显示文件中追加的内容。

hadoop fs -tail /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv

9）下载HDFS文件（1）

hadoop fs -get [-f] [-p] <src> ... <localdst>

下载文件到本地文件系统指定目录，localdst必须是目录

-f 覆盖目标文件（已存在下）

-p 保留访问和修改时间，所有权和权限

hadoop fs -get /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv ./

10）合并下载HDFS文件（2）

hadoop fs -getmerge [-nl] [-skip-empty-file] <src> <localdst>

下载多个文件合并到本地文件系统的一个文件中。

-nl选项表示在每个文件末尾添加换行符

11）拷贝HDFS文件

命令：hadoop fs -cp [-f] <src> ... <dst>

-f 覆盖目标文件（已存在下）

hadoop fs -mkdir -p /source/weibo/star/comment_log/20190811_node1.itcast.cn/

hadoop fs -cp /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv /source/weibo/star/comment_log/20190811_node1.itcast.cn/

12）追加数据到HDFS文件中

hadoop fs -appendToFile <localsrc> ... <dst>

将所有给定本地文件的内容追加到给定dst文件。

dst如果文件不存在，将创建该文件。

如果<localSrc>为-，则输入为从标准输入中读取。

hadoop fs -appendToFile caixukun_new.csv /source/weibo/star/comment_log/20190811_node1.itcast.cn/caixukun.csv

13）查看HDFS磁盘空间

hadoop fs -df [-h] [<path> ...]

显示文件系统的容量，可用空间和已用空间

14）查看HDFS文件使用的空间量

hadoop fs -du [-s] [-h] <path> ...

-s：表示显示指定路径文件长度的汇总摘要，而不是单个文件的摘要。

-h：选项将以“人类可读”的方式格式化文件大小

hadoop fs -du -s -h -v /source/weibo/

15）HDFS数据移动操作

hadoop fs -mv <src> ... <dst>

移动文件到指定文件夹下

可以使用该命令移动数据，重命名文件的名称

hadoop fs -mv /source/weibo/star/comment_log/20190810_node1.itcast.cn/caixukun.csv /tmp/caixukun_dirtydata.csv

16）修改HDFS文件副本个数

hadoop fs -setrep [-R] [-w] <rep> <path> ...

修改指定文件的副本个数。

-R表示递归修改文件夹下及其所有

-w 客户端是否等待副本修改完毕。

hadoop fs -setrep -w 2 /tmp/caixukun_dirtydata.csv

3. HDFS其他Shell命令操作

命令官方指导文档

Apache Hadoop 3.1.4 – Overview

友情提示

常见的操作自己最好能够记住，其他操作可以根据需要查询文档使用。

命令属于多用多会，孰能生巧，不用就忘。

分布式文件系统HDFS

一、HDFS简介 HDFS（ Hadoop Distributed File System ），意为：Hadoop分布式文件系统。是Apache Hadoop核心组件之一，作为大数据生态圈最底层的分布式存储服务而存在。分布式文件系统解决大数据如何存储问题。分布式意味…...

编程日记 2025/2/22 23:42:36

从WebRTC到EasyRTC：嵌入式适配的视频通话SDK实现低延迟、高稳定性音视频通信

WebRTC最初是为浏览器之间的实时通信设计的，其资源需求和复杂性可能对嵌入式设备的性能提出较高要求，因此在嵌入式系统中应用时面临一些挑战： 1）资源消耗较高 CPU和内存占用：WebRTC是一个功能强大的实时通信框架&…...

编程日记 2025/2/22 23:39:31

WordPress自定义排序插件：Simple Custom Post Order完全指南（SEO优化版）

在WordPress建站中，文章、分类目录或页面的默认排序方式往往无法满足个性化需求。WordPress自定义排序插件：Simple Custom Post Order插件，你可以轻松实现拖拽式自定义排序，无需修改代码即可优化内容展示逻辑。本文将详细介绍这款…...

编程日记 2025/2/22 23:37:25

docker安装ros2 并在windows中显示docker内ubuntu系统窗口并且vscode编程

这里包括docker desktop安装ros2 humble hawkshill , 安装xserver(用来在windows中显示ubuntu中窗口), vscode安装插件连接docker并配置python的一系列方法 1.安装xserver 为了能方便的在windows中显示ubuntu内的窗口,比如rqt窗口参考文章:https://www.cnblogs.com/larva-zhh…...

编程日记 2025/2/22 23:36:18

【QT中的一些高级数据结构，持续更新中...】

QT中有一些很精妙、便捷的设计，在了解这些数据的同时，我们可以学到如何更好的设计代码。本贴持续更新中，欢迎关注和收藏一 QScopedPointer主要特点：示例代码二 Q_DISABLE_COPY 一 QScopedPointer QScopedPointer 是 Qt 中的一种…...

编程日记 2025/2/22 23:34:13

简单工厂模式 (Simple Factory Pattern) 在Spring Boot 中的应用

简单工厂模式（Simple Factory Pattern）虽然不属于 GoF 23 种经典设计模式，但在实际开发中非常常用，尤其是在 Spring Boot 项目中。它提供了一种简单的方式来创建对象，将对象的创建逻辑集中到一个工厂类中。一、简单工…...

编程日记 2025/2/22 23:32:10

《95015网络安全应急响应分析报告（2024）》

2025年2月，95015服务平台发布了最新一期的《95015网络安全应急响应分析报告（2024）》。报告分别从整体形势、受害者特征、攻击者特征等方面，对2024年95015平台接报的739起网络安全应急响应事件展开分析，并给出了7个年度…...

编程日记 2025/2/22 23:31:09

TensorFlow v2.16 Overview

TensorFlow v2.16 Overview 一、模块 Modules二、类 Classes三、函数 Functions TensorFlow v2.16.1 Overview 一、模块 Modules 模块是TensorFlow中组织代码的一种方式，将相关的功能和类封装在一起，方便用户使用和管理。每个模块都提供了特定领域的公共…...

编程日记 2025/2/22 23:30:07

Udp发送和接收数据(python和QT)

服务端代码 (python) import socketdef udp_server(host0.0.0.0, port12345):# 创建一个UDP套接字sock socket.socket(socket.AF_INET, socket.SOCK_DGRAM)# 绑定服务器的IP地址和端口号sock.bind((host, port))print(f"UDP服务器已启动，监听端口 {port}...&…...

编程日记 2025/2/22 23:26:01

element-plus 根据条件显示多选框

代码如下： <el-table :data"pager.lists" selection-change"handleSelectionChange" row-key"id" :tree-props"{ checkStrictly: true }" :cell-class-name"cellClass"> <el-table-column type"s…...

编程日记 2025/2/22 23:23:56

Ubuntu 22.04 Install deepseek

前言 deepseekAI助手。它具有聊天机器人功能，可以与用户进行自然语言交互，回答问题、提供建议和帮助解决问题。DeepSeek 的特点包括： 强大的语言理解能力：能够理解和生成自然语言，与用户进行流畅的对话。多领域知识&…...

编程日记 2025/2/22 23:22:53

DeepSeek赋能智慧文旅：新一代解决方案，重构文旅发展的底层逻辑

DeepSeek作为一款前沿的人工智能大模型，凭借其强大的多模态理解、知识推理和内容生成能力，正在重构文旅产业的发展逻辑，推动行业从传统的经验驱动向数据驱动、从人力密集型向智能协同型转变。一、智能服务重构：打造全域感知的智…...

编程日记 2025/2/22 23:20:50

小程序的分包

1.分包的概念以及基本用法 2.在小程序项目里面添加自己的分包 3.给分包加上别名 4.查看分包体积大小 5.分包的打包原则 6.分包的引用原则 7.独立分包 8.分包的预下载...

编程日记 2025/2/22 23:18:47

RTSP场景下RTP协议详解及音视频打包全流程

RTSP场景下RTP协议详解及音视频打包全流程一、RTSP与RTP的关系 RTSP：负责媒体会话控制（DESCRIBE、SETUP、PLAY、PAUSE），通过SDP协商传输参数（端口、编码格式、封装模式）。RTP：实际传输音视频数…...

编程日记 2025/2/22 23:13:41

使用API有效率地管理Dynadot域名，为域名部署DNS安全拓展（DNSSEC）

关于Dynadot Dynadot是通过ICANN认证的域名注册商，自2002年成立以来，服务于全球108个国家和地区的客户，为数以万计的客户提供简洁，优惠，安全的域名注册以及管理服务。 Dynadot平台操作教程索引（包括域名邮…...

编程日记 2025/2/22 23:09:35

如何基于transformers库通过训练Qwen/DeepSeek模型的传统分类能力实现文本分类任务

文章目录模型与环境准备文档分析源码解读模型训练及推理方式进阶：CPU与显存的切换进阶：多卡数据并行训练🔑 DDP 训练过程核心步骤🚫 DDP 不适用于模型并行⚖️ DDP vs. Model Parallelism⚙️ 解决大模型训练的推荐方法🎉进入大模型应用与实战专栏 | 🚀查看更多专栏…...

编程日记 2025/2/22 23:07:30

开源一款I2C电机驱动扩展板-FreakStudio多米诺系列

总线直流电机扩展板原文链接： FreakStudio的博客摘要设计了一个I2C电机驱动板，通过I2C接口控制多个电机的转速和方向，支持刹车和减速功能。可连接16个扩展板，具有PWM输出、过流过热保护和可更换电机驱动芯片。支持按键控制…...

编程日记 2025/2/22 23:06:28

FFmpeg+WebSocket+JsMpeg实时视频流实现方案

之前写的使用FFmpeg Nginx HLS流媒体播放方案，适合对实时性要求不高的需求，存在延迟，FFmpeg需要将视频流存储到本地文件，而本次方案FFmpeg不需要将视频流存储到本地文件，而是直接将转换后的视频流（如MJPE…...

编程日记 2025/2/22 23:05:26

【Linux】Linux 文件系统—— 探讨软链接(symbolic link)

ℹ️大家好，我是练小杰，周五又到了，明天应该就是牛马的休息日了吧！！😆 前天我们详细介绍了硬链接的特点，现在继续探讨软链接的特点，并且后续将添加更多相关知识噢，谢谢…...

编程日记 2025/2/22 23:04:24

排序与算法：插入排序

执行效果插入排序的执行效果是这样的： 呃……看不懂吗？没关系，接着往下看介绍算法介绍插入排序（Insertion Sort）是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据&#xff0c…...

编程日记 2025/2/22 22:53:11

灵机一物AI原生电商小程序、PC端(已上线)-从 Vibe Coding 到 Wish Coding：AI 编程范式跃迁与蚂蚁灵光技术解读

摘要本文对比 Vibe Coding 与 Wish Coding 技术路径，解析蚂蚁灵光闪应用升级要点、灵光圈协作机制，探讨 Coding Agent 从开发者工具走向全民消费级产品的行业趋势。1. Vibe Coding 定位与边界1.1 核心逻辑- 面向：专业开发者- 入口&#xff1a…...

编程新知 2026/4/24 6:24:00

当AI阅读‘动物园怪谈’：用GPT-4分析规则矛盾与逻辑漏洞，我们能学到什么？

当AI阅读‘动物园怪谈’：用GPT-4分析规则矛盾与逻辑漏洞，我们能学到什么？ 深夜的实验室里，我将这份被称为"动物园怪谈"的诡异文档完整输入GPT-4的对话框。屏幕上跳动的光标仿佛在呼吸，等待AI给出它的解读。这…...

编程新知 2026/4/24 5:40:04

脐橙品质分级机的输送装置及单列化结构设计（说明书+cad图纸+Proe三维图形+答辩）

脐橙品质分级机的输送装置是整个分级流程的核心基础，其作用在于将待分级的脐橙平稳、有序地输送至分级区域。传统输送方式易出现脐橙堆积、碰撞等问题，影响分级精度。而优化后的输送装置采用特殊设计的传送带结构，通过调整传送带表面的摩擦系…...

编程新知 2026/4/24 5:07:14

MySQL 8.0.27安装卡在初始化？别急着重装，先检查这个中文路径/名称的坑

MySQL 8.0.27安装卡在初始化？中文路径/名称的排查与解决方案最近在Windows环境下安装MySQL 8.0.27时，不少开发者遇到了数据库初始化卡住或报错的问题。错误日志中出现的"瀛欎笉鍧?208-bin.index"这类乱码文件名，往往让新手感到困…...

编程新知 2026/4/24 4:37:10

React Router v6新特性全解析：现代化路由解决方案终极指南

React Router v6新特性全解析：现代化路由解决方案终极指南【免费下载链接】react-router Declarative routing for React 项目地址: https://gitcode.com/GitHub_Trending/re/react-router React Router 作为 React 生态中最受欢迎的路由库，在 v…...

编程新知 2026/4/24 4:16:39

代价敏感学习在分类不平衡问题中的应用与实践

1. 不平衡分类问题的现实挑战在信贷欺诈检测场景中，正常交易占比可能高达99.9%，而欺诈交易仅占0.1%。传统分类器即使将所有样本预测为正常，也能获得99.9%的准确率——这种表面上的高性能完全掩盖了模型在实际业务中的失效。这正是类别不平衡问…...

编程新知 2026/4/24 4:01:58

避开ns-3学习深坑：用sns3模块快速搭建GEO卫星通信仿真（附GitHub代码解读）

从零玩转卫星通信仿真：sns3模块极简上手指南第一次打开ns-3的文档时，我盯着满屏的C代码和复杂的拓扑配置参数，感觉像是面对一座需要徒手攀登的悬崖。直到发现了欧空局开发的sns3模块——这个专为卫星通信设计的仿真工具包，才让GE…...

编程新知 2026/4/24 3:57:55

RabbitMQ - 消息体大小优化：避免大消息的性能损耗

👋 大家好，欢迎来到我的技术博客！ 📚 在这里，我会分享学习笔记、实战经验与技术思考，力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕RabbitMQ这个话题展开，希望能为你带来一些启…...

编程新知 2026/4/24 3:31:04

Hugging Face开源AI生态：从入门到实战指南

1. 开源AI生态入门指南Hugging Face平台已经成为当代AI开发者不可或缺的工具箱。这个最初专注于自然语言处理的开源社区，如今已发展成为涵盖计算机视觉、语音识别、多模态模型的综合性AI资源中心。我第一次接触Hugging Face是在2019年处理一个文本分类项目时&#x…...

编程新知 2026/4/24 2:54:14

JetBrains IDE试用期重置终极指南：简单三步无限续杯

JetBrains IDE试用期重置终极指南：简单三步无限续杯【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 还在为JetBrains IDE试用期到期而烦恼吗？IDE Eval Resetter是解决这个问题的完美工具&a…...

编程新知 2026/4/24 2:07:19

一、HDFS简介

二、HDFS设计目标

三、HDFS应用场景

四、HDFS重要特性

1. 主从架构

2. 分块存储机制

3. 副本机制

4. namespace

5. 元数据管理

6. 数据块存储

五、微博HDFS案例

1. HDFS Shell CLI客户端

2. 微博案例--HDFS Shell实操

微博用户数据HDFS操作

1）目录规划：

2）创建规划目录

3）查看指定目录下内容

4）上传文件到指定目录下（1）

5）上传文件到指定目录下（2）

6）查看HDFS文件内容（1）

7）查看HDFS文件内容（2）

8）查看HDFS文件内容（3）

9）下载HDFS文件（1）

10）合并下载HDFS文件（2）

11）拷贝HDFS文件

12）追加数据到HDFS文件中

13）查看HDFS磁盘空间

14）查看HDFS文件使用的空间量

15）HDFS数据移动操作

16）修改HDFS文件副本个数

3. HDFS其他Shell命令操作

相关文章：