当前位置：首页 > news >正文

大数据Hadoop入门1

news 2026/5/13 8:58:01

目录

相关资料

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

9.VMware虚拟机常规使用、快照

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

6.Apache Hadoop安装部署--服务器基础环境设置

7.Apache Hadoop安装部署--安装包结构

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

9.Apache Hadoop安装部署--format初始化操作

10.Apache Hadoop安装部署--集群启停命令、web UI页面

11.Apache Hadoop安装部署--初体验

12.传统文件系统在大数据时代面临的挑战

13.场景互动：分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

16.HDFS shell命令行解释说明

17.HDFS shell命令行常用操作

18.HDFS工作流程与机制--各角色职责介绍与梳理

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

20.HDFS工作流程与机制--写数据流畅--梳理

相关资料

教程资源: https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666
本套视频笔记：https://upward.blog.csdn.net/article/details/129232552

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

课程配置了三台虚拟和大数据相关软件

安装虚拟机的时候会随机生成一个网段

但课程资料提供的都是88网段

第二步修改Windows本地的网卡

后面需要通过Windows笔记本去访问各个虚拟机

如果网站不在一个网段，则无法访问

这样我们的虚拟机和本地都处于88网段

双击后就会自动被我们的虚拟机打开

ifconfig

ping

9.VMware虚拟机常规使用、快照

本课程使用的node1是4G，node2和3都是2G

挂起就是关机再开机的时候，会恢复到我们挂起的状态

本课程提供了三种快照，如果不想安装，可直接点击使用

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

灰色大框是一个个计算机，彩色小框是一个个进程

6.Apache Hadoop安装部署--服务器基础环境设置

快照1就包含基础环境

快照1已经使用vim编辑好了，下面用cat命令查看一下

用cat查看主机名

但一个个查看很麻烦

在任一机器下点击底栏

这里就可以给所有机器发送这个命令

正常情况下一台机器访问另外一台机器是需要密码的

后面涉及到一些的集群启动，我们可以直接免密操作

这里已经配置好了，下面做一个验证

ssh到我们的node1上，没有问题，然后退出

ssh到我们的node2上，没有问题，然后退出

ssh到我们的node3上，没有问题，然后退出

下面这个是阿里云的授时同步

这个命令要保持网络的通畅

这里我们也已经设置好

hadoop是Java写的，Java需要jdk提供相关的支撑

将jdk拖拽到server下

安装好以后就可以删除这个安装包

下面去配置环境变量

我们在配置文件的最后加上下面三行

这里主要配置Java home ，Java安装包的路径等信息

保存好后就重新加载一下环境变量

验证Java是否安装成功

上面只是在node1机器上安装成功

下面是scp远程拷贝到其它机器

我们的环境变量同样需要拷贝

之后对三台机器同时做一个source命令

7.Apache Hadoop安装部署--安装包结构

我们在第一天机器上进行配置然后拷贝到其它机器上

将hadoop安装包拷贝到server下

解压

删除安装包

下面cd进去看一下hadoop安装包的内容

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

这里的配置主要说明Java的地址和各个进程运行的一个用户名

我们先到hadoop目录下

在文件的最后复制粘贴一下

我们将上面的core-site.xml放到configuration之间

上面的两个对内存限制在企业中可以去掉

删除原先的localhost

上面只完成了一台机器的配置

下面我们在三台机器输入hadoop

看能否正确识别

三台机器都显示了hadoop命令，成功

9.Apache Hadoop安装部署--format初始化操作

出现下面这个就是

成功了

10.Apache Hadoop安装部署--集群启停命令、web UI页面

下面继续打开第二和三台机器

上面我们HDFS集群就启动成功了

下面继续启动YARN集群

点击这里就会来到HDFS文件系统

11.Apache Hadoop安装部署--初体验

这个命令跟Linux命令比较相似

可以发现HDFS文件系统和Linux文件系统蛮像的

我们可以上传一个文件

我们再生成一个小文件，然后上传

除了使用命令

也可以在web页面进行操作

下面计算圆周率

下面这个就是计算结果

我们新建一个目录，然后将文件传过去

下面使用MapReduce去统计单词个数

12.传统文件系统在大数据时代面临的挑战

13.场景互动：分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

这个 rack 代表机架。机柜在机房中，是一排排的机架机柜。机架 1 上有三个 DataNode，机架 2 上有两个，整体架构为一个主角色带领五个从角色的主从架构。数据底层是分块存储的，块为 Block，第三个块与块之间有副本备份（Replication），属于冗余存储。NameNode 记录元数据（matadata），如名字、备份副本数等。底层的 DataNode 专门存储数据块。

这里的size是文件本身大小，block_size就是数据块的大小

16.HDFS shell命令行解释说明

上面就是查看本地文件系统

其中文件并不在hdfs文件系统在

可以发现本地系统的根目录下就是我们的文件

==================================================================================================================================================

下面我们查看的就是HDFS系统的根目录

==================================================================================================================================================

如果我们什么都不加，默认就是HDFS的根目录

这个默认访问

取决fs_defaultFS参数

我们之前就配置好了

17.HDFS shell命令行常用操作

这里我们上传一个文件

人性化体现在红框中

本地就是执行命令的那台机器

如果在node1机器执行put，本地机器就是node1

如果在node2机器执行put，本地机器就是node2

但很多时候我们都是第一种写法

其它的查看命令比如tail

下面是简化写法

新创建三个文件

将其上传到hadoop

下面就是追加合并

将我们的文件内容追加到已经存在文件末尾

我们在企业中的小文件合并会用到上面的命令

18.HDFS工作流程与机制--各角色职责介绍与梳理

namenode放在内存中，因为内存交互速度快，但断电就消失了

所以使用磁盘进行持久化存储

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

上面就是我们的线性传输，管道式方法传输

下面的红线就是拓扑式传输

20.HDFS工作流程与机制--写数据流畅--梳理

相关文章：

大数据Hadoop入门1

目录相关资料第一部分 1.课程内容大纲和学习目标 2.数据分析和企业数据分析方向 3.数据分析基本流程步骤 4.大数据时代 5.分布式和集群 6.Linux操作系统概述 7.VMware虚拟机概念与安装 8.centos操作系统的虚拟机导入 9.VMware虚拟机常规使用、快照第二部分 1.课…...

编程日记 2025/1/30 18:47:40

《智能家居“孤岛危机”：设备孤立如何拖垮系统优化后腿》

在科技飞速发展的今天，智能家居不再是遥不可及的概念，它正逐渐走进千家万户，为我们描绘出舒适便捷的未来生活蓝图。想象一下，下班回家前，你可以通过手机远程开启空调，让室内温度恰到好处；到家时…...

编程日记 2025/1/30 18:44:26

DeepSeek介绍及使用ollama本地化部署DeepSeek-R1大模型

DeepSeek 中文名深度求索人工智能基础技术研究有限公司(简称“深度求索”或“DeepSeek”)，成立于2023年，是一家专注于实现AGI的中国公司。在本月初推出 DeepSeek-R1后，该公司宣称其在执行数学、编码和自然语言推理等任务时“性能可与OpenAI…...

编程日记 2025/1/30 18:41:15

网络安全攻防实战：从基础防护到高级对抗

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 引言在信息化时代，网络安全已经成为企业、政府和个人必须重视的问题。从数据泄露到勒索软件攻击，每一次…...

编程日记 2025/1/30 18:33:00

9【如何面对他人学习和生活中的刁难】

我们在学习的过程中，会遇到很多来自于他人的刁难与嘲讽，如果处理不好，这会大大影响我们的心情，从而影响学习的效率我建议，如果你学习或生活中也遇到了类似的问题，不要去生气，更不要发生冲突&a…...

编程日记 2025/1/30 18:30:54

kafka消费者详细介绍（超级详细）

文章目录一、Kafka 消费者与消费者组1.1 Kafka 消费者（Consumer）概述1.1.1 消费者工作流程1.1.2 消费者的关键配置 1.2 Kafka 消费者组（Consumer Group）概述1.2.1 消费者组的工作原理1.2.2 消费者组的优点1.2.3 消费者组的再均衡…...

编程日记 2025/1/30 18:29:53

数据结构选讲（更新中）

参考 smWCDay7 数据结构选讲2 by yyc 。可能会补充的： AT_cf17_final_j TreeMST 的 F2 Boruvka算法目录 AT_cf17_final_j Tree MST AT_cf17_final_j Tree MST link 题意给定一棵 n n n 个点的树，点有点权 w i w_i wi，边有边权。建立…...

编程日记 2025/1/30 18:26:50

OpenBMC：简介

通常在服务器主板上，有一个独立的微处理器，叫作BMC(Baseboard Manager Controller)，用于与主机(host)进行通信，提供带外的方式查询服务器的状态和信息，并进行管理服务器。 OpenBMC是Linux Foundation的开源BMC项目&am…...

编程日记 2025/1/30 18:23:38

java 正则表达式匹配Matcher 类

Matcher 类用法在 Java 中，Matcher 类是用于匹配正则表达式的工具，而 group() 方法是 Matcher 类中的一个重要方法，用于提取匹配结果中的捕获组（captured groups）。以下是对 group() 方法的详细解释： 1.…...

编程日记 2025/1/30 18:22:34

【HarmonyOS之旅】基于ArkTS开发(三) -＞兼容JS的类Web开发(三)

目录 1 -> 生命周期 1.1 -> 应用生命周期 1.2 -> 页面生命周期 2 -> 资源限定与访问 2.1 -> 资源限定词 2.2 -> 资源限定词的命名要求 2.3 -> 限定词与设备状态的匹配规则 2.4 -> 引用JS模块内resources资源 3 -> 多语言支持 3.1 -> 定…...

编程日记 2025/1/30 18:20:21

CSS（快速入门）

欢迎大家来到我的博客~欢迎大家对我的博客提出指导，有错误的地方会改进的哦~点击这里了解更多内容目录一、什么是CSS?二、基本语法规范三、CSS选择器3.1 标签选择器3.2 id选择器3.3 class选择器3.4 通配符选择器3.5 复合选择器四、常用CSS样式4.1 color4.2 font…...

编程日记 2025/1/30 18:14:08

使用 concurrently 实现前后端一键启动

使用 concurrently 实现前后端一键启动本文适合： 前后端分离项目（如 React Node.js），希望通过一条命令同时启动前端和后端服务。工具链： Node.js、npm、concurrently。耗时： 3 分钟。文章目录使用 c…...

编程日记 2025/1/30 18:00:38

常见端口的攻击思路

端口号端口说明攻击方向21/22/69FTP/TFTP文件传输协议匿名上传/下载、嗅探、爆破2049NFS服务配置不当139Sanba服务爆破、远程代码执行389Ldap目录访问协议注入、匿名访问、弱口令22SSH远程连接爆破、SSH映射隧道搭建、文件传输23Telnet远程连接爆破、嗅探、弱口令3389RDP远程桌…...

编程日记 2025/1/30 17:55:25

大数据治理实战：架构、方法与最佳实践

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言大数据治理是确保数据质量、合规性和安全性的重要手段，尤其在数据驱动决策和人工智能应用日益普及的背景下&…...

编程日记 2025/1/30 17:49:12

忘记宝塔的访问地址怎么找

在linux中安装宝塔面板后会生成网址、账号和密码如果网址忘记了那将进不去宝塔面板该怎么办呢？ bt命令我们输入 bt 命令的时候，是在根目录里面进行操作的。 / bt 我们根据自己的需要，选择对应的数字就可以了。 bt 14 输入 14 查看面板默…...

编程日记 2025/1/30 17:47:05

SQL教程-基础语法

INSERT INTO 新增数据 INSERT INTO 数据表名 VALUES (值1,值2,值3,...) DELETE 删除数据 DELETE FROM 数据表名 WHERE 查询条件 UPDATE 修改数据 UPDATE 数据表名 SET 字段1 值1, 字段2值2, ... WHERE 查询条件 SELECT 查询数据 #查询数据 SELECT 字段1, 字段2, ... FROM 数…...

编程日记 2025/1/30 17:46:01

shell脚本批量修改文件名之方法（The Method of Batch Modifying File Names in Shell Scripts）

shell脚本批量修改文件名方法我们可以使用Shell脚本来实现这个功能。Shell脚本是一种用于自动化任务的编程语言，它可以在Unix/Linux操作系统上运行。在这个脚本中，我们将使用一个for循环来遍历目标目录下的所有文件，并使用mv命令将每个文件…...

编程日记 2025/1/30 17:44:58

组合模式 - 组合模式的实现

引言组合模式（Composite Pattern）是一种结构型设计模式，它允许你将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式使得客户端可以统一地处理单个对象和组合对象，从而简化了代码的复杂性。本文将详细介绍如何在C中实…...

编程日记 2025/1/30 17:43:50

视频外绘技术总结：Be-Your-Outpainter、Follow-Your-Canvas、M3DDM

Diffusion Models专栏文章汇总：入门与实战前言：视频Inpaint的技术很火，但是OutPaint却热度不高，这篇博客总结比较经典的几篇视频Outpaint技术。其实Outpaint在runway等工具上很火，可是学术界对此关注比较少，博主从这三年的顶会中找到了最具代表性的三篇论文解读。目录 …...

编程日记 2025/1/30 17:42:48

【硬件测试】基于FPGA的QPSK+帧同步系统开发与硬件片内测试,包含高斯信道,误码统计,可设置SNR

目录 1.算法仿真效果 2.算法涉及理论知识概要 2.1QPSK 2.2 帧同步 3.Verilog核心程序 4.开发板使用说明和如何移植不同的开发板 5.完整算法代码文件获得 1.算法仿真效果本文是之前写的文章《基于FPGA的QPSK帧同步系统verilog开发,包含testbench,高斯信道,误码统计,可…...

编程日记 2025/1/30 17:41:46

CodeContext：基于MCP协议与AI模式检测，让AI编程助手深度适配你的代码库

1. 项目概述：让AI助手真正“懂”你的代码库如果你和我一样，每天都在用Cursor或者GitHub Copilot这类AI编程助手，那你肯定也经历过这种时刻：AI给你生成了一段看起来功能正确的代码，但它的错误处理方式、导入风格、命名习…...

编程新知 2026/5/13 8:25:42

半导体诊断技术：从扫描逻辑到根因解卷积

1. 半导体诊断技术演进与挑战在半导体制造领域，诊断技术始终扮演着至关重要的角色。想象一下，当芯片在测试阶段出现故障时，工程师们就像医生面对病患一样，需要通过一系列"检查手段"来定位问题根源。扫描逻辑诊断&#…...

编程新知 2026/5/13 8:12:35

告别“检测即损伤”：激光加工重塑电路检测与修复新路径

随着芯片互联兴起，电路结构日趋复杂，隐性缺陷对良率的威胁显著增加。如何在不破坏电路的前提下发现短路、断路等问题并对其进行精准处置，是半导体集成电路领域提升器件性能与良率的首要任务。在这一需求驱动下，激光技术凭借其特性…...

编程新知 2026/5/13 7:23:40

小米Agent岗二面：你们 RAG 知识库上线之后，文档更新了怎么办？

👔面试官：你们 RAG 知识库上线之后，文档更新了怎么办？总不能每次改个文档就把整个知识库重建一遍吧。 🙋‍♂️我：可以直接找到变了的那个 chunk，更新它的向量就行了。 👔面试官&a…...

编程新知 2026/5/13 7:05:01

Claude API开发实战：从模型选型到工具调用，一站式资源与代码详解

1. 项目概述与核心价值最近在折腾AI应用开发的朋友，估计没少为Claude API的调用和管理头疼。官方文档虽然详尽，但当你需要快速查找某个特定端点、对比不同模型参数，或者只是想找个现成的代码片段时，那种在多个页面间跳转、反复搜索…...

编程新知 2026/5/13 7:00:53

modbus 512 断线重连 db browser for sqlite

断线重连 private async Task HeartbeatLoopAsync(CancellationToken token) {// 监工一直循环干活，直到工长喊停工（token.IsCancellationRequested）while (!token.IsCancellationRequested){try{// 每隔一段时间检查一次（最少20…...

编程新知 2026/5/13 6:29:42

观察Taotoken用量看板如何帮助团队透明化管理API成本

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察Taotoken用量看板如何帮助团队透明化管理API成本作为团队的技术负责人，管理大模型API成本是一项持续且细致的工作…...

编程新知 2026/5/13 6:21:20

蓝奏云直链解析：从繁琐到一键的下载革命

蓝奏云直链解析：从繁琐到一键的下载革命【免费下载链接】LanzouAPI 蓝奏云直链，蓝奏api，蓝奏解析，蓝奏云解析API，蓝奏云带密码解析项目地址: https://gitcode.com/gh_mirrors/la/LanzouAPI 你是否厌倦了蓝奏云…...

编程新知 2026/5/13 4:10:09

资深运维的Helm Chart私藏库：高质量K8s应用部署实战指南

1. 项目概述：一个资深运维的Helm Chart私藏库如果你和我一样，长期在Kubernetes（K8s）的“牧场”里当“牛仔”（Sysop），那你肯定明白，找到一个质量上乘、维护及时、配置合理的Helm Char…...

编程新知 2026/5/13 4:03:54

Go语言构建高效命令行工具集：从设计到工程化实践

1. 项目概述：一个“好用的”开源工具集最近在GitHub上闲逛，发现了一个挺有意思的仓库，叫ImGoodBai/goodable。光看这个名字，就透着一股子“实用主义”的气息——“好用的”。作为一名常年混迹于开源社区，喜欢折腾各种工…...

编程新知 2026/5/13 2:11:22