hadoop生态现状、介绍、部署
一、引出hadoop
1、hadoop的高薪现状
各招聘平台都有许多hadoop高薪职位,可以看看职位所需求的技能
----> hadoop是什么,为什么会这么高薪?引出大数据,大数据时代,大数据与云计算
2、大数据时代的介绍
大数据的故事,google根据海量数据所作出的一次流行病传播趋势预测,及时性和准确性都远超医疗体系根据传统方法所作出的预警,渲染大数据技术将给这个时代带来的巨大变革 ----> 大数据的4V特征 ----> 大数据技术带来的更多成功案例,及基于大数据技术的机器学习带来的无限憧憬
3、hadoop的由来和发展历程
----> google所面临的困境 ----> 需求催生的技术革新 ----> 论文公布 ----> dougcutting 山寨(捎带介绍一下道哥及其成就) ----> lucene nutch hadoop等项目的发起人 ----> yahoo ----> apache基金会管理维护
介绍apache基金会旗下的hadoop生态体系中各种开源项目,如hive hbase flume spark storm sqoop oozie ......
4、hadoop解决了什么问题
实际场景,海量日志如何处理,海量网页数据如何处理
hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量
mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性
5、hadoop的发展现况
大数据领域的标准开源解决方案,各大主流厂商都围绕hadoop进行周边开发和服务提供,去IOE化
重点以淘宝为例: 集群用途,个数,规模,云梯的架构
中国移动所使用的hadoop集群及其用途,各大厂商在使用hadoop
6、hadoop生态系统
----> 最底层平台 hdfs yarn mapreduce spark
----> 应用层 hbase hive pig sparkSQL nutch
----> 工具类 zookeeper flume
二、hadoop介绍
1、如何学习hadoop
学什么?分轻重缓急,首先是整体技术架构,然后是应用场景,然后是开发规范,有余力可以深入原理--如源码)
怎样学?注意比较跟学习J2EE的差别
难不难?给以信心,强调要多动手,因为hadoop领域技术点多,不像j2ee那么单纯,在动手的过程中会遇到各种各样的问题,这样一能加深理解,二能提高学习和思考分析的能力,三能积累问题解决经验
2、hadoop的设计思想
单机性能纵向扩展的瓶颈,传统分布式存储入NFS所面临的单节点故障,磁盘冗余阵列所带来的成本问题
----> 需要通过集群协作来解决:水平扩展,集群化处理 ,低成本,可扩展,高可靠
----> 集群协作随之而来的系统复杂度,急需一个通用的平台封装底层复杂度,降低使用开发难度
hdfs设计思想介绍
----主从结构, 主节点namenode,从节点datanode ,简单介绍其角色责任,节点数量
用仓库管理系统的比喻方式来介绍一遍hdfs的设计思想:
---->管理员,仓库的角色
---->可靠性的考虑
---->吞吐量的考虑
---->存储和读取的流程
mapreduce设计思想介绍
----主从结构,主节点jobtracker,从节点 tasktracker,整个框架如何将任务并发化,如何实现容错
---->用一个海量求和的案例来说明运算的并发化思想:
a、用一个线程一次性全量求和
b、将整个求和任务分成两个步骤,第一个步骤局部求和,这样可以并发进行;第二个步骤必须全局处理,用一个线程来执行,但是它的输入
数据集已经很小,不会成为瓶颈
---->并发思想的编程模型实现了,但是并发协作的机制产生了大量公共管理问题,引出mapreduce的资源管理,任务调度,错误重试,并从这里可以引出hadoop2.0的yarn的思想及与hadoop1.0的对比
三、hadoop的部署----(细节在《hadoop2.4.1伪分布式搭建.txt》中)
1、linux系统的安装、配置(这部分都是实际操作演示)
根据以往经验,学员对于虚拟机软件特别是虚拟网络环境很困惑,这里需要详细讲一下虚拟机的思想
可先讲实际环境,要物理机,要交换机,要网络配置
那么,在虚拟环境下,同样需要具备这些要素,缺一不可,只是机器,交换机需要用虚拟的方式产生的而已;然后详细讲一下交换机和网关的概念,引出nat和bridge桥接方式的思想和差别
准备工作:vmware虚拟机软件,centos6.5的安装,虚拟机软件的vmnet配置,nat方式或者桥接方式
a、网络配置----> 主机名,ip地址,域名映射
先用ifconfig查看目前的活跃网卡,然后修改网卡的ip地址配置
setup配置ip地址(简易图形界面)或者
vi /etc/sysconfig/networking/devices/ifcfg-eth0 配置文件来修改ip地址
IPADDR=""
NETMASK=""
GATEWAY=""
主机名和域名映射的配置:
vi /etc/sysconfig/network 本机的主机名
vi /etc/hosts 集群中的主机域名映射表
----> 检验配置是否生效
ping hostname观察网络配置是否生效
b、系统配置
----> sudoers加入普通用户,以便于利用sudo指令、时间配置,启动级别配置,防火墙配置
service iptables stop 关闭防火墙服务
chkconfig iptables off关闭防火墙自启动
service iptables status检查防火墙关闭情况
chkconfig iptables --list 查看防火墙自启动情况
2、JDK的安装(细节在《hadoop2.4.1伪分布式搭建.txt》中)
JDK安装包获取----> 安装包的上传 ----> 安装路径规划,安装包解压 ----> 环境变量的配置
secureCRT
vsftp
tar -zxvf
vi /etc/profile
export JAVA_HOME=/usr/java
export PATH = $PATH:$JAVA_HOME/bin
生效
source /etc/profile
3、安装hadoop(细节在《hadoop2.4.1伪分布式搭建.txt》中)
hadoop版本的选择 hadoop-1.2.1 hadoop-2.2.0 hadoop-2.4.1
----> 下载安装包 http://archive.apache.org/dist
----> 上传安装包到虚拟机
安装路径规划 ----> 解压 ----> 目录结构简介
伪分布式安装配置文件
vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_65
core-site.xml
<property><name>fs.defaultFS</name><value>hdfs://itcast:9000</value>
</property>
<property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value>
</property>
hdfs-site.xml
<property><name>dfs.replication</name><value>1</value>
</property>
mapred-site.xml
<property><name>mapreduce.framwork.name</name><value>yarn</value>
</property>
yarn-site.xml
<property><name>yarn.resourcemanager.hostname</name><value>itcast</value>
</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property>
配置/etc/profile
export HADOOP_HOME =
export PATH
4、启动hadoop
格式化 hdfs namenode -format
start-all.sh
启动过程中会多次要求输入密码,引出后面会讲的SSH无密登陆配置
jps查看并介绍进程
namenode
secondarynamenode
datanode
nodemanager
resourcemanager
web管理界面的使用和介绍
四、ssh免密码登陆配置
1、ssh介绍,登陆演示(需要增加一台虚拟机)
2、ssh免密码登陆的秘钥机制
3、ssh秘钥配置,权限设置
ssh-keygen.sh -t rsa
~/.ssh 目录介绍
id_ras id_rsa.pub known_hosts
ssh-copy-id desthost 或scp + cat >> 命令
4、验证
5、ssh免密码登陆的原理,握手及身份验证流程
五、hadoop的可用性验证
1、hdfs验证
通过网页访问hdfs
hdfs shell 命令
hdfs dfsadmin -report查看hdfs集群状态
put get mv rm的演示
2、yarn验证
跑hadoop自带例子程序
hadoop jar app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output
六、Hadoop学习资源下载
Hadoop-HDFS-Shell-学习资料及文档、Java代码
相关文章:
hadoop生态现状、介绍、部署
一、引出hadoop 1、hadoop的高薪现状 各招聘平台都有许多hadoop高薪职位,可以看看职位所需求的技能 ----> hadoop是什么,为什么会这么高薪?引出大数据,大数据时代,大数据与云计算 2、大数据时代的介绍 大数据的故事…...
二、EFCore 数据库表的创建和迁移
文章目录 一、数据库连接二、数据库表迁移一、数据库连接 在NuGet上安装EntityFramework 代码如下: Microsoft.EntityFrameworkCoreMicrosoft.EntityFrameworkCore.SqlServerMicrosoft.Extensions.Configuration.Json配置数据连接 appsettings.json 增加数据库连接配置 &quo…...
在nodejs中使用typescript
在nodejs中使用typescript 如果我们正在使用nodejs来开发应用,那么对于管理和扩展一个大型代码库来说是一个非常大的挑战。克服这一问题的方法之一是使用typescript,为js添加可选的类型注释和高级功能。在本文中,我们将探讨如何使用在nodejs中使用types…...
数据结构与算法基础(青岛大学-王卓)(8)
哎呀呀,sorry艾瑞波地,这次真的断更一个月了,又发生了很多很多事情,秋风开始瑟瑟了,老父亲身体查出肿瘤了,有病请及时就医,愿每一个人都有一个健康的身体,God bless U and FAMILY. 直…...
【生物信息学】使用谱聚类(Spectral Clustering)算法进行聚类分析
目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具 1. 生成测试数据 2. 绘制初始数据分布图 3. 循环尝试不同的参数组合并计算聚类效果 4. 输出最佳参数组合 5. 绘制最佳聚类结果图 6. 代码整合 一、实验介绍…...
CSS基础语法第二天
目录 一、复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 1.4.1超链接伪类 二、CSS特性 2.1 继承性 2.2 层叠性 2.3 优先级 基础选择器 复合选择器-叠加 三、Emmet 写法 3.1HTML标签 3.2CSS 四、背景属性 4.1 背景图 4.2 平铺方式 …...
ThreeJS - 封装一个GLB模型展示组件(TypeScript)
一、引言 最近基于Three.JS,使用class封装了一个GLB模型展示,支持TypeScript、支持不同框架使用,具有多种功能。 (下图展示一些基础的功能,可以自行扩展,比如光源等) 二、主要代码 本模块依赖…...
HashMap面试题
1.hashMap底层实现 hashMap的实现我们是要分jdk 1.7及以下版本,jdk1.8及以上版本 jdk 1.7 实现是用数组链表 jdk1.8 实现是用数组链表红黑树, 链表长度大于8(TREEIFY_THRESHOLD)时,会把链表转换为红黑树,…...
Java编程技巧:swagger2、knif4j集成SpringBoot或者SpringCloud项目
目录 1、springbootswagger2knif4j2、springbootswagger3knif4j3、springcloudswagger2knif4j 1、springbootswagger2knif4j 2、springbootswagger3knif4j 3、springcloudswagger2knif4j 注意点: Api注解:Controller类上的Api注解需要添加tags属性&a…...
第三章:最新版零基础学习 PYTHON 教程(第九节 - Python 运算符—Python 中的除法运算符)
除法运算符允许您将两个数字相除并返回商,即,第一个数字或左侧的数字除以第二个数字或右侧的数字并返回商。 Python 中的除法运算符 除法运算符有两种类型: 浮点数除法整数除法(向下取整除法)整数相除时,结果四舍五入为最接近的整数,并用符号“//”表示。浮点数“/”…...
【python】导出mysql数据,输出excel!
参考https://blog.csdn.net/pengneng123/article/details/131111713 import pymysql import pandas as pd #import openpyxl import xlsxwriterdb pymysql.connect(host"10.41.241.114", port***,user***,password***,charsetutf8mb4 )cursor db.cursor() #创建游…...
【Java 进阶篇】JDBC ResultSet 遍历结果集详解
在Java数据库编程中,经常需要执行SQL查询并处理查询结果。ResultSet(结果集)是Java JDBC中用于表示查询结果的关键类之一。通过遍历ResultSet,我们可以访问和操作从数据库中检索的数据。本文将详细介绍如何使用JDBC来遍历ResultSe…...
华为数通方向HCIP-DataCom H12-831题库(单选题:161-180)
第161题 某台路由器Router LSA如图所示,下列说法中错误的是? A、本路由器已建立邻接关系 B、本路由器为DR C、本路由支持外部路由引入 D、本路由器的Router ID为10.0.12.1 答案: B 解析: 一类LSA的在transnet网络中link id值为DR的route id ,但Link id的地址不是10.0.12.…...
【VsCode】SSH远程连接Linux服务器开发,搭配cpolar内网穿透实现公网访问
文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程 前言 远程…...
java并发编程 守护线程 用户线程 main
经常使用线程,没有对守护线程和用户线程的区别做彻底了解 下面写4个例子来验证一下 源码如下 /* Whether or not the thread is a daemon thread. */ private boolean daemon false;/*** Marks this thread as either a {linkplain #isDaemon daemon} thread*…...
wxWidgets(1):在Ubuntu 环境中搭建wxWidgets 库环境,安装库和CodeBlocks的IDE,可以运行demo界面了,继续学习中
1,选择使用 wxWidgets 框架 选择这个主要是因为完全的开源,不想折腾 Qt的库,而且打包的文件比较大。 网络上面有很多的对比,而且使用QT的人比较多。 但是我觉得wxwidgets 更加偏向 c 语法本身,也有助学习C。 没有太多…...
[VIM]VIM初步学习-3
3-1 编写 vim 配置,我的 vim 我做主_哔哩哔哩_bilibili...
RocketMQ Dashboard说解
RocketMQ Dashboard 是 RocketMQ 的管控利器,为用户提供客户端和应用程序的各种事件、性能的统计信息,支持以可视化工具代替 Topic 配置、Broker 管理等命令行操作。 介绍 功能概览 面板功能运维修改nameserver 地址; 选用 VIPChannel驾驶舱查看 …...
【RabbitMQ实战】05 RabbitMQ后台管理
一、多租户与权限 1.1 vhost的概念 每一个 RabbitMQ服务器都能创建虚拟的消息服务器,我们称之为虚拟主机(virtual host),简称为 vhost。每一个 vhost本质上是一个独立的小型RabbitMQ服务器,拥有自己独立的队列、交换器及绑定关系等,并且它拥…...
PHP8中final关键字的应用-PHP8知识详解
在PHP8中,final的中文含义是最终的、最后的意思。被final修饰过的类和方法就是“最终的版本”。 如果关键字final放在类的前面,则表示该类不能被继承。 如果关键字final放在方法的前面,则表示该 方法不能被重新定义。 如果有一个类的格式为…...
工业安全零事故的智能守护者:一体化AI智能安防平台
前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...
关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...
ESP32读取DHT11温湿度数据
芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
C++.OpenGL (10/64)基础光照(Basic Lighting)
基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
Caliper 配置文件解析:config.yaml
Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...
Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习)
Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习) 一、Aspose.PDF 简介二、说明(⚠️仅供学习与研究使用)三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置 五、字节码修改实现代码&#…...
并发编程 - go版
1.并发编程基础概念 进程和线程 A. 进程是程序在操作系统中的一次执行过程,系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...
