当前位置: 首页 > news >正文

大数据之hadoop入门

大数据概念

大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。

大的概念是相对来说的:目前来说,大数据的规模至少10T以上。
目前单台主机一般只能存放1T左右的数据,所以要进行计算首先要进行分布式存储,分开到10台电脑中进行存储。然后后面的计算也必须基于分布式的存储结构来进行分布式运算。

大数据特点

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多样(Variety)
  4. 低价值密度(Value)

大数据应用

  • 增加用户粘性:进行客户画像,推荐客户喜欢的内容。
  • 多臂试探:当用户画像基本完成时,尝试推送其他内容,并重新画像。
  • 发现多个事务之间的潜在关联性:比如纸尿布和啤酒。
  • 获取商场的流量信息,分析运营情况。
  • 保险/金融:挖掘潜在客户,助力保险行业精准营销。

大数据不是用来开发一个独立的软件,而且需要贴合其他软件来叠加使用,助力软件更加智能和贴合用户需求。

业务分析

数据部门搭建数据平台,分析数据指标。分析分为两种,一种是离线数仓分析,一种是实时分析。处理好后的展示环节交给前端处理。

大数据部门组织结构:

  1. 平台组:搭建Hadoop、Flume、Kafka、HBase平台
  2. 数据仓库组:ETL数据清洗、数据分析
  3. 实时组:实时指标分析
  4. 数据挖掘组:算法工程师、推荐系统工程师、用户画像工程师
  5. 报表开发组:javaEE工程师 + 前端工程师(非大数据部分)

Hadoop概述

Hadoop是什么

是一个分布式系统架构,Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念,Hadoop生态圈(Hadoop, Hive, )
大数据之父:Doug Cutting,开发了Lucene,一个搜索引擎,类似谷歌搜索引擎。为了在对Lucene进行优化升级,提升面对大数据的查询效率,结合谷歌发布的三篇论文,实现了DFS和MapReduce机制,使Nutch搜索引擎性能飙升。之后项目立项更名为Hadoop,从此Hadoop诞生了。
在这里插入图片描述

Hadoop三大发行版本

  • Apache原始版本
  • 国外开发的图形化版本
  • 国内的阿里云、腾讯云版本

Hadoop优势

  1. 高可靠性:有备份
  2. 高扩展性:可以扩展节点数量
  3. 高效性:Hadoop是并行运算的
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop组成

  • Hadoop1.x:
    • HDFS数据存储
    • MapReduce计算+资源调度
  • Hadoop2.x/3.x:
    • HDFS数据存储
    • MapReduce计算
    • Yarn资源调度

HDFS架构概述

  1. NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性
  2. DataNode(dn): 存储文件块数据, 以及校验和
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

  • 永久节点:
    • ResourceManager(RM): 汇总所有资源信息
    • NodeManager(NM): 动态收集当前节点的资源情况
  • 任务节点:
    • ApplicationMaster(AM): 单个任务运行的管理员
    • Container: 容器,相当于一台独立的服务器,里面封装了任务所需要的资源,如内存、CPU、磁盘、网络等,类似一个小虚拟机。

MapReduce架构概述

MapReduce有两个阶段。Map表示细分为子任务,Reduce表示合并计算结果。细分任务的名称为MapTask, 合并任务名称为ReduceTask(规约)。MapReduce这个名称概括了分布式系统进行计算的基本过程。

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述

Hadoop搭建

创建模版机

  1. 最小化安装
  2. 安装一些必要软件
  3. 修改ip为静态ip
  4. 修改主机名和hosts映射文件
  5. 关闭防火墙
  6. 创建atguigu用户,配置sudo权限
  7. 在/opt目录下创建两个子目录
    • module安装好的软件
    • software安装包
    • 修改module和software的所属者和所属组

使用xshell连接查询虚拟机ip地址:

  • ip addr命令查看ip地址连接

安装jdk和Hadoop

  1. 使用ftp将jdk传输到software文件中
  2. 使用jar -zxfc解压到module文件中
  3. 配置环境变量
    • profile.d目录下声明环境变量
    • #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin

shell的补充

  • 父子shell项
    • 父类定义变量子类不能获取:有办法获取,使用export 变量名将父类变量传递给子类shell
    • 子类定义变量父类不能获取:获取不了
  • 使用pstree命令可以查看进程之间的父子关系
  • shell的三种执行方式
    • 开子bash的形式执行,使用子类的shell的环境变量
      • bash + 脚本文件
      • chmod 777 脚本文件 + ./ 脚本文件
    • 在当前bash中执行,使用当前shell的环境变量
      • . 或者 source 脚本文件
    • 一般情况下脚本都是开子shell来执行的,除了环境变量是父shell中运行

相关文章:

大数据之hadoop入门

大数据概念 大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。 大的概念是相对来说的:目前来说&#xff0…...

浅谈多人游戏原理和简单实现。

😜作 者:是江迪呀✒️本文关键词:websocket、网络、原理、多人游戏☀️每日 一言:这世上有两种东西无法直视,一是太阳,二是人心! 一、我的游戏史 我最开始接触游戏要从一盘300游戏…...

活动预告 | 龙智、紫龙游戏与JFrog专家将出席龙智DevSecOps研讨会,探讨企业大规模开发创新

2023年9月8日(周五)下午13:30-19:45,龙智即将携手Atlassian与JFrog在上海共同举办主题为“大规模开发创新:如何提升企业级开发效率与质量”的线下研讨会。 在此次研讨会上,龙智高级咨询顾问、Atlassian认证专家叶燕秀…...

米每秒和千米每小时的换算

千米每时和米每秒怎么换算?1米/秒3600米/3600秒 米每秒和千米每小时的换算(米每秒和千米每小时的换算) 3.6千米/小时。 3.6千米/小时1米/秒米每秒和千米每小时的换算1 米/秒(米每秒)3.6 千米/时(千米每小时)。 1米每秒3600米每时3.6千米每时。因为1小时3600秒。小时是一个时…...

js实现图形验证码

图形验证码起什么作用: 可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登录尝试。 验证码一般是防止批量注册的,人眼看起来都费劲,何况是机器。不少…...

一句话画出动漫效果

链接: AI Comic Factory - a Hugging Face Space by jbilcke-hfDiscover amazing ML apps made by the communityhttps://huggingface.co/spaces/jbilcke-hf/ai-comic-factory 选择类型: Japanese 输入提示词: beauty and school love st…...

【openGauss2.1.0 TPC-C数据导入】

openGauss2.1.0 TPC-C数据导入 一、下载tpch测试数据二、导入测试数据 一、下载tpch测试数据 使用普通用户如omm登录服务器执行如下命令下载测试数据库:git clone https://gitee.com/xzp-blog/tpch-kit.git二、导入测试数据 进入dbgen目录下,生成makef…...

vue+elementui表格导出

htmlToExcel.js import FileSaver from file-saver import XLSX from xlsxconst htmlToExcel {getExcel(dom, title 默认标题) {var excelTitle titlevar wb XLSX.utils.table_to_book(document.querySelector(dom))/* 获取二进制字符串作为输出 */var wbout XLSX.write(w…...

掌握前端利器:JavaScript页面渲染高阶方法解析与实战

引言 前端开发中,页面渲染的速度和质量是衡量一个开发者水平的重要标准。而在众多的前端技术中,JavaScript以其强大的页面渲染能力独占鳌头。本文将深入探讨JavaScript在页面渲染中的应用,并通过实例展示其高阶方法,旨在帮助读者…...

面试题——网络IO模型

一、socket socket是在应用层和传输层中间的抽象层,它把传输层(TCP/UDP)的复杂操作抽象成一些简单的接口,供应用层调用实现进程在网络中的通信。Socket起源于UNIX,在Unix一切皆文件的思想下,进程间通信就被…...

【JUC基础】JUC入门基础(二)

目录 异步回调JMM 理解对 volatile 的理解1、保证可见性2、不保证原子性3、禁止指令重排 对 JMM 的理解 详解单例模式饿汉式懒汉式DCL懒汉式:双重检测锁模式的懒汉式单例静态内部类实现单例通过反射破坏单例,修改后的DCL饿汉式枚举实现单例防止反射破坏 …...

Git Bash 和 Git GUI中文汉化

目录 为什么要中文汉化?Git Bash的汉化Git GUI的汉化 为什么要中文汉化? 看到中文大概能猜出是什么意思,便于使用,特别是Git GUI,中文版的菜单很容易理解是要做什么,如下图: Git Bash的汉化 …...

【Ubuntu】Ubuntu常用软件部署

1.安装jdk1.8 (1).apt方式安装 1).安装 1.在终端中输入以下命令,以更新软件包列表 sudo apt-get update2.在终端中输入以下命令,以安装JDK 1.8 sudo apt-get install openjdk-8-jdk3.将Java 1.8设置为默认版本。在终端中输入以下命令 sudo update-…...

Hadoop HA模式切换

Hadoop HA模式下 主从的切换(操作命令) YARN HA 获取所有RM节点的状态 yarn rmadmin -getAllServiceState获取 rm1 节点的状态 yarn rmadmin -getServiceState rm1手动将 rm1 的状态切换到STANDBY yarn rmadmin -transitionToStandby rm1 ##或者 y…...

自然语言处理(四):全局向量的词嵌入(GloVe)

全局向量的词嵌入(GloVe) 全局向量的词嵌入(Global Vectors for Word Representation),通常简称为GloVe,是一种用于将词语映射到连续向量空间的词嵌入方法。它旨在捕捉词语之间的语义关系和语法关系&#…...

Flink中RPC实现原理简介

前提知识 Akka是一套可扩展、弹性和快速的系统,为此Flink基于Akka实现了一套内部的RPC通信框架;为此先对Akka进行了解 Akka Akka是使用Scala语言编写的库,基于Actor模型提供一个用于构建可扩展、弹性、快速响应的系统;并被应用…...

ELK安装、部署、调试(五)filebeat的安装与配置

1.介绍 logstash 也可以收集日志,但是数据量大时太消耗系统新能。而filebeat是轻量级的,占用系统资源极少。 Filebeat 由两个主要组件组成:harvester 和 prospector。 采集器 harvester 的主要职责是读取单个文件的内容。读取每个文件&…...

Python数据分析案例30——中国高票房电影分析(爬虫获取数据及分析可视化全流程)

案例背景 最近总看到《消失的她》票房多少多少,《孤注一掷》票房又破了多少多少..... 于是我就想自己爬虫一下获取中国高票房的电影数据,然后分析一下。 数据来源于淘票票:影片总票房排行榜 (maoyan.com) 爬它就行。 代码实现 首先爬虫获…...

科技资讯|苹果Vision Pro头显申请游戏手柄专利和商标

苹果集虚拟现实和增强现实于一体的头戴式设备 Vision Pro 推出一个月后,美国专利局公布了两项苹果公司申请的游戏手柄专利,其中一项的专利图如下图所示。据 PatentlyApple 报道,虽然专利本身并不能保证苹果公司会推出游戏手柄,但是…...

Compose学习 - remember、mutableStateOf的使用

一、需求 在显示界面中,数据变动,界面刷新是非常常见的操作,所以使用compose该如何实现呢? 二、remember、mutableStateOf的使用 我们可以借助标题的两个概念 remember、mutableStateOf来完成。这里先不写定义,定义…...

UE5 - 动态材质与电子围栏:ArchvizExplorer与Map Border Collection的深度整合

1. 动态材质与电子围栏的完美结合 在UE5的建筑可视化项目中,电子围栏效果常常需要与场景动态交互。ArchvizExplorer作为建筑可视化利器,配合Map Border Collection的边界功能,能创造出令人惊艳的动态围栏效果。我最近在一个商业综合体项目中实…...

ESP32按键状态机设计:工业级去抖与多事件识别

1. ESP32-Button 库深度解析:面向工业级人机交互的按键状态机设计与实现1.1 工程背景与设计动因在嵌入式系统开发中,按键处理看似简单,实则暗藏诸多工程陷阱。裸写digitalRead()配合delay()的“抖动延时法”在教学Demo中尚可接受,…...

Arduino轻量级协作式任务调度库Jobber详解

1. Jobber库概述:面向Arduino的轻量级协作式任务调度框架Jobber是一个专为资源受限嵌入式平台(尤其是Arduino系列MCU)设计的协作式任务调度库,其核心目标是提供一种“模拟多线程”的编程模型,使开发者能够以接近线程的…...

告别校园网登录页!实测用UDP 53端口“曲线救国”上网的几种姿势与风险提示

校园网络优化:提升连接效率的合法实践指南 校园网络作为师生日常学习研究的重要基础设施,其稳定性和访问效率直接影响教学科研质量。许多用户在使用过程中会遇到认证页面频繁弹出、连接不稳定等问题,这通常与网络架构设计和流量管理策略有关。…...

告别笨重电感!用这颗TI的TPS60503电荷泵芯片,给你的便携设备做个高效小体积电源

无电感电源革命:TPS60503电荷泵在便携设备中的极致能效设计 当智能手表在清晨用震动唤醒你,当无线耳机在通勤路上播放音乐,这些贴身电子设备背后都藏着一个关键矛盾——如何在指甲盖大小的空间里实现高效供电?传统电感式DCDC转换器…...

小白友好:InstructPix2Pix极速推理,秒级响应你的修图指令

小白友好:InstructPix2Pix极速推理,秒级响应你的修图指令 你有没有过这样的经历?手机里存着一张照片,风景很美,但天空灰蒙蒙的;或者朋友聚会合影,大家都笑得很开心,就是背景有点乱。…...

3D建模快速上手:零门槛掌握TripoSR AI驱动开源工具

3D建模快速上手:零门槛掌握TripoSR AI驱动开源工具 【免费下载链接】TripoSR 项目地址: https://gitcode.com/GitHub_Trending/tr/TripoSR 在数字创作领域,3D建模曾是专业人士的专属技能,需要掌握复杂的软件操作和几何知识。但今天&a…...

AI绘画辅助:OpenClaw+ollama-QwQ-32B批量处理Stable Diffusion提示词

AI绘画辅助:OpenClawollama-QwQ-32B批量处理Stable Diffusion提示词 1. 为什么需要AI绘画工作流优化 作为一个经常使用Stable Diffusion进行创作的数字艺术家,我一直在寻找提升工作效率的方法。最让我头疼的不是模型本身,而是如何将脑海中的…...

告别‘找飞机’难题:手把手教你用DUT Anti-UAV数据集做小目标跟踪(PyTorch/YOLO实战)

无人机小目标跟踪实战:基于DUT Anti-UAV数据集的YOLO-PyTorch解决方案 当无人机在复杂背景下以每秒15米的速度掠过建筑群时,传统目标跟踪算法的检测框开始像醉汉一样摇摆不定——这是去年我在某智慧城市项目中遇到的真实困境。小目标、快速移动和复杂背景…...

Abaqus纤维复合材料三点弯曲力学仿真全解析

Abaqus纤维复合材料三点弯曲力学仿真(vumat子程序inp文件obd文件视频文件快速建模软件)在材料力学的研究领域,纤维复合材料凭借其优异的性能被广泛应用。而通过Abaqus进行三点弯曲力学仿真,能有效探究其力学特性。今天咱就来唠唠这…...