hadoop、hive、DBeaver的环境搭建及使用
本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件;
hadoop提供大数据的存储、资源调度、计算,分为三个模块:HDFS、YRAN、MapReduce
HDFS提供数据的分布式存储,分为三个节点NameNode,DataNode,SecondaryNameNode
1、当客户端发起读写数据请求时首先到 NameNode,NameNode审核权限、判断剩余空间,然后告知客户端读写的DataNode地址,客户端向指定的DataNode发送数据包,被写入数据的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode
2、hdfs以biock(块)为单位存储文件,每个块默认256M,可调整块的大小,每个块可创建多个(可设置)备份来保证存储文件的安全性
3、edits文件:是一个流水账文件,记录hdfs中的每一次操作,也记录了文件和block的对应关系,一个文件如果经过多次操作,在edits中存在多条记录、检索文件时效率比较低,所以就有了edits文件的合并
4、edits文件合并后的文件叫做fsimage,只保留文件的最终结果,合并文件的操作是SecondaryNameNode来完成
NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。
启动和停止:start-dfs.sh 、stop-dfs.sh
YARN是hadoop里面的资源调度组件,分为:ResourceManager,NodeManager,ProxyServer,JobHistoryServer
1、ResourceManager:整个集群的资源调度者, 负责协调调度各个程序所需的资源。
2、NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。
3、ProxyServer:应用程序代理,yarn在运行时对外提供了一个web ui站点,代理服务器的功能就是最大限度保障对WEB UI的访问是安全的
4、JobHistoryServer:历史服务器,应用程序历史信息记录服务,日志是在容器中产生的,分布在不同的服务器中难以查询,JobHistoryServer抓取所有的日志在web ui中展示
单个任务在单个服务器上需要的资源称之为容器(container),NodeManager预先占有这些资源供任务使用;
启动和停止yarn:start-yarn.sh、stop-yarn.sh
mapReduce是hadoop的分布式计算组件,运行在yarn中的,不需要单独启动;
MapReduce提供了两个接口:
Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理
Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
MapReduce 代码比较老,难以学习使用,在MapReduce基础上推出了一些新的工具,底层都是MapReduce在执行
Hive主要包含两个模块
元数据管理:metastore服务,用于存储元数据,如通过load等命令将文本文件存储在mysql等数据库中
sql解析器:将SQL语句 翻译成 MapReduce 程序运行
hive是单机部署,但是可以使用 分布式的mapReduce进行计算
使用hive需要启动metastore和客户端服务(用于客户端连接):
启动元数据管理服务
前台启动:bin/hive --service metastore
后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &
启动客户端,二选一,启动后就可以通过DBeaver或DataGrid等工具连接hive进行操作了
Hive Shell方式(可以直接写SQL): bin/hive
Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2
数据库中的列和文本文件中的列是一一对应的,所以要指定列和列之间的分隔符,hive默认是以”\001”作为分隔符,也可以手动指定
hive和mysql数据库的不同:
hive内部表和外部表:
内部表类似数据库中的表,表和数据是一体的,删除表后数据也删除了
外部表是表和数据是独立的,创建表时指定了目录,那这个目录中的文本文件就默认成为了表数据,删除表后只是表删除了,数据还在
hive中有集合列:array,map,struct 使用这些列时需要指定集合中不同元素之间的分隔符
具体操作步骤及hive的类sql操作见下面附件:
链接:https://pan.baidu.com/s/1i_CefoRjWnO5fZ54AOhxhQ?pwd=g33j
相关视频课程推荐: 2023新版黑马程序员大数据入门到实战教程,大数据开发必会的Hadoop、Hive,云平台实战项目全套一网打尽_哔哩哔哩_bilibili
相关文章:
hadoop、hive、DBeaver的环境搭建及使用
本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件; hadoop提供大数据的存储、资源调度、计算,分为三个模块:HDFS、YRAN、MapReduce HDFS提供数据的分布式存储,分为三个节点NameNode,DataNode,Second…...
Linux上通过SSL/TLS和start tls连接到LDAP服务器(附C++代码实现认证流程)
一,大致流程。 1.首先在Linux上搭建一个LDAP服务器 2.在LDAP服务器上安装CA证书,服务器证书,因为SSL/TLS,start tls都属于机密通信,需要客户端和服务器都存在一个相同的证书认证双方的身份。3.安装phpldapadmin工具&am…...
HarmonyOS ArkTS List组件和Grid组件的使用(五)
简介 ArkUI提供了List组件和Grid组件,开发者使用List和Grid组件能够很轻松的完成一些列表页面。常见的列表有线性列表(List列表)和网格布局(Grid列表): List组件的使用 List是很常用的滚动类容器组件&…...
考研思想政治理论大纲
一:马克思主义基本原理概论 (一)马克思主义是关于无产阶级和人类解放的科学 1、马克思主义的创立和发展 马克思主义的含义。马克思主义产生的经济社会根源、实践基础和思想渊源、马克思主义的创立、马克思主义在实践中的发展 2、马克思主义的鲜明特征 马克思主义科学性和革命…...
日期格式转化成星期几部署到linux显示英文
异常收集 原因:解决办法仰天大笑出门去,我辈岂是蓬蒿人 传入一个时间获取这个时间对应的是星期几,在开发环境(window系统)中显示为星期几,部署到服务器(linux系统)中会显示英文的时间…...
一个关于proto 文件的经验分享 :gRPC 跨语言双端通信显示错误码:12 UNIMPLEMENTED (附赠gRPC错误码表)
错误现象描述: 在使用c的客户端向golang的服务端发送远程调用时,显示: /home/zry/gRPC/grpc-v1.45.2/examples/cpp/DeviceData/greeter_client.cc83 12: unknown service DeviceData.DeviceDataService Greeter 接收到: RPC 失败这里的unkn…...
腾讯极光盒子A4021增强版_线刷官方
1、用USB_Burning_Tool线刷提供的线刷包,所需资料地址在最后 1)打开USB_Burning_Tool,选择资料里的A4021_line_flash_root.img(文件夹最好没有中文字符和空格),然后点击【开始】。 2)盒子准备好双USB线和电源。在1秒内先插入电源,再插入usb口。等这个软件识别到盒子,…...
机器学习第11天:降维
文章目录 机器学习专栏 主要思想 主流方法 投影 二维投射到一维 三维投射到二维 流形学习 PCA主成分分析 介绍 代码 内核PCA 具体代码 LLE 结语 机器学习专栏 机器学习_Nowl的博客-CSDN博客 主要思想 介绍:当一个任务有很多特征时,我们…...
异步爬取+多线程+redis构建一个运转丝滑且免费http-ip代理池 (三)
内容提要: 如果说,爬取网页数据的时候,我们使用了异步,那么将数据放入redis里面,其实也需要进行异步;当然,如果使用多线程或者redis线程池技术也是可以的,但那会造成冗余; 因此,在测试完多线程redis搭配异步爬虫的时候,我发现效率直接在redis这里被无限拉低下来! 因此: 最终的r…...
VSCode新建Vue项目
前言 Vue.js 是一款流行的 JavaScript 前端框架,它可以帮助开发者轻松构建高性能、可扩展的 Web 应用程序。而 VSCode 则是一款功能强大的开源代码编辑器,它提供了许多有用的工具和插件,可以大幅提高开发效率。 在本文中,我们将…...
前端学习--React(1)
一、React简介 React由Meta公司研发,是一个用于 构建Web和原生交互界面的库 优势:组件化开发、不错的性能、丰富生态(所有框架中最好)、跨平台(web、ios、安卓) 开发环境搭建 打开相应文件夹 新建终端并…...
HarmonyOS从基础到实战-高性能华为在线答题元服务
最近看到美团、新浪、去哪儿多家互联网企业启动鸿蒙原生应用开发,这个HarmonyOS NEXT越来越引人关注。奈何当前不面向个人开发者开放,但是我们可以尝试下鸿蒙新的应用形态——元服务的开发。 元服务是基于HarmonyOS提供的一种面向未来的服务提供方式&…...
OpenCV快速入门:窗口交互
文章目录 前言一、鼠标操作1.1 鼠标操作简介1.2 鼠标事件类型(event类型)1.3 鼠标事件标志(flags)1.4 代码示例1.4.1 获取鼠标坐标位置1.4.2 监听鼠标滚轮事件1.4.3 在图像中显示鼠标坐标 二、键盘操作2.1 代码示例2.2 waitKey的等…...
数据智能引擎:企业模糊搜索API精准获取企业列表信息
引言 随着信息时代的迅速发展,数据变得愈加庞大和复杂。在这个大数据的时代,企业面临着海量信息的管理和利用挑战。为了更有效地获取并利用数据,企业信息模糊搜索API成为了企业数据智能引擎的一部分,为企业提供了精准的企业列表检…...
汇编-间接寻址(处理数组)
直接寻址很少用于数组处理,因为用常数偏移量来寻址多个数组元素时,直接寻址并不实用。取而代之的是使用寄存器作为指针(称为间接寻址(indirect addressing) ) 并控制该寄存器的值。如果一个操作数使用的是间接寻址, 就称之为间接操作数(indie…...
lombok 的使用讲解
目录 前言1. 基本知识2. 代码应用 前言 在项目中经常会看到lombok的应用,此文作为科普帖,详细介绍lombok 1. 基本知识 简介: Project Lombok是一款用于Java开发的工具,旨在通过自动生成样板代码来简化Java代码的编写。 它通过注…...
echarts的使用
1. 普通版 其实主要就是option1,option1就是画的图 echats不能响应刷新,要想实时刷新监听刷新的值重新调用一下方法即可 html <div class"echart" style"width: 100%;height: calc(100% - 130px)" ref"main1">&l…...
js进阶笔记之构造函数
目录 一、构造函数 1、 创建对象 2、new执行过程 3、带参数构造函数 4、实例成员与静态成员 二、内置构造函数 1、Object静态方法 2、包装类型 3、Array 1、map方法 2、find方法 3、findIndex( ) 4、some与every 5、reverse() 6、reduce方法 7、forEach() …...
Codesys数据类型(2.7):扩展数据类型之 别名 详解
Codesys代码代写,程序开发,软件定制,bug修改,问题咨询: T宝搜索店铺【林磊教育】 定义及声明 别名的目的是声明出 基本数据类型,结构体,枚举、共用体(UNION)、功能块、指针备用名字,…...
白盒子测试总结
白盒子测试,也称为结构测试、透明盒测试、逻辑驱动测试或基于代码的测试,是一种测试用例的设计方法。白盒测试需要全面了解被测试程序的内部逻辑结构,并对所有逻辑路径进行测试。其基本方法包括: 语句覆盖:设计若干个…...
生成式AI在软件质量保障中的应用:从测试生成到智能维护
1. 生成式AI如何重塑软件质量保障的底层逻辑在软件开发的漫长周期里,质量保障(SQA)一直是那个既关键又繁重的环节。传统上,它高度依赖工程师的经验、严谨的流程和大量重复性的人工操作——从编写测试用例、执行回归测试࿰…...
CANN/hccl 分散操作示例
集合通信 - Scatter 【免费下载链接】hccl 集合通信库(Huawei Collective Communication Library,简称HCCL)是基于昇腾AI处理器的高性能集合通信库,为计算集群提供高性能、高可靠的通信方案 项目地址: https://gitcode.com/cann…...
Video DownloadHelper CoApp终极指南:从零开始高效下载与转换视频
Video DownloadHelper CoApp终极指南:从零开始高效下载与转换视频 【免费下载链接】vdhcoapp Companion application for Video DownloadHelper browser add-on 项目地址: https://gitcode.com/gh_mirrors/vd/vdhcoapp Video DownloadHelper CoApp是一款功能…...
Kitty终端工具集:GPU加速与配置即代码的现代开发者利器
1. 项目概述:一个面向开发者的现代化终端工具集最近在折腾开发环境,发现很多朋友还在用着系统自带的终端,或者一些功能相对基础的第三方工具。这让我想起自己几年前,为了提升命令行工作效率,花了不少时间寻找和配置终端…...
GitHub中文界面终极指南:3步免费快速安装,告别英文困扰
GitHub中文界面终极指南:3步免费快速安装,告别英文困扰 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为…...
主动学习加速广义Benders分解求解混合整数经济模型预测控制
1. 项目概述与核心价值最近在做一个挺有意思的项目,核心是把一个听起来很“学术”的算法——广义Benders分解,和工业界里越来越火的经济模型预测控制给揉到了一起,并且用主动学习这个思路去优化整个求解过程。乍一听,这标题里又是…...
科研绘图别再乱找素材了
作为常年和学术插图打交道的基础方向博士生,我见过太多朋友实验数据很漂亮,最后因为绘图不规范被编辑打回,甚至因为版权问题耽误接收——其实科研绘图不是让你当设计师,只要摸对规律,选对工具,完全可以快速…...
AI如何优化卫星与HAPS网络的资源管理与智能切换
1. 项目概述:当AI遇见天空网络最近几年,我一直在关注一个特别有意思的交叉领域:如何把那些听起来很“酷”的人工智能技术,实实在在地用在解决天空中的通信难题上。这个项目标题——“AI在卫星通信与HAPS网络中的资源管理与切换优化…...
OpenClaw:AI 多线程时代的开始
网罗开发(小红书、快手、视频号同名)大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方…...
当STM32H7B0调试器连不上时:手把手教你用串口指令‘唤醒’它的Bootloader模式
STM32H7B0调试器连接失败?串口指令唤醒Bootloader全攻略 遇到STM32H7B0突然"罢工",调试器死活连不上时,多数工程师的第一反应是反复插拔ST-Link或检查接线——但更聪明的做法是直接唤醒芯片内置的Bootloader。这个藏在芯片ROM中的救…...
