hadoop、hive、DBeaver的环境搭建及使用
本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件;
hadoop提供大数据的存储、资源调度、计算,分为三个模块:HDFS、YRAN、MapReduce
HDFS提供数据的分布式存储,分为三个节点NameNode,DataNode,SecondaryNameNode
1、当客户端发起读写数据请求时首先到 NameNode,NameNode审核权限、判断剩余空间,然后告知客户端读写的DataNode地址,客户端向指定的DataNode发送数据包,被写入数据的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode
2、hdfs以biock(块)为单位存储文件,每个块默认256M,可调整块的大小,每个块可创建多个(可设置)备份来保证存储文件的安全性
3、edits文件:是一个流水账文件,记录hdfs中的每一次操作,也记录了文件和block的对应关系,一个文件如果经过多次操作,在edits中存在多条记录、检索文件时效率比较低,所以就有了edits文件的合并
4、edits文件合并后的文件叫做fsimage,只保留文件的最终结果,合并文件的操作是SecondaryNameNode来完成
NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。
启动和停止:start-dfs.sh 、stop-dfs.sh
YARN是hadoop里面的资源调度组件,分为:ResourceManager,NodeManager,ProxyServer,JobHistoryServer
1、ResourceManager:整个集群的资源调度者, 负责协调调度各个程序所需的资源。
2、NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。
3、ProxyServer:应用程序代理,yarn在运行时对外提供了一个web ui站点,代理服务器的功能就是最大限度保障对WEB UI的访问是安全的
4、JobHistoryServer:历史服务器,应用程序历史信息记录服务,日志是在容器中产生的,分布在不同的服务器中难以查询,JobHistoryServer抓取所有的日志在web ui中展示
单个任务在单个服务器上需要的资源称之为容器(container),NodeManager预先占有这些资源供任务使用;
启动和停止yarn:start-yarn.sh、stop-yarn.sh
mapReduce是hadoop的分布式计算组件,运行在yarn中的,不需要单独启动;
MapReduce提供了两个接口:
Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理
Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计
MapReduce 代码比较老,难以学习使用,在MapReduce基础上推出了一些新的工具,底层都是MapReduce在执行
Hive主要包含两个模块
元数据管理:metastore服务,用于存储元数据,如通过load等命令将文本文件存储在mysql等数据库中
sql解析器:将SQL语句 翻译成 MapReduce 程序运行
hive是单机部署,但是可以使用 分布式的mapReduce进行计算
使用hive需要启动metastore和客户端服务(用于客户端连接):
启动元数据管理服务
前台启动:bin/hive --service metastore
后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &
启动客户端,二选一,启动后就可以通过DBeaver或DataGrid等工具连接hive进行操作了
Hive Shell方式(可以直接写SQL): bin/hive
Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2
数据库中的列和文本文件中的列是一一对应的,所以要指定列和列之间的分隔符,hive默认是以”\001”作为分隔符,也可以手动指定
hive和mysql数据库的不同:
hive内部表和外部表:
内部表类似数据库中的表,表和数据是一体的,删除表后数据也删除了
外部表是表和数据是独立的,创建表时指定了目录,那这个目录中的文本文件就默认成为了表数据,删除表后只是表删除了,数据还在
hive中有集合列:array,map,struct 使用这些列时需要指定集合中不同元素之间的分隔符
具体操作步骤及hive的类sql操作见下面附件:
链接:https://pan.baidu.com/s/1i_CefoRjWnO5fZ54AOhxhQ?pwd=g33j
相关视频课程推荐: 2023新版黑马程序员大数据入门到实战教程,大数据开发必会的Hadoop、Hive,云平台实战项目全套一网打尽_哔哩哔哩_bilibili
相关文章:
hadoop、hive、DBeaver的环境搭建及使用
本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件; hadoop提供大数据的存储、资源调度、计算,分为三个模块:HDFS、YRAN、MapReduce HDFS提供数据的分布式存储,分为三个节点NameNode,DataNode,Second…...
Linux上通过SSL/TLS和start tls连接到LDAP服务器(附C++代码实现认证流程)
一,大致流程。 1.首先在Linux上搭建一个LDAP服务器 2.在LDAP服务器上安装CA证书,服务器证书,因为SSL/TLS,start tls都属于机密通信,需要客户端和服务器都存在一个相同的证书认证双方的身份。3.安装phpldapadmin工具&am…...
HarmonyOS ArkTS List组件和Grid组件的使用(五)
简介 ArkUI提供了List组件和Grid组件,开发者使用List和Grid组件能够很轻松的完成一些列表页面。常见的列表有线性列表(List列表)和网格布局(Grid列表): List组件的使用 List是很常用的滚动类容器组件&…...
考研思想政治理论大纲
一:马克思主义基本原理概论 (一)马克思主义是关于无产阶级和人类解放的科学 1、马克思主义的创立和发展 马克思主义的含义。马克思主义产生的经济社会根源、实践基础和思想渊源、马克思主义的创立、马克思主义在实践中的发展 2、马克思主义的鲜明特征 马克思主义科学性和革命…...
日期格式转化成星期几部署到linux显示英文
异常收集 原因:解决办法仰天大笑出门去,我辈岂是蓬蒿人 传入一个时间获取这个时间对应的是星期几,在开发环境(window系统)中显示为星期几,部署到服务器(linux系统)中会显示英文的时间…...
一个关于proto 文件的经验分享 :gRPC 跨语言双端通信显示错误码:12 UNIMPLEMENTED (附赠gRPC错误码表)
错误现象描述: 在使用c的客户端向golang的服务端发送远程调用时,显示: /home/zry/gRPC/grpc-v1.45.2/examples/cpp/DeviceData/greeter_client.cc83 12: unknown service DeviceData.DeviceDataService Greeter 接收到: RPC 失败这里的unkn…...
腾讯极光盒子A4021增强版_线刷官方
1、用USB_Burning_Tool线刷提供的线刷包,所需资料地址在最后 1)打开USB_Burning_Tool,选择资料里的A4021_line_flash_root.img(文件夹最好没有中文字符和空格),然后点击【开始】。 2)盒子准备好双USB线和电源。在1秒内先插入电源,再插入usb口。等这个软件识别到盒子,…...
机器学习第11天:降维
文章目录 机器学习专栏 主要思想 主流方法 投影 二维投射到一维 三维投射到二维 流形学习 PCA主成分分析 介绍 代码 内核PCA 具体代码 LLE 结语 机器学习专栏 机器学习_Nowl的博客-CSDN博客 主要思想 介绍:当一个任务有很多特征时,我们…...
异步爬取+多线程+redis构建一个运转丝滑且免费http-ip代理池 (三)
内容提要: 如果说,爬取网页数据的时候,我们使用了异步,那么将数据放入redis里面,其实也需要进行异步;当然,如果使用多线程或者redis线程池技术也是可以的,但那会造成冗余; 因此,在测试完多线程redis搭配异步爬虫的时候,我发现效率直接在redis这里被无限拉低下来! 因此: 最终的r…...
VSCode新建Vue项目
前言 Vue.js 是一款流行的 JavaScript 前端框架,它可以帮助开发者轻松构建高性能、可扩展的 Web 应用程序。而 VSCode 则是一款功能强大的开源代码编辑器,它提供了许多有用的工具和插件,可以大幅提高开发效率。 在本文中,我们将…...
前端学习--React(1)
一、React简介 React由Meta公司研发,是一个用于 构建Web和原生交互界面的库 优势:组件化开发、不错的性能、丰富生态(所有框架中最好)、跨平台(web、ios、安卓) 开发环境搭建 打开相应文件夹 新建终端并…...
HarmonyOS从基础到实战-高性能华为在线答题元服务
最近看到美团、新浪、去哪儿多家互联网企业启动鸿蒙原生应用开发,这个HarmonyOS NEXT越来越引人关注。奈何当前不面向个人开发者开放,但是我们可以尝试下鸿蒙新的应用形态——元服务的开发。 元服务是基于HarmonyOS提供的一种面向未来的服务提供方式&…...
OpenCV快速入门:窗口交互
文章目录 前言一、鼠标操作1.1 鼠标操作简介1.2 鼠标事件类型(event类型)1.3 鼠标事件标志(flags)1.4 代码示例1.4.1 获取鼠标坐标位置1.4.2 监听鼠标滚轮事件1.4.3 在图像中显示鼠标坐标 二、键盘操作2.1 代码示例2.2 waitKey的等…...
数据智能引擎:企业模糊搜索API精准获取企业列表信息
引言 随着信息时代的迅速发展,数据变得愈加庞大和复杂。在这个大数据的时代,企业面临着海量信息的管理和利用挑战。为了更有效地获取并利用数据,企业信息模糊搜索API成为了企业数据智能引擎的一部分,为企业提供了精准的企业列表检…...
汇编-间接寻址(处理数组)
直接寻址很少用于数组处理,因为用常数偏移量来寻址多个数组元素时,直接寻址并不实用。取而代之的是使用寄存器作为指针(称为间接寻址(indirect addressing) ) 并控制该寄存器的值。如果一个操作数使用的是间接寻址, 就称之为间接操作数(indie…...
lombok 的使用讲解
目录 前言1. 基本知识2. 代码应用 前言 在项目中经常会看到lombok的应用,此文作为科普帖,详细介绍lombok 1. 基本知识 简介: Project Lombok是一款用于Java开发的工具,旨在通过自动生成样板代码来简化Java代码的编写。 它通过注…...
echarts的使用
1. 普通版 其实主要就是option1,option1就是画的图 echats不能响应刷新,要想实时刷新监听刷新的值重新调用一下方法即可 html <div class"echart" style"width: 100%;height: calc(100% - 130px)" ref"main1">&l…...
js进阶笔记之构造函数
目录 一、构造函数 1、 创建对象 2、new执行过程 3、带参数构造函数 4、实例成员与静态成员 二、内置构造函数 1、Object静态方法 2、包装类型 3、Array 1、map方法 2、find方法 3、findIndex( ) 4、some与every 5、reverse() 6、reduce方法 7、forEach() …...
Codesys数据类型(2.7):扩展数据类型之 别名 详解
Codesys代码代写,程序开发,软件定制,bug修改,问题咨询: T宝搜索店铺【林磊教育】 定义及声明 别名的目的是声明出 基本数据类型,结构体,枚举、共用体(UNION)、功能块、指针备用名字,…...
白盒子测试总结
白盒子测试,也称为结构测试、透明盒测试、逻辑驱动测试或基于代码的测试,是一种测试用例的设计方法。白盒测试需要全面了解被测试程序的内部逻辑结构,并对所有逻辑路径进行测试。其基本方法包括: 语句覆盖:设计若干个…...
网络六边形受到攻击
大家读完觉得有帮助记得关注和点赞!!! 抽象 现代智能交通系统 (ITS) 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 (…...
盘古信息PCB行业解决方案:以全域场景重构,激活智造新未来
一、破局:PCB行业的时代之问 在数字经济蓬勃发展的浪潮中,PCB(印制电路板)作为 “电子产品之母”,其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透,PCB行业面临着前所未有的挑战与机遇。产品迭代…...
3.3.1_1 检错编码(奇偶校验码)
从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
【网络安全产品大调研系列】2. 体验漏洞扫描
前言 2023 年漏洞扫描服务市场规模预计为 3.06(十亿美元)。漏洞扫描服务市场行业预计将从 2024 年的 3.48(十亿美元)增长到 2032 年的 9.54(十亿美元)。预测期内漏洞扫描服务市场 CAGR(增长率&…...
Python实现prophet 理论及参数优化
文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
Android15默认授权浮窗权限
我们经常有那种需求,客户需要定制的apk集成在ROM中,并且默认授予其【显示在其他应用的上层】权限,也就是我们常说的浮窗权限,那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...
中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
