当前位置: 首页 > news >正文

大数据之旅-问题反思

1.谈谈你对MR执行流程各个阶段的理解(提示里面涉及到排序,快速排序或者归并排序知道两种实现形式)?

2.hadoop 1.0和hadoop 2.0明显的差异如何理解?

hadoop2.0与hadoop1.0区别体现在在架构、性能、功能和组件方面,新的版本更加强大、灵活、可靠和高效,适用于大规模数据的处理、存储和分析。
1.Hadoop 2.0具有更好的集群管理能力
Hadoop 2.0引入了YARN(Yet Another Resource Negotiator)框架,它是Hadoop1.0中JobTracker和TaskTracker的替代品,能够更好地管理资源任务分配。与Hadoop 1.0相比,Hadoop 2.0可支持多种类型的处理程序,如批处理、流处理以及图形处理等等。

2. Hadoop 2.0支持非MapReduce应用程序

Hadoop2.0提供了一个面向资源管理的通用框架,允许运行除MapReduce之外的非批处理程序,如Storm、Spark、Samza等等。这使得Hadoop可以处理各种类型的数据,并且更灵活,更适合混合型分析任务。

3. Hadoop 2.0中修改了HDFS的体系结构

Hadoop 2.0中对HDFS体系结构进行了大规模修改,使其更加健壮和可靠。新版本中引入了一些新的特性,如Secondary
NameNode的去除、NameNode的高可用性、块缓存以及数据完整性检查等。

4. Hadoop 2.0提高了性能和效率

Hadoop 2.0的新版高效执行引擎不仅允许在多个应用程序之间共享资源,还改善了任务调度效率,从而提高了处理速度和性能。Hadoop2.0还采用了新的资源分配和管理功能,如容器(Container)机制,可以更好地利用机器资源,实现资源的细粒度管理。

总体而言,Hadoop 2.0对于大规模的数据处理任务来说有显著的性能优势,高可用性、可靠性及更好的集群管理能力是Hadoop 2.0的显著优势。

3.谈谈工作中数据处理的流程?

4.hive 内外表的区别和使用场景有哪些?
区别:

1.在建表的时候,外部表要使用 EXTERNAL 关键字,不指定默认是内部表;
2.创建外部表的同时,语句末尾一般要自己指定 数据文件存储路径 location ‘/AUTO/PATH’ 3。内部表不用特殊指定,默认为/user/hive/warehouse,

可配置:hive-site.xml   <property><name>hive.metastore.warehouse.dir</name><value>/hive/warehouse</value>   </property>

4.内部表数据由Hive自身管理,外部表数据由HDFS管理; 5.DTOP TABLE
内部表:元数据和数据文件都会被删除掉
外部表:元数据被删除,数据文件任然保留 ,此时重建表都是可以的,还是可以直接查数据的
6.LOAD DATA
加载HDFS DATA都是会将HDFS数据进行移动到对应的表目录,类似 mv 命令

应用场景:

1.每天采集的ng日志和埋点日志,在存储的时候建议使用外部表,因为日志数据是采集程序实时采集进来的,一旦被误删,恢复起来非常麻烦。而且外部表方便数据的共享。

2.抽取过来的业务数据,其实用外部表或者内部表问题都不大,就算被误删,恢复起来也是很快的,如果需要对数据内容和元数据进行紧凑的管理, 那还是建议使用内部表

3.在做统计分析时候用到的中间表,结果表可以使用内部表,因为这些数据不需要共享,使用内部表更为合适。并且很多时候结果分区表我们只需要保留最近3天的数据,用外部表的时候删除分区时无法删除数据。

5.行式存储和列式存储有什么区别(优劣)?

行存储将每条数据的所有列连续存储在一起,一条记录接着一条记录; 行存储中数据写入的成本较低,适合数据有频繁更新的场景;
通过使用索引,能大幅提高行存储的数据查询速度;
行存储是传统的数据组织形式,更适合传统的 OLTP 系统;(OLTP数据库表的设计强调范式,底层一般有多张有关联关系的窄表)

而列存储有以下特点:

列存储将多行记录的列连续存储在一起,一列接着一列; 由于连续存储在一起的列的数据类型都一样,所以数据压缩率更高,更省存储空间;
列存储中数据查询的成本较低,特别适合分析时只查询部分列的场景,因为不需要扫描/读取不需要查询的列;
列存储由于数据更新成本较高,一般适合读多写少的场景;(但是不代表不能更新!) 列存储是新型数据组织形式,更适合 OLAP分析型系统;(OLAP数据库表的设计强调反范式,底层一般是星型模式的若干张事实表和维度表,倾向使用大宽表)

相关文章:

大数据之旅-问题反思

1.谈谈你对MR执行流程各个阶段的理解&#xff08;提示里面涉及到排序&#xff0c;快速排序或者归并排序知道两种实现形式&#xff09;&#xff1f; 2.hadoop 1.0和hadoop 2.0明显的差异如何理解&#xff1f; hadoop2.0与hadoop1.0区别体现在在架构、性能、功能和组件方面&…...

系统级基础信号知识【Linux】

目录 一&#xff0c;什么是信号 进程面对信号常见的三种反应概述 二&#xff0c;产生信号 1.终端按键产生信号 signal 2. 进程异常产生信号 核心转储 3. 系统调用函数发送信号 kill raise abort 小结&#xff1a; 4. 由软件条件产生 alarm 5. 硬件异常产生信号…...

Excel单元格隐藏如何取消?

Excel工作表中的有些单元格隐藏了数据&#xff0c;如何取消隐藏行列呢&#xff1f;今天分享几个方法给大家 方法一&#xff1a; 选中隐藏的区域&#xff0c;点击右键&#xff0c;选择【取消隐藏】就可以了 方法二&#xff1a; 如果工作表中有多个地方有隐藏的话&#xff0c;…...

Visual Studio(VS)常用快捷键(最详细)

Visual Studio常用快捷键 一、生成&#xff1a;常用快捷键二、调式&#xff1a;常用快捷键三、编辑&#xff1a;常用快捷键四、文件&#xff1a;常用快捷键五、项目&#xff1a;常用快捷键六、重构&#xff1a;常用快捷键七、工具&#xff1a;常用快捷键八、视图&#xff1a;常…...

UDP特性之组播(多播)

UDP特性之组播 1. 组播的特点2. 设置主播属性2.1 发送端2.2 接收端 3. 组播通信流程3.1 发送端3.2 接收端 4. 通信代码 原文链接 在公司测试广播和多播有一点问题。。。 1. 组播的特点 组播也可以称之为多播这也是UDP的特性之一。组播是主机间一对多的通讯模式&#xff0c;是…...

ElasticSearch之cat shards API

命令样例如下&#xff1a; curl -X GET "https://localhost:9200/_cat/shards?vtrue&pretty" --cacert $ES_HOME/config/certs/http_ca.crt -u "elastic:ohCxPHQBEs5*lo7F9"执行结果输出如下&#xff1a; index shard prirep state docs s…...

Thread-Per-Message设计模式

Thread-Per-Message是为每一个消息的处理开辟一个线程&#xff0c;以并发方式处理&#xff0c;提高系统整体的吞吐量。这种模式再日常开发中非常常见&#xff0c;为了避免线程的频繁创建和销毁&#xff0c;可以使用线程池来代替。 示例代码如下&#xff1a; public class Requ…...

运筹学经典问题(一):指派问题

问题描述 有 N N N个任务&#xff0c;需要 N N N个人去完成&#xff0c;每个人完成不同工作的效率不同&#xff08;或者资源、收益等等&#xff09;&#xff0c;需要怎么分配使得整体的效率最高&#xff08;成本最低等等&#xff09;呢&#xff1f;这就是经典的指派问题啦&…...

产品经理之如何编写竞品分析(医疗HIS系统管理详细案例模板)

目录 一.项目周期 二.竞品分析的目的 三.竞品分析包含的维度 四.如何选择竞品 五.竞品画布 六.案例模板 一.项目周期 在整个项目的周期&#xff0c;产品经理所做的事情主要在项目前期做市场分析、需求调研等&#xff0c;下面一张图概况了整个项目周期产品经理、开发工程师…...

虚拟内存管理

虚拟内存管理 页面置换算法 功能和目标&#xff1a; 功能&#xff1a;当缺页中断发生&#xff0c;需要调入新的页面而内存已经满时&#xff0c;选择内存当中哪个物理页面被置换。目标&#xff1a;尽可能的减少页面的换进换出次数&#xff08;即缺页中断的次数&#xff09;。具…...

ssh时怎么同时指定其端口号,以及scp文件到远程的指定端口

如果想要通过 SSH 连接到指定端口的远程服务器&#xff0c;可以在 SSH 命令中使用 -p 或 --port 参数来指定端口号。以下是相应的用法&#xff1a; $ ssh -p <port> userhost其中&#xff0c; 是要连接的端口号&#xff0c;user 是远程服务器上的用户名&#xff0c;host…...

Redis过期淘汰策略

一. Redis过期淘汰策略 当Redis已用内存超过maxmemory限定时&#xff0c;触发主动清理策略。 主动清理策略在Redis 4.0之前一共实现了 6 种内存淘汰策略&#xff0c;在 4.0 之后&#xff0c;又增加了 2 种 策略&#xff0c;总共8种&#xff1a; 针对设置了过期时间的key做处理…...

微信小程序---自定义组件

目录 1.局部引用组件 2.全局引用组件 3.组件和页面的区别 4.自定义组件样式 5.properties属性 6.data和properties的区别 7.数据监听器 8.纯数据字段 9.自定义组件-组件的生命周期 lifetimes节点 10.组件所在的页面的生命周期 pageLifetimes节点 11.插槽 &#x…...

CGAL的最优传输曲线重构

1、介绍 此程序包实现了一种重建和简化二维点集的方法。输入是一组具有质量属性的二维点&#xff0c;可能受到噪声和离群值的干扰。输出是一组线段和孤立点&#xff0c;它们近似于输入点&#xff0c;如下图所示。质量属性与每个点的近似重要性有关。 左&#xff1a;输入点集受到…...

使用Docker本地安装部署Draw.io绘图工具并实现远程访问协作办公

前言 提到流程图&#xff0c;大家第一时间可能会想到Visio&#xff0c;不可否认&#xff0c;VIsio确实是功能强大&#xff0c;但是软件为收费&#xff0c;并且因为其功能强大&#xff0c;导致安装需要很多的系统内存&#xff0c;并且是不可跨平台使用。所以&#xff0c;今天给…...

流程图、泳道图的介绍和示例分享,以及自定义元件库的介绍

目录 一. 流程图介绍 二. Processon使用 新建一个流程图 图形的使用 三. 流程图示例 登录界面 门诊业务流程图 住院业务流程图 药房业务流程图 会议OA流程图 四. 泳道图介绍 五. 自定义元件库 5.1 新建一个元件库 5.2 创建元件 5.3 使用自定义元件库 一. 流程图介…...

RabbitMq的详细使用

消息队列RabbitMQ详细使用 文章目录 消息队列RabbitMQ详细使用MQ 的相关概念什么是MQ为什么要用MQMQ 的分类MQ 的选择 RabbitMQRabbitMQ 的概念四大核心概念各个名词介绍安装RabbitMQWeb管理界面及授权操作Docker 安装Hello world简单示例 Work Queues轮训分发消息消息应答自动…...

软件设计师——软件工程(二)

&#x1f4d1;前言 本文主要是【软件工程】——软件设计师——软件工程的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是听风与他&#x1f947; ☁️博客首页&#xff1a;CSDN主页听风与他 &#x1f304…...

阿里云RDS MySQL 数据如何快速同步到 ClickHouse

云数据库 RDS MySQL 和 云数据库 ClickHouse 是阿里云推出的两个备受欢迎的数据库解决方案&#xff0c;它们为用户提供了可靠的数据存储方案、分析数仓方案&#xff0c;本文介绍如何快速将 RDS MySQL 的数据同步到云数据库 ClickHouse。 如何快速将RDSMySQL的数据同步到云数据库…...

HINet技术要点

《HINet: Half Instance Normalization Network for Image Restoration》发表于CVPR2021&#xff0c;是旷视科技&复旦大学&北大在图像复原方面的的最新进展&#xff0c;所提方案取得了NTIRE2021图像去模糊Track2赛道冠军。 下面谈谈该文章的主要技术点。 1. HIN&#…...

基于Codebender在线IDE快速开发Adafruit FLORA可穿戴硬件项目

1. 项目概述&#xff1a;为什么选择在线IDE来玩转可穿戴硬件&#xff1f;如果你和我一样&#xff0c;是个喜欢鼓捣硬件的创客&#xff0c;那么对Arduino、树莓派这类开发板一定不陌生。每次开始一个新项目&#xff0c;最头疼的往往不是写代码&#xff0c;而是配环境&#xff1a…...

新手如何通过Taotoken控制台快速创建并管理自己的API Key

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 新手如何通过Taotoken控制台快速创建并管理自己的API Key 对于初次接触大模型服务的开发者而言&#xff0c;如何安全、便捷地获取和…...

对比直接调用与通过聚合平台调用大模型的体验差异

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接调用与通过聚合平台调用大模型的体验差异 作为一名需要频繁使用多种大语言模型的开发者&#xff0c;我曾长期维护着来自不…...

独立开发者如何利用Taotoken Token Plan套餐优化项目成本

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 独立开发者如何利用Taotoken Token Plan套餐优化项目成本 对于独立开发者或小型项目团队而言&#xff0c;在拥抱大模型能力的同时&…...

科技与科学新闻摘要-2026年5月16日

科技与科学新闻摘要 日期: 2026年5月16日 科技领域重点新闻 1. 中国2025年度十大科学进展揭晓 核心要点: 中国科学技术部发布了2025年度十大科学进展&#xff0c;覆盖深空探测、人工智能、生命科学、能源技术等多个领域&#xff0c;集中展示了中国基础研究和应用研究的突破性…...

量化交易自动化框架设计:从API客户端到策略回测的工程实践

1. 项目概述与核心价值最近在量化交易和自动化策略开发的圈子里&#xff0c;一个名为cbonoz/kalshi-skill的项目引起了我的注意。乍一看&#xff0c;这像是一个针对特定交易平台 Kalshi 的技能或工具包。对于不熟悉的朋友&#xff0c;Kalshi 是一个新兴的事件合约交易平台&…...

TikTokDownload完整指南:轻松下载无水印抖音内容

TikTokDownload完整指南&#xff1a;轻松下载无水印抖音内容 【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload 抖音内容创作者和爱好者们&#xff0c;你们是否曾经…...

别再死记硬背了!图解STM32按键状态机:从消抖到双击识别的完整逻辑(蓝桥杯适用)

图解STM32按键状态机&#xff1a;从消抖到双击识别的可视化逻辑拆解 在嵌入式开发中&#xff0c;按键处理看似简单&#xff0c;实则暗藏玄机。许多初学者在实现短按、长按和双击识别时&#xff0c;往往陷入代码调试的泥潭——明明逻辑看起来正确&#xff0c;实际运行却总出现误…...

FanControl终极指南:让你的Windows风扇控制变得智能又安静

FanControl终极指南&#xff1a;让你的Windows风扇控制变得智能又安静 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…...

深入TEA5767数据手册:51单片机I²C驱动FM收音模块的避坑指南与调试心得

深入解析TEA5767&#xff1a;51单片机驱动FM收音模块的实战技巧 在嵌入式开发领域&#xff0c;能够独立解读芯片手册并实现功能驱动是工程师的核心能力之一。TEA5767作为一款经典的FM收音芯片&#xff0c;因其低功耗、高集成度和简单的IC接口而广受欢迎。本文将从一个实际开发者…...