当前位置：首页 > news >正文

2023年大数据面试开胃菜

news 2026/5/27 3:49:42

1、kafka的message包括哪些信息

一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成，

header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节的数据：attributes(保存一些相关属性，比如是否压缩、压缩格式等等)；如果magic的值为0，那么不存在attributes属性。

body是由N个字节构成的一个消息体，包含了具体的key/value消息。

2、怎么查看kafka的offset

0.9版本以上，可以用最新的Consumer client 客户端，有consumer.seekToEnd() / consumer.position() 可以用于得到当前最新的offset。

3、hadoop的shuffle过程

①、Map端的shuffle

　　Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

　　在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

②、Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。

　　首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

　　接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。

4、spark集群运算的模式

Spark 有很多种模式，最简单就是单机本地模式，还有单机伪分布式模式，复杂的则运行在集群中，目前能很好的运行在 Yarn和 Mesos 中，当然Spark 还有自带的 Standalone 模式，对于大多数情况 Standalone 模式就足够了，如果企业已经有 Yarn 或者 Mesos 环境，也是很方便部署的。

standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现 HA。

on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算。

on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算。

on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统：HDFS 和 S3

5、HDFS读写数据的过程

读：

1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

写：

1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

2、namenode返回是否可以上传

3、client请求第一个 block该传输到哪些datanode服务器上

4、namenode返回3个datanode服务器ABC

5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

2023年大数据面试开胃菜

相关文章：

2023年大数据面试开胃菜

优雅的controller层设计

同步、通信、死锁

【聚类】谱聚类解读、代码示例

最牛逼的垃圾回收期ZGC(1),简介

微服务的Feign到底是什么

JavaScript 正则表达式

【批处理脚本】-1.15-文件内字符串查找命令find

【手撕面试题】JavaScript（高频知识点二）

Web学习1_HTML

华为OD机试真题Java实现【靠谱的车】真题+解题思路+代码（20222023）

【C++入门（下篇）】C++引用，内联函数，auto关键字的学习

基于合作型Stackerlberg博弈的考虑差别定价和风险管理的微网运行策略研究（Matlab代码实现）

2023年全国最新保安员精选真题及答案8

JavaScript高级程序设计读书分享之6章——MapSet

改进的 A*算法的路径规划（路径规划+代码+毕业设计）

Tina_Linux存储性能参考指南

NCRE计算机等级考试Python真题（四）

LeetCode每周刷题总结2.20-2.26

u盘里删除的文件可以恢复吗?分享解决方法

为什么92%的Sora 2初学者卡在第4步？——帧一致性崩塌诊断工具包+时间轴锚点校准法

IPFS去中心化存储实战指南：黑马程序员音乐播放器项目开发完整教程

DeepSeek代码质量评估实战手册：7步完成从混沌到可度量的质变跃迁

Python 3.7 + XGBoost 多分类实战：从数据清洗到SHAP模型解释的保姆级教程

航空航天为什么离不开高强镁合金？国产替代到哪一步了

电子商务设计师软考备战：特别篇 - 综合模拟与备考策略

Sora 2 MOV导出画质崩坏真相：HDR10元数据丢失、BT.2020色域截断、帧率标志位误写——3大隐性缺陷紧急修复方案

如何利用开源工具Unlock-Music解决音乐平台加密格式兼容问题

开源三角洲机器人Delta-Robot One：从入门到精通的创客实践指南

API渗透测试：契约驱动的协议/语义/架构三层攻防