当前位置: 首页 > news >正文

数据开发的简历及面试

简历

个人信息: 邮箱别写QQ邮箱, 写126邮箱/189邮箱等

 学历>>本科及以上写,大专及以下不写

专业>>非计算机专业不写

政治面貌>>党员写, 群众不用写

掌握的技能: 精通 > 熟悉 > 了解

专业工具: 大数据相关的

公司: 如果没有可以写的>>金融服务外包公司的中小型公司; 地方性银行

外包公司: 业务范围写有技术服务的

工作经历: 从最近的一份工作往回写, 最近的一份工作一年以上

工作经验: 1-3年初级,4年中级,5年及以上高级

项目经验: 工作2-4年的, 3个或以上; 同一家公司的项目跨度别太大; 最后一个项目最好写银行项目,因为银行项目多

项目: 从最近的项目开始往回写;  项目内容包括项目介绍, 个人职责 ;把一个项目重点准备, 了解第二个项目,其他项目可以说时间隔得比较久,记不太清楚了.

简历风格: 简约不花哨

优点:

具备良好的定位问题及解决问题的能力

具备较强的学习能力,能快速学习新的技术

具备良好的沟通能力,

简历模板:

创客贴-做图做视频必备_会打字就能做设计,商用有版权

中文简历(免费下载 | word可编辑)- 简历模板资源网

面试

个人介绍: 

问候语(你好) + 我是(个人信息) + 技能(简要介绍) + 数据开发经验 +突出闪光 +  着重介绍自己的最近一个项目(要说写简历上没有写的更具体一些的信息) + 结束语(以上就是我的大体情况)

面试官: 平常使用什么ETL工具抽取数据?

sqoop

(银行项目数据抽取尽量不用Kettle>>之前发生过数据泄密>>使用sqoop等ETL工具)

面试官: 数仓调度用什么工具?

sqoop(ETL工具) 

面试官: 项目有多少层?每个项目层的是什么?

面试官: 关系型数据库(比如oracle)和hive的区别?

1.存储格式的区别

关系型数据库: oracle 二进制; mysql 不同存储引擎的数据存储格式

hive: 数据存储格式由用户选择>>文本格式(默认), 序列化格式(SequenceFile), 列式存储格式(如Parquet和ORC)

2.计算引擎不同:

Oracle数据库的计算引擎通常指的是其内部用于执行SQL查询和数据操作的组件,包括: SQL执行引擎, 并行执行引擎等; mysql支持多种引擎

hive: 支持3种引擎, MapReduce(默认)、Tez和Spark

3.应用: 

关系型数据库: 适用于需要事务处理、实时查询和数据完整性的场景(OLTP)面向企业日常运营的增删改查,企业必然会有

hive: 适合数据分析大规模数据集, (OLAP), 只有查和分析

4.查询性能

关系型数据库较快; hive较慢

5.事务支持

关系型数据库: 支持ACID(原子性、一致性、隔离性、持久性)事务

hive:不支持ACID事务,主要用于批量处理和分析

面试官: 为什么要用hive进行数据分析?

大规模的数据分析会影响oracle数据库的正常运行>>使用hive分开分开操作

面试官:怎么进行sql优化?

1.先查看执行计划, 看哪个进程耗费的资源多

2.再对sql进行优化

面试官: shell循环方式有多少呢?

for循环; while循环; untill循环(取反值)

面试官: 用shell进行增量抽取,怎么判定脚本是否正常运行?

$? 查看shell脚本是否正常运行

$0查看脚本的名字

$1查看脚本的参数

面试官:(hive) 数据采集从数据源到ODS会遇到什么问题?怎么办?

1.数据采集前后数量不一致: 

检查脚本,修改脚本问题>>删除数据>>进行数据重跑

如果还有问题>>找负责上游系统的同事问一下是不是在我抽数据的过程中, 同事进行了数据删除

如果使用sqoop采集

先看sqoop日志>>看程序是否执行成功>>即代码是否成功

其次进行数据测试

完整型(count(*)对数)

准确性(对地区,金额的关键字段进行聚合计算, 如果不准确要进行抽象测试)

时效性 (T+1)

唯一性(确定数据的唯一版本) 

2.数据倾斜

3.数据飘逸/数据漂移

面试官: 如何测试数据是否前后一致?

  1. 大体上看条数是否一致(对数):首先,通过SQL使用count(*), count(1), count(字段)来比较两个数据源的记录总数是否一致。(多了或少了)

  2. 找出不一致的字段:通过分组和计数操作找出记录数不一致的字段。例如,可以使用以下SQL语句来找出具有重复记录的字段

面试官: 数据有多少种? 依据数据的组织方式和特性进行分类的

结构化数据(指具有明确格式和规则的数据,通常以表格或数据库的形式存在  ;

sql语言>>结构化查询语言)

半结构化数据(数据通常具有自描述性, 如XML和JSON)

非结构化数据(文本、图片、音频、视频等)

面试官: 数据量是多少?

总数据量没有计算过, 我负责的部分日增量30来万

抽取数据花多长时间?

2个小时 

怎么花怎么长时间?

公司服务器性能比较差

怎么抽怎么快?

并行度大,通过sqoop把并行度调高了(原本的4个进程调成8个)

面试官: 你之前使用过什么技术栈

数据库:MySQL, Oracle等

Hadoop生态系统

面试官: 做过报表开发吗?

做过,做得比较少

面试官: 在项目中常用的函数 sum ,case when ,开窗函数(排名), 位移函数,

面试官: 上一份工作的离职原因?

项目结束之后一直没有新的项目,我想找一个能长期有项目的工作 

面试官: shell脚本怎么传参?

在执行脚本的时候传参, 用$1和$2

面试官: 如何强行转换数据类型?

hive  和oracle都是

  

面试官: 如果namenode挂掉了, 怎么办?

可以启用SecondaryNameNode

(作用是辅助NameNode进行元数据管理和检查点(Checkpoint)操作)

面试官:怎么启用SecondaryNameNode?

面试官: 在使用hive的时候, 有没有遇到过数据倾斜?

 有

面试官: 遇到数据倾斜怎么办?

面试官: 你遇到过的数据倾斜是什么原因?怎么办?(hive)

空值过多>>数据分布不均

sqoop底层也是使用map reduce程序>>也可能会产生数据倾斜 

解决方法:

如何排查是否遇到数据倾斜?

去Yarn看一下进程, 看job日志, 看是否卡在某个阶段, 比如map端走完了,reduce端不动了, 就是数据倾斜 

面试官: 开发过什么指标?

 逾期天数, 

面试官: 指标算错了怎么办?

排查原因: 1.数据量是否存在问题,2.指标计算口径是否出错

面试官: 什么是逾期?

逾期是指借款人未能在贷款合同规定的还款日期内按时偿还贷款本金或利息

面试官: 逾期率怎么计算?

面试官:举一个例子说一下你写过的存储过程具体实现了什么业务?

在我之前负责的项目中,我开发了一个存储过程专门用于计算客户的贷款利息。这个存储过程会根据贷款的本金、利率和贷款期限来计算应收的利息金额,并将结果更新到贷款账户中。 (说两句代码)更好

面试官: 在实际开发过程中有没有遇到特别难点?怎么处理的?

没有太难的,难的主要是对业务的理解, 我会频繁和业务人员进行沟通

复杂的指标计算>>涉及到十来张表,需要连接, 嵌套

面试官: 解释一下呆账和坏账?

面试官: 在hive中如何处理小文件?

处理已经存在的小文件

手动合并小文件

使用INSERT OVERWRITE语句:通过将数据重新写入目标表的方式合并小文件

使用CONCATENATE命令:适用于ORC文件格式的表,可以合并分区内的小文件

使用Hadoop命令合并:适合ORC或Parquet格式文件

自动合并小文件

在Hive作业中配置参数,自动触发文件合并

SET hive.merge.mapfiles = true;  --控制是否在Map-only作业结束后合并小文件
SET hive.merge.mapredfiles = true;  --控制是否在Map-Reduce作业结束后合并小文件
SET hive.merge.size.per.task = 256000000; -- 合并后文件的目标大小
SET hive.merge.smallfiles.avgsize = 16000000; -- 触发合并的平均文件大小

预防小文件的生成: 

控制Reduce任务数量:通过调整mapred.reduce.taskshive.exec.reducers.bytes.per.reducer参数,减少输出文件数量

SET hive.exec.reducers.bytes.per.reducer = 256000000; -- 每个Reduce任务处理的数据量

使用INSERT INTO替代多次小批量写入:集中写入可以减少文件数量 

合理规划分区和分桶策略,避免因分区过多导致小文件问题

文件格式: 使用ORC或Parquet格式,并启用压缩(如LZO、Snappy),减少文件数量和存储空间

面试通过多长时间能入职?

一周后

未来的职业规划?

想继续精进自己的技术, 2, 3年以后转做业务

假设你做了项目经理, 你有什么想法?

根据每个人擅长的点,合理配置他们的工作.

面试官: 你还有什么要问的吗?

能否介绍一下贵公司典型的项目周期是怎样的?项目从启动到完成通常需要多长时间?

公司经常做的项目有哪些? 

“您能否分享一下团队目前使用的主要技术栈?"

是否有二面? 二面的具体时间是什么时候?

能否介绍一下你们公司的团队结构和工作方式?

“贵公司如何支持员工的职业发展和技能提升?”

公司在未来几年有哪些主要的业务目标或发展方向?

相关文章:

数据开发的简历及面试

简历 个人信息: 邮箱别写QQ邮箱, 写126邮箱/189邮箱等 学历>>本科及以上写,大专及以下不写 专业>>非计算机专业不写 政治面貌>>党员写, 群众不用写 掌握的技能: 精通 > 熟悉 > 了解 专业工具: 大数据相关的 公司: 如果没有可以写的>>金融服…...

数据存储:一文掌握存储数据到ElasticSearch详解

文章目录 一、Elasticsearch简介二、Python与Elasticsearch交互2.1 安装必要的库2.2 连接到Elasticsearch服务器 三、数据准备四、创建索引(可选)五、存储数据5.1 单个文档索引5.2 批量索引 六、查询数据七、更新和删除数据7.1 更新文档7.2 删除文档 八、…...

Pytorch使用手册--将 PyTorch 模型导出为 ONNX(专题二十六)

注意 截至 PyTorch 2.1,ONNX 导出器有两个版本。 torch.onnx.dynamo_export 是最新的(仍处于测试阶段)导出器,基于 PyTorch 2.0 发布的 TorchDynamo 技术。 torch.onnx.export 基于 TorchScript 后端,自 PyTorch 1.2.0 起可用。 一、torch.onnx.dynamo_export使用 在 60 …...

Vue2+Element实现Excel文件上传下载预览

目录 一、需求背景 二、落地实现 1.文件上传 图片示例 HTML代码 业务代码 2.文件下载 图片示例 方式一:代码 方式二:代码 3.文件预览 图片示例 方式一:代码 方式二:代码 一、需求背景 在一个愉快的年后&#xff…...

物联网平台建设方案一

系统概述 构建物联网全域支撑服务能力,为实现学院涵盖物联网设备的全面感知、全域互联、全程智控、全域数字基底、全过程统筹管理奠定基础,为打造智能化提供坚实后台基石。 物联网平台向下接入各种传感器、终端和网关,向上通过开放的实施分…...

机器学习破局指南:零基础6个月系统训练计划

以下是为零基础学习者制定的「机器学习」系统学习计划(含学习路径资源推荐),分为6个阶段,建议学习周期4-6个月: 一、基础准备阶段(1-2周) 目标:掌握必要数学工具与编程基础 数学基础…...

mmdetection框架下使用yolov3训练Seaships数据集

之前复现的yolov3算法采用的是传统的coco数据集,这里我需要在新的数据集上跑,也就是船舶检测方向的SeaShips数据集,这里给出教程。 Seaships论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber8438999 一、…...

unity学习52:UI的最基础组件 rect transform,锚点anchor,支点/轴心点 pivot

目录 1 image 图像:最简单的UI 1.1 图像的基本属性 1.2 rect transform 1.3 image的component: 精灵 → 图片 1.4 修改颜色color 1.5 修改材质 1.6 raycast target 1.7 maskable 可遮罩 1.8 imageType 1.9 native size 原生大小 2 rect transform 2.1 …...

STM32MP15-FSMP1A单片机移植Linux系统platform总线驱动

之前在该单片机下移植的Linux驱动是学习过程中,对Linux内核驱动的引导学习,接下来才是比较正常的驱动开发。 在Linux内核中,对于驱动的处理,一般会通过总线进行设备信息和设备驱动的匹配,来达到自动检测外设连接系统以…...

Java 常见的面试题(设计模式)

一、说一下你熟悉的设计模式? **设计模式:**是一套被反复使用的代码设计经验的总结(情境中一个问题经过证实的一个解决方案)。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。设计模式使人们可以更加简…...

机器学习3-聚类

1 聚类解决的问题 知识发现,发现事物之间的潜在关系异常值检测特征提取 数据压缩的例子新闻自动分组、用户分群、图像分割、像素压缩等等 2 与监督学习比较 监督学习是需要给定X、Y,X为特征,Y为标签,选择模型,学习&a…...

html中的css

css (cascading style sheets,串联样式表,也叫层叠样式表) css规范一般约定: 1.存放CSS样式文件的目录一般命名为style或css。 2.在项目初期,会把不同类别的样式放于不同的CSS文件,是为了CSS编…...

36. Spring Boot 2.1.3.RELEASE 中实现监控信息可视化并添加邮件报警功能

1. 创建 Spring Boot Admin Server 项目 1.1 添加依赖 在 pom.xml 中添加 Spring Boot Admin Server 和邮件相关依赖&#xff1a; <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-w…...

Linux: 已占用接口

Linux: 已占用接口 1. netstat&#xff08;适用于旧系统&#xff09;1.1 书中对该命令的介绍 2. ss&#xff08;适用于新系统&#xff0c;替代 netstat&#xff09;3. lsof&#xff08;查看详细进程信息&#xff09;4. fuser&#xff08;快速查找占用端口的进程&#xff09;5. …...

Vscode的通义灵码占用空间过大问题【.lingma】

C盘空间发现没装几个软件但是空间占用太离谱了&#xff0c; 最后排查发现是一个.lingma的文件夹问题&#xff0c;这个文件夹用了我居然差不多一百G的空间&#xff0c; 点进去。删除掉ai训练时产生的dbc文件就好了&#xff0c; windowsI 打开系统设置&#xff0c;搜索存储&#…...

鸿蒙Next如何自定义标签页

前言 项目需求是展示标签&#xff0c;标签的个数不定&#xff0c;一行展示不行就自行换行。但是&#xff0c;使用鸿蒙原生的 Grid 后发现特别的难看。然后就想着自定义控件。找了官方文档&#xff0c;发现2个重要的实现方法&#xff0c;但是&#xff0c;官方的demo中讲的很少&…...

知识拓展:Python 接口实现方式对比:Protocol vs @implementer

Python 接口实现方式对比&#xff1a;Protocol vs implementer 1. 两种接口实现方式 1.1 Python Protocol&#xff08;结构化子类型&#xff09; from typing import Protocolclass DownloadHandlerProtocol(Protocol):def download_request(self, request: Request, spider:…...

开源程序wordpress在海外品牌推广中的重要作用

WordPress作为全球最流行的开源内容管理系统(CMS)&#xff0c;在全球网站搭建中占据超过40%的市场份额。其强大的功能、灵活性和易用性使其成为企业进行海外品牌推广的首选平台。以下是WordPress在海外品牌推广中的重要性分析&#xff1a; 1. 多语言支持与本地化 WordPress通…...

【Python爬虫(89)】爬虫“反水”:助力数字版权保护的逆向之旅

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

k8s面试题总结(五)

1.考虑一种情况&#xff0c;即公司希望通过维持最低成本来提高其效率和技术运营速度。您认为公司将如何实现这一目标&#xff1f; 公司可以通过构建 CI/CD 管道来实现 DevOps 方法&#xff0c;但是这里可能出现的一个问题是配置可能需要一段时间才能启动并运行。 因此&#x…...

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能&#xff0c;包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

边缘计算医疗风险自查APP开发方案

核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

聊聊 Pulsar:Producer 源码解析

一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台&#xff0c;以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中&#xff0c;Producer&#xff08;生产者&#xff09; 是连接客户端应用与消息队列的第一步。生产者…...

【磁盘】每天掌握一个Linux命令 - iostat

目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat&#xff08;I/O Statistics&#xff09;是Linux系统下用于监视系统输入输出设备和CPU使…...

今日学习:Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录 优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义 使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因 常见解决方法更好的解决方法设计精妙之处 登录续期登录续期常见实现方式特…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列&#xff0c;以便知晓哪些列包含有价值的数据&#xff0c;…...

Webpack性能优化:构建速度与体积优化策略

一、构建速度优化 1、​​升级Webpack和Node.js​​ ​​优化效果​​&#xff1a;Webpack 4比Webpack 3构建时间降低60%-98%。​​原因​​&#xff1a; V8引擎优化&#xff08;for of替代forEach、Map/Set替代Object&#xff09;。默认使用更快的md4哈希算法。AST直接从Loa…...

sshd代码修改banner

sshd服务连接之后会收到字符串&#xff1a; SSH-2.0-OpenSSH_9.5 容易被hacker识别此服务为sshd服务。 是否可以通过修改此banner达到让人无法识别此服务的目的呢&#xff1f; 不能。因为这是写的SSH的协议中的。 也就是协议规定了banner必须这么写。 SSH- 开头&#xff0c…...

深入解析光敏传感技术:嵌入式仿真平台如何重塑电子工程教学

一、光敏传感技术的物理本质与系统级实现挑战 光敏电阻作为经典的光电传感器件&#xff0c;其工作原理根植于半导体材料的光电导效应。当入射光子能量超过材料带隙宽度时&#xff0c;价带电子受激发跃迁至导带&#xff0c;形成电子-空穴对&#xff0c;导致材料电导率显著提升。…...