当前位置: 首页 > news >正文

数据开发的简历及面试

简历

个人信息: 邮箱别写QQ邮箱, 写126邮箱/189邮箱等

 学历>>本科及以上写,大专及以下不写

专业>>非计算机专业不写

政治面貌>>党员写, 群众不用写

掌握的技能: 精通 > 熟悉 > 了解

专业工具: 大数据相关的

公司: 如果没有可以写的>>金融服务外包公司的中小型公司; 地方性银行

外包公司: 业务范围写有技术服务的

工作经历: 从最近的一份工作往回写, 最近的一份工作一年以上

工作经验: 1-3年初级,4年中级,5年及以上高级

项目经验: 工作2-4年的, 3个或以上; 同一家公司的项目跨度别太大; 最后一个项目最好写银行项目,因为银行项目多

项目: 从最近的项目开始往回写;  项目内容包括项目介绍, 个人职责 ;把一个项目重点准备, 了解第二个项目,其他项目可以说时间隔得比较久,记不太清楚了.

简历风格: 简约不花哨

优点:

具备良好的定位问题及解决问题的能力

具备较强的学习能力,能快速学习新的技术

具备良好的沟通能力,

简历模板:

创客贴-做图做视频必备_会打字就能做设计,商用有版权

中文简历(免费下载 | word可编辑)- 简历模板资源网

面试

个人介绍: 

问候语(你好) + 我是(个人信息) + 技能(简要介绍) + 数据开发经验 +突出闪光 +  着重介绍自己的最近一个项目(要说写简历上没有写的更具体一些的信息) + 结束语(以上就是我的大体情况)

面试官: 平常使用什么ETL工具抽取数据?

sqoop

(银行项目数据抽取尽量不用Kettle>>之前发生过数据泄密>>使用sqoop等ETL工具)

面试官: 数仓调度用什么工具?

sqoop(ETL工具) 

面试官: 项目有多少层?每个项目层的是什么?

面试官: 关系型数据库(比如oracle)和hive的区别?

1.存储格式的区别

关系型数据库: oracle 二进制; mysql 不同存储引擎的数据存储格式

hive: 数据存储格式由用户选择>>文本格式(默认), 序列化格式(SequenceFile), 列式存储格式(如Parquet和ORC)

2.计算引擎不同:

Oracle数据库的计算引擎通常指的是其内部用于执行SQL查询和数据操作的组件,包括: SQL执行引擎, 并行执行引擎等; mysql支持多种引擎

hive: 支持3种引擎, MapReduce(默认)、Tez和Spark

3.应用: 

关系型数据库: 适用于需要事务处理、实时查询和数据完整性的场景(OLTP)面向企业日常运营的增删改查,企业必然会有

hive: 适合数据分析大规模数据集, (OLAP), 只有查和分析

4.查询性能

关系型数据库较快; hive较慢

5.事务支持

关系型数据库: 支持ACID(原子性、一致性、隔离性、持久性)事务

hive:不支持ACID事务,主要用于批量处理和分析

面试官: 为什么要用hive进行数据分析?

大规模的数据分析会影响oracle数据库的正常运行>>使用hive分开分开操作

面试官:怎么进行sql优化?

1.先查看执行计划, 看哪个进程耗费的资源多

2.再对sql进行优化

面试官: shell循环方式有多少呢?

for循环; while循环; untill循环(取反值)

面试官: 用shell进行增量抽取,怎么判定脚本是否正常运行?

$? 查看shell脚本是否正常运行

$0查看脚本的名字

$1查看脚本的参数

面试官:(hive) 数据采集从数据源到ODS会遇到什么问题?怎么办?

1.数据采集前后数量不一致: 

检查脚本,修改脚本问题>>删除数据>>进行数据重跑

如果还有问题>>找负责上游系统的同事问一下是不是在我抽数据的过程中, 同事进行了数据删除

如果使用sqoop采集

先看sqoop日志>>看程序是否执行成功>>即代码是否成功

其次进行数据测试

完整型(count(*)对数)

准确性(对地区,金额的关键字段进行聚合计算, 如果不准确要进行抽象测试)

时效性 (T+1)

唯一性(确定数据的唯一版本) 

2.数据倾斜

3.数据飘逸/数据漂移

面试官: 如何测试数据是否前后一致?

  1. 大体上看条数是否一致(对数):首先,通过SQL使用count(*), count(1), count(字段)来比较两个数据源的记录总数是否一致。(多了或少了)

  2. 找出不一致的字段:通过分组和计数操作找出记录数不一致的字段。例如,可以使用以下SQL语句来找出具有重复记录的字段

面试官: 数据有多少种? 依据数据的组织方式和特性进行分类的

结构化数据(指具有明确格式和规则的数据,通常以表格或数据库的形式存在  ;

sql语言>>结构化查询语言)

半结构化数据(数据通常具有自描述性, 如XML和JSON)

非结构化数据(文本、图片、音频、视频等)

面试官: 数据量是多少?

总数据量没有计算过, 我负责的部分日增量30来万

抽取数据花多长时间?

2个小时 

怎么花怎么长时间?

公司服务器性能比较差

怎么抽怎么快?

并行度大,通过sqoop把并行度调高了(原本的4个进程调成8个)

面试官: 你之前使用过什么技术栈

数据库:MySQL, Oracle等

Hadoop生态系统

面试官: 做过报表开发吗?

做过,做得比较少

面试官: 在项目中常用的函数 sum ,case when ,开窗函数(排名), 位移函数,

面试官: 上一份工作的离职原因?

项目结束之后一直没有新的项目,我想找一个能长期有项目的工作 

面试官: shell脚本怎么传参?

在执行脚本的时候传参, 用$1和$2

面试官: 如何强行转换数据类型?

hive  和oracle都是

  

面试官: 如果namenode挂掉了, 怎么办?

可以启用SecondaryNameNode

(作用是辅助NameNode进行元数据管理和检查点(Checkpoint)操作)

面试官:怎么启用SecondaryNameNode?

面试官: 在使用hive的时候, 有没有遇到过数据倾斜?

 有

面试官: 遇到数据倾斜怎么办?

面试官: 你遇到过的数据倾斜是什么原因?怎么办?(hive)

空值过多>>数据分布不均

sqoop底层也是使用map reduce程序>>也可能会产生数据倾斜 

解决方法:

如何排查是否遇到数据倾斜?

去Yarn看一下进程, 看job日志, 看是否卡在某个阶段, 比如map端走完了,reduce端不动了, 就是数据倾斜 

面试官: 开发过什么指标?

 逾期天数, 

面试官: 指标算错了怎么办?

排查原因: 1.数据量是否存在问题,2.指标计算口径是否出错

面试官: 什么是逾期?

逾期是指借款人未能在贷款合同规定的还款日期内按时偿还贷款本金或利息

面试官: 逾期率怎么计算?

面试官:举一个例子说一下你写过的存储过程具体实现了什么业务?

在我之前负责的项目中,我开发了一个存储过程专门用于计算客户的贷款利息。这个存储过程会根据贷款的本金、利率和贷款期限来计算应收的利息金额,并将结果更新到贷款账户中。 (说两句代码)更好

面试官: 在实际开发过程中有没有遇到特别难点?怎么处理的?

没有太难的,难的主要是对业务的理解, 我会频繁和业务人员进行沟通

复杂的指标计算>>涉及到十来张表,需要连接, 嵌套

面试官: 解释一下呆账和坏账?

面试官: 在hive中如何处理小文件?

处理已经存在的小文件

手动合并小文件

使用INSERT OVERWRITE语句:通过将数据重新写入目标表的方式合并小文件

使用CONCATENATE命令:适用于ORC文件格式的表,可以合并分区内的小文件

使用Hadoop命令合并:适合ORC或Parquet格式文件

自动合并小文件

在Hive作业中配置参数,自动触发文件合并

SET hive.merge.mapfiles = true;  --控制是否在Map-only作业结束后合并小文件
SET hive.merge.mapredfiles = true;  --控制是否在Map-Reduce作业结束后合并小文件
SET hive.merge.size.per.task = 256000000; -- 合并后文件的目标大小
SET hive.merge.smallfiles.avgsize = 16000000; -- 触发合并的平均文件大小

预防小文件的生成: 

控制Reduce任务数量:通过调整mapred.reduce.taskshive.exec.reducers.bytes.per.reducer参数,减少输出文件数量

SET hive.exec.reducers.bytes.per.reducer = 256000000; -- 每个Reduce任务处理的数据量

使用INSERT INTO替代多次小批量写入:集中写入可以减少文件数量 

合理规划分区和分桶策略,避免因分区过多导致小文件问题

文件格式: 使用ORC或Parquet格式,并启用压缩(如LZO、Snappy),减少文件数量和存储空间

面试通过多长时间能入职?

一周后

未来的职业规划?

想继续精进自己的技术, 2, 3年以后转做业务

假设你做了项目经理, 你有什么想法?

根据每个人擅长的点,合理配置他们的工作.

面试官: 你还有什么要问的吗?

能否介绍一下贵公司典型的项目周期是怎样的?项目从启动到完成通常需要多长时间?

公司经常做的项目有哪些? 

“您能否分享一下团队目前使用的主要技术栈?"

是否有二面? 二面的具体时间是什么时候?

能否介绍一下你们公司的团队结构和工作方式?

“贵公司如何支持员工的职业发展和技能提升?”

公司在未来几年有哪些主要的业务目标或发展方向?

相关文章:

数据开发的简历及面试

简历 个人信息: 邮箱别写QQ邮箱, 写126邮箱/189邮箱等 学历>>本科及以上写,大专及以下不写 专业>>非计算机专业不写 政治面貌>>党员写, 群众不用写 掌握的技能: 精通 > 熟悉 > 了解 专业工具: 大数据相关的 公司: 如果没有可以写的>>金融服…...

数据存储:一文掌握存储数据到ElasticSearch详解

文章目录 一、Elasticsearch简介二、Python与Elasticsearch交互2.1 安装必要的库2.2 连接到Elasticsearch服务器 三、数据准备四、创建索引(可选)五、存储数据5.1 单个文档索引5.2 批量索引 六、查询数据七、更新和删除数据7.1 更新文档7.2 删除文档 八、…...

Pytorch使用手册--将 PyTorch 模型导出为 ONNX(专题二十六)

注意 截至 PyTorch 2.1,ONNX 导出器有两个版本。 torch.onnx.dynamo_export 是最新的(仍处于测试阶段)导出器,基于 PyTorch 2.0 发布的 TorchDynamo 技术。 torch.onnx.export 基于 TorchScript 后端,自 PyTorch 1.2.0 起可用。 一、torch.onnx.dynamo_export使用 在 60 …...

Vue2+Element实现Excel文件上传下载预览

目录 一、需求背景 二、落地实现 1.文件上传 图片示例 HTML代码 业务代码 2.文件下载 图片示例 方式一:代码 方式二:代码 3.文件预览 图片示例 方式一:代码 方式二:代码 一、需求背景 在一个愉快的年后&#xff…...

物联网平台建设方案一

系统概述 构建物联网全域支撑服务能力,为实现学院涵盖物联网设备的全面感知、全域互联、全程智控、全域数字基底、全过程统筹管理奠定基础,为打造智能化提供坚实后台基石。 物联网平台向下接入各种传感器、终端和网关,向上通过开放的实施分…...

机器学习破局指南:零基础6个月系统训练计划

以下是为零基础学习者制定的「机器学习」系统学习计划(含学习路径资源推荐),分为6个阶段,建议学习周期4-6个月: 一、基础准备阶段(1-2周) 目标:掌握必要数学工具与编程基础 数学基础…...

mmdetection框架下使用yolov3训练Seaships数据集

之前复现的yolov3算法采用的是传统的coco数据集,这里我需要在新的数据集上跑,也就是船舶检测方向的SeaShips数据集,这里给出教程。 Seaships论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber8438999 一、…...

unity学习52:UI的最基础组件 rect transform,锚点anchor,支点/轴心点 pivot

目录 1 image 图像:最简单的UI 1.1 图像的基本属性 1.2 rect transform 1.3 image的component: 精灵 → 图片 1.4 修改颜色color 1.5 修改材质 1.6 raycast target 1.7 maskable 可遮罩 1.8 imageType 1.9 native size 原生大小 2 rect transform 2.1 …...

STM32MP15-FSMP1A单片机移植Linux系统platform总线驱动

之前在该单片机下移植的Linux驱动是学习过程中,对Linux内核驱动的引导学习,接下来才是比较正常的驱动开发。 在Linux内核中,对于驱动的处理,一般会通过总线进行设备信息和设备驱动的匹配,来达到自动检测外设连接系统以…...

Java 常见的面试题(设计模式)

一、说一下你熟悉的设计模式? **设计模式:**是一套被反复使用的代码设计经验的总结(情境中一个问题经过证实的一个解决方案)。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。设计模式使人们可以更加简…...

机器学习3-聚类

1 聚类解决的问题 知识发现,发现事物之间的潜在关系异常值检测特征提取 数据压缩的例子新闻自动分组、用户分群、图像分割、像素压缩等等 2 与监督学习比较 监督学习是需要给定X、Y,X为特征,Y为标签,选择模型,学习&a…...

html中的css

css (cascading style sheets,串联样式表,也叫层叠样式表) css规范一般约定: 1.存放CSS样式文件的目录一般命名为style或css。 2.在项目初期,会把不同类别的样式放于不同的CSS文件,是为了CSS编…...

36. Spring Boot 2.1.3.RELEASE 中实现监控信息可视化并添加邮件报警功能

1. 创建 Spring Boot Admin Server 项目 1.1 添加依赖 在 pom.xml 中添加 Spring Boot Admin Server 和邮件相关依赖&#xff1a; <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-w…...

Linux: 已占用接口

Linux: 已占用接口 1. netstat&#xff08;适用于旧系统&#xff09;1.1 书中对该命令的介绍 2. ss&#xff08;适用于新系统&#xff0c;替代 netstat&#xff09;3. lsof&#xff08;查看详细进程信息&#xff09;4. fuser&#xff08;快速查找占用端口的进程&#xff09;5. …...

Vscode的通义灵码占用空间过大问题【.lingma】

C盘空间发现没装几个软件但是空间占用太离谱了&#xff0c; 最后排查发现是一个.lingma的文件夹问题&#xff0c;这个文件夹用了我居然差不多一百G的空间&#xff0c; 点进去。删除掉ai训练时产生的dbc文件就好了&#xff0c; windowsI 打开系统设置&#xff0c;搜索存储&#…...

鸿蒙Next如何自定义标签页

前言 项目需求是展示标签&#xff0c;标签的个数不定&#xff0c;一行展示不行就自行换行。但是&#xff0c;使用鸿蒙原生的 Grid 后发现特别的难看。然后就想着自定义控件。找了官方文档&#xff0c;发现2个重要的实现方法&#xff0c;但是&#xff0c;官方的demo中讲的很少&…...

知识拓展:Python 接口实现方式对比:Protocol vs @implementer

Python 接口实现方式对比&#xff1a;Protocol vs implementer 1. 两种接口实现方式 1.1 Python Protocol&#xff08;结构化子类型&#xff09; from typing import Protocolclass DownloadHandlerProtocol(Protocol):def download_request(self, request: Request, spider:…...

开源程序wordpress在海外品牌推广中的重要作用

WordPress作为全球最流行的开源内容管理系统(CMS)&#xff0c;在全球网站搭建中占据超过40%的市场份额。其强大的功能、灵活性和易用性使其成为企业进行海外品牌推广的首选平台。以下是WordPress在海外品牌推广中的重要性分析&#xff1a; 1. 多语言支持与本地化 WordPress通…...

【Python爬虫(89)】爬虫“反水”:助力数字版权保护的逆向之旅

【Python爬虫】专栏简介&#xff1a;本专栏是 Python 爬虫领域的集大成之作&#xff0c;共 100 章节。从 Python 基础语法、爬虫入门知识讲起&#xff0c;深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑&#xff0c;覆盖网页、图片、音频等各类数据爬取&#xff…...

k8s面试题总结(五)

1.考虑一种情况&#xff0c;即公司希望通过维持最低成本来提高其效率和技术运营速度。您认为公司将如何实现这一目标&#xff1f; 公司可以通过构建 CI/CD 管道来实现 DevOps 方法&#xff0c;但是这里可能出现的一个问题是配置可能需要一段时间才能启动并运行。 因此&#x…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

centos 7 部署awstats 网站访问检测

一、基础环境准备&#xff08;两种安装方式都要做&#xff09; bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

【SQL学习笔记1】增删改查+多表连接全解析(内附SQL免费在线练习工具)

可以使用Sqliteviz这个网站免费编写sql语句&#xff0c;它能够让用户直接在浏览器内练习SQL的语法&#xff0c;不需要安装任何软件。 链接如下&#xff1a; sqliteviz 注意&#xff1a; 在转写SQL语法时&#xff0c;关键字之间有一个特定的顺序&#xff0c;这个顺序会影响到…...

论文浅尝 | 基于判别指令微调生成式大语言模型的知识图谱补全方法(ISWC2024)

笔记整理&#xff1a;刘治强&#xff0c;浙江大学硕士生&#xff0c;研究方向为知识图谱表示学习&#xff0c;大语言模型 论文链接&#xff1a;http://arxiv.org/abs/2407.16127 发表会议&#xff1a;ISWC 2024 1. 动机 传统的知识图谱补全&#xff08;KGC&#xff09;模型通过…...

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库,而不想手动下载、编译和安装。 可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码 我们将以 fmt 这个流行的格式化库为例,演示如何: 使用 FetchContent 从 GitH…...

JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案

JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停​​ 1. ​​安全点(Safepoint)阻塞​​ ​​现象​​:JVM暂停但无GC日志,日志显示No GCs detected。​​原因​​:JVM等待所有线程进入安全点(如…...

C++八股 —— 单例模式

文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全&#xff08;Thread Safety&#xff09; 线程安全是指在多线程环境下&#xff0c;某个函数、类或代码片段能够被多个线程同时调用时&#xff0c;仍能保证数据的一致性和逻辑的正确性&#xf…...

Linux离线(zip方式)安装docker

目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1&#xff1a;修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本&#xff1a;CentOS 7 64位 内核版本&#xff1a;3.10.0 相关命令&#xff1a; uname -rcat /etc/os-rele…...

02.运算符

目录 什么是运算符 算术运算符 1.基本四则运算符 2.增量运算符 3.自增/自减运算符 关系运算符 逻辑运算符 &&&#xff1a;逻辑与 ||&#xff1a;逻辑或 &#xff01;&#xff1a;逻辑非 短路求值 位运算符 按位与&&#xff1a; 按位或 | 按位取反~ …...