当前位置: 首页 > news >正文

数仓面经大框架

1.计算机及编程基础:

操作系统:进程、线程等

数据结构:算法题

计算机网络:分层等

Linux:常用的指令

MySQL(重点)

Java/Python基础

排序算法(快排、归并等)

2.大数据组件

Hadoop: HDFS (重点),MapReduce (重点), Yarn

Spark

Hive

从功能,原理,组成,运行流程

调优(重点) ,Hive调优(参数、sql),Spark调优(资源、开发算子、数据倾斜、参数)

3.数据仓库

数据仓库及数据建模理论(重点)

数仓搭建流程数仓分层(优势、内容)维度建模

4.项目

项目板块主要包括项目的背景介绍、面向业务需求及方案、个人负责工作内容、数仓建设情况介绍等。

业务

业务背景,数仓面向的业务需求(模型数据、后端数据、用户画像、项目用户流量概况、项目内部建设概况、项目营收概况报表展示)。

技术及方案

技术栈  (数据抽取(增量,全量)、数仓模型开发、业务需求指标开发、BI 报表开发..);

数仓的数据域设计与建设,分层建设,包括的关键表,关键指标;

开发流程(需求分析、口径确认),核心指标;

实际开发过程中遇到的困难,解决思路

数据质量及数据治理: (补充)

对其的理解及应用情况的了解。
数据质量DQC关注方面(每一层重点关注方面不同):完整性、准确性、一致性、唯一性、时效性。
数据质量监控对象:业务核心表、字典型基础数据、外部数据接口表。

DQC配置方案,定时,依赖。...
数据治理:时效、质量、可用、安全、成本。
稳定性与质量治理:及时性和准确性问题。
规范治理:数据口径一致性问题。
安全治理:数据权限控制数据共享交换问题。
成本治理:解决数据计算和存储成本高昂问题。


数据治理的痛点。文件形式流转、缺少量化评估,推动缓慢、缺少灵活友好管理工具支持治理工作等。

5.SQL场景题

熟悉SQL执行流程:

from- >on- >join- >where- >group by->聚合函数- >having- >select- >distinct- >order by- >limit.


经典题目

1. 排序
2. 留存率
3. 行转列,列转行
4.连续登录


左右连接 left/right  join;

where 过滤主表,on过滤副表及表间连接;
中间表witht1 as(),嵌套子表from () t1
Case when .. then .. else .. end
操作函数  substring, concat, round
聚合函数  sum、count. avg
窗口函数 (重点) sum、rank、 dense. rank、rank、 partition by 、 order by

6.反问

1.部门业务了解,对于工作业务背景及需求提前了解;
2.离线实时采用的技术组件;
3.部门人数,大致了解数仓同事人数,可以大致判断hc;
4.部门氛围,部门上下班时间;
5.之前回答不好的问题(开放类型)。
 

# 面经源于网络收集整理,供大家学习分享。

相关文章:

数仓面经大框架

1.计算机及编程基础: 操作系统:进程、线程等 数据结构:算法题 计算机网络:分层等 Linux:常用的指令 MySQL(重点) Java/Python基础 排序算法(快排、归并等) 2.大数…...

C++ explicit关键字的作用

explicit关键字只针带一个参数的构造函数有效 #include <iostream> using namespace std;class A { public:A(int temp) //普通构造函数{a temp;cout << "普通构造函数: a " << a << endl;}A(const A &temp) //拷贝构造函数{a temp.a…...

排序算法之-冒泡

顺序排序算法原理 从头开始遍历未排序数列&#xff0c;遍历时比较相邻的两个元素&#xff0c;前面的大于后面的&#xff0c;则双方交换位置&#xff0c;一直比较到末尾&#xff0c;这样最大的元素会出现在末尾&#xff0c;接着再依次从头开始遍历剩余未排序的元素&#xff0c;…...

【微服务】API治理发展历史与未来趋势

目录 一、前言 二、API治理的价值和意义 2.1 API治理概念 2.2 API治理价值和意义 2.2.1 提升团队协同效率 2.2.2 降低产品运维成本 2.2.3 识别和降低系统的外部风险 2.2.4 提供更多的拓展性 三、API生命周期管理 ​编辑 3.1 规划阶段 3.2 开发阶段 3.3 测试阶段 3…...

TikTok shop美国小店适合哪些人做?附常见运营问题解答

一、Tiktok shop小店分类 大家都知道&#xff0c;美国小店可以分为5 种&#xff1a; 美国本土个人店: 最灵活&#xff0c;有扶持政策&#xff1b;美国法人企业店&#xff1a;要求高&#xff0c;有扶持政策&#xff1b;美国公司中国人占股店 (ACCU店) : 权重相对低&#xff0c…...

[OS]11.9.2023 中断

中断向量表 CPU的设计者必须在中断信息和其处理程序的入口地址之间建立某种联系&#xff0c;使得CPU根据中断信息可以找到要执行的处理程序。 中断信息中包含有标识中断源的类型码。根据CPU的设计&#xff0c;中断类型码的作用就是用来定位中断处理程序。 比如CPU 根据中断类型…...

unity笔记

物体的各种控制方法 using System.Collections; using System.Collections.Generic; using UnityEditor; using UnityEngine;public class Componentl : MonoBehaviour {// Transform transform;GameObject obj;public float floSpeed 0;public float floRotate 0;// Start …...

二十、泛型(5)

本章概要 边界通配符 编译器有多聪明逆变无界通配符捕获转换 边界 边界&#xff08;bounds&#xff09;在本章的前面进行了简要介绍。边界允许我们对泛型使用的参数类型施加约束。尽管这可以强制执行有关应用了泛型类型的规则&#xff0c;但潜在的更重要的效果是我们可以在…...

Oracle递归查询树形数据

实际生活有很多树形结构的数据&#xff0c;比如公司分为多个部门、部门下分为多个组&#xff0c;组下分为多个员工&#xff1b;省市县的归属&#xff1b;页面菜单栏等等。 如果想查询某个节点的父节点或者子节点&#xff0c;一般通过表自身连接完成&#xff0c;但如果该节点的子…...

pycharm pro v2023.2.4(Python开发)

PyCharm是一种Python集成开发环境&#xff08;IDE&#xff09;&#xff0c;PyCharm提供了强大的功能&#xff0c;包括语法突出显示、智能代码完成、代码检查、自动重构和调试等特性&#xff0c;这些都可以帮助Python开发人员更加高效地编写代码。 PyCharm Pro是PyCharm的高级版…...

武汉某母婴用品公司 - 集简云连接ERP和营销系统,实现库存管理的自动化

品牌介绍与关怀理念 武汉某母婴用品公司是一家专注于高端孕婴童护理用品的企业&#xff0c;积极响应和关怀孕产人群&#xff0c;全方位提供从待产用品到产后护理用品&#xff0c;再到婴童洗护用品和初生婴儿用品等一系列全面的母婴产品。我们的使命是满足客户的需求&#xff0…...

AD9371 Crossbar

AD9371 系列快速入口 AD9371ZCU102 移植到 ZCU106 &#xff1a; AD9371 官方例程构建及单音信号收发 ad9371_tx_jesd -->util_ad9371_xcvr接口映射&#xff1a; AD9371 官方例程之 tx_jesd 与 xcvr接口映射 AD9371 官方例程 时钟间的关系与生成 &#xff1a; AD9371 官方…...

设计模式 -- 责任链模式(Chain of Responsibility Pattern)

责任链模式&#xff1a;和上一篇策略模式一样也是行为型模式。创建一个接收者对象的链。这种模式给予请求的类型&#xff0c;对请求的发送者和接收者进行解耦。这种模式中&#xff0c;通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求&#xff0c;那么它…...

开源:特殊的垄断

免责声明&#xff1a;本博客旨在分享我对开源策略的理解和体会&#xff0c;不代表任何组织或机构的立场或观点&#xff0c;也不构成任何商业或投资的建议或担保。本博客的内容可能存在错误或遗漏&#xff0c;也可能随着时间的推移而变得过时或不适用。请在使用或依赖本博客的内…...

linux安装oracle client解决cx_Oracle.DatabaseError: DPI-1047

背景: 需要在linux上调用python,连接oracle数据,在执行脚本是出现如下错误: 由于未安装client,所有找不到对应的文件 [root@xx wxArticle]# python main.py Traceback (most recent call last):File "main.py", line 16, in <module>oracle_db = cx_Or…...

工业园区一般用多大规格的电表?

随着我国经济的快速发展&#xff0c;工业园区在各地区如雨后春笋般崛起。作为电力系统的重要组成部分&#xff0c;电表的选择与应用对于工业园区的稳定运行至关重要。那么&#xff0c;工业园区一般用的是多大规格的电表呢&#xff1f;下面&#xff0c;小编就来给大家揭秘一下&a…...

Debian12换镜像源

0 背景 用docker运行了一个node容器&#xff0c;发现连vim也没有&#xff0c;所以打算安一个vim 1 查看操作系统 find / -name *release* #查看release信息2 更换镜像源 2.1 从网上找个国内镜像源 确定好操作系统版本后&#xff0c;从网上搜一下对应的数据源。这里提供一个…...

deeplog中输出某个 event 的概率

1 实现之后效果 # import DeepLog and Preprocessor import numpy as np from deeplog import DeepLog import torch# Create DeepLog object deeplog DeepLog(input_size 10, # Number of different events to expecthidden_size 64 , # Hidden dimension, we suggest 64…...

流媒体中relay和forword的区别

在流媒体中&#xff0c;"relay"&#xff08;中继&#xff09;和 "forward"&#xff08;转发&#xff09;是两种常见的传输方式&#xff0c;用于将流媒体从一个源传递到目标接收器。它们的区别如下&#xff1a; Relay&#xff08;中继&#xff09;&#xff…...

git创建本地分支并提交到远程

创建本地分支 git branch local_branch_name切换到本地分支 git checkout local_branch_name提交代码 git add . git commit -m "commit_message"添加远程信息 git remote add origin remote_git_address提交到远程 git push origin local_branch_name:remote_b…...

【vllm】(二)vLLM v1 Engine — 模块超深度逐行分析之三

3.10 core.py - 引擎核心文件职责: 实现vLLM推理的"内循环"——调度→执行→更新&#xff0c;这是GPU推理的真正驱动者。 3.10.1 EngineCore.init() 初始化流程 逐行解析&#xff1a; 加载插件: load_general_plugins() — 允许第三方插件注册创建ModelExecutor: exe…...

机器学习实践中的常见障碍与突破策略

1. 为什么你的机器学习目标总是难以实现&#xff1f;我见过太多人满怀热情地开始机器学习之旅&#xff0c;却在几个月后陷入停滞。他们的GitHub仓库停留在半年前&#xff0c;Jupyter Notebook里满是未完成的实验&#xff0c;学习计划表上的勾选越来越稀疏。这让我想起五年前自己…...

从科研到临床:手把手教你用Python实现fNIRS脑网络的图论分析(附代码与数据)

从科研到临床&#xff1a;手把手教你用Python实现fNIRS脑网络的图论分析&#xff08;附代码与数据&#xff09; 在神经科学研究的前沿领域&#xff0c;功能近红外光谱技术&#xff08;fNIRS&#xff09;正逐渐成为探索大脑奥秘的重要工具。这种非侵入式成像方法通过监测大脑皮层…...

AI驱动游戏开发:零重力角力项目实战与氛围编程解析

1. 项目概述&#xff1a;一场由AI驱动的零重力角力最近在游戏开发社区里&#xff0c;一个名为“Zero-Gravity Sumo”的小项目引起了不少讨论。这并非因为它有多么惊人的画面或复杂的机制&#xff0c;而是因为它几乎完全由AI生成&#xff0c;从代码到设计&#xff0c;再到文档&a…...

AI建站工具怎么选:一份中立实用的选型标准与对比指南

AI建站工具怎么选&#xff1a;一份中立实用的选型标准与对比指南面对市面上五花八门的AI建站工具&#xff0c;很多人都会陷入选择困难。是选那个号称完全不用写代码的&#xff0c;还是选那个功能看起来更强大的&#xff1f;生成的代码能不能商用&#xff1f;会不会有安全隐患&a…...

30.use 的作用是什么?如何使用?

use 是 React 提供的一个较新的 API&#xff0c;用来在组件渲染过程中“读取资源”的值&#xff08;常见资源包括 Promise 与 Context&#xff09;。当你把一个 Promise 交给 use() 时&#xff0c;React 可以在 Promise 仍未完成时暂停&#xff08;suspend&#xff09;该组件的…...

PyTorch实现放疗剂量引擎:深度学习与医学物理结合

1. 项目概述&#xff1a;基于PyTorch的放疗剂量引擎现代放射治疗计划的核心挑战在于如何优化数千个参数&#xff08;如多叶准直器位置、机架角度、监测单位等&#xff09;&#xff0c;以生成满足复杂临床要求的剂量分布。传统方法依赖治疗计划系统&#xff08;TPS&#xff09;的…...

从STM32换到GD32,除了改晶振超时,这5个硬件坑你踩过吗?

从STM32迁移至GD32&#xff1a;硬件工程师必须警惕的5个物理层陷阱 当第一块采用GD32的PCB打样回来时&#xff0c;我和团队都以为这只是一次简单的芯片替换——毕竟官方手册明确标注着"Pin-to-Pin兼容"。直到深夜的实验室里&#xff0c;第三块板卡因为不明原因不断重…...

Java的CompletableFuture链式调用与异常处理

Java异步编程利器&#xff1a;CompletableFuture链式调用与异常处理 在现代Java开发中&#xff0c;异步编程已成为提升系统性能的关键手段。CompletableFuture作为Java 8引入的异步编程工具&#xff0c;通过链式调用和灵活的异常处理机制&#xff0c;显著简化了多线程任务编排…...

pdftotext:Python PDF文本提取的高效解决方案

pdftotext&#xff1a;Python PDF文本提取的高效解决方案 【免费下载链接】pdftotext Simple PDF text extraction 项目地址: https://gitcode.com/gh_mirrors/pd/pdftotext 在日常数据处理工作中&#xff0c;PDF文档的文本提取常常成为开发者的痛点。传统的复制粘贴方式…...