当前位置: 首页 > news >正文

数据分析面试

数据分析相关的职位面试可以拆解为以下三块:

1)技术基础

2)项目经验提问

3)业务问题

【数据分析与挖掘(二)】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客

我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客

sql

py编程

面试:

02 为什么通过统计指标处理特征缺失值时,针对连续型字段经常采用平均值、中位数来填充,而不采用最大值、最小值、众数?
答:采用平均值、中位数可以在一定程度上保证数据的平衡,很多情形下可以维持原有数据的分布形态,若采用最大值、最小值等方式填充,很可能导致处理后的数据分布趋势发生变化,尤其是在缺失值数量较多的情况下,直接导致出现偏峰分布的现象,同时填充后的数据也不符合实际业务的客观理解。当然,在某些特定场景下采用最大值、最小值等填充也是完全合理的,但一般情况下针对连续型特征,采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程,往往异常值处理在前?
答:如果缺失值处理在前,若通过常用的统计指标(最大值、最小值、平均值等)来填充,会将异常值数据考虑在内,这相当于将噪音数据成分植入到缺失单元,在一定程度上将异常值成分扩散,直接影响数据的合理分布。如果异常值处理在前,可以先将噪音数据影响的排除,然后采用合适的缺失值填充方法处理,可以较好保证特征数据分布的原有形态,对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现?
答:从箱线图的原理逻辑来讲,离散数值型特征是完全支持通过箱线图来识别异常值的,而且也具有一定的解释意义,但相对连续型特征的箱线图处理,离散数值型特征处理过程的合理性有明显欠缺。例如,某离散型特征的取值分布为1,2,3,4,10,若采用箱线图来判断,则10会认为异常值,若此特征的标签含义是电商会员卡等级,10是很有意义的,作为异常值处理是不合理的。因此,离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要?
答:样本数据探索的主要目的,是为了给后续的数据清洗与特征工程等环节提供信息参考。其中,针对数据清洗方面,我们可以根据数据的统计分析,了解到样本特征的分布类型(连续型、离散型)、取值类型(varchar、int、float、date)、缺失值情况、异常值情况等,可以进一步决定数据清洗的具体方法,例如对于连续型与离散型特征的缺失值处理,选取的处理逻辑是有很大区别的,连续型采用平均值,而离散型采用众数等。针对特征工程方面,由于已知特征字段的不同取值类型,在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此,在数据分析任务中,导入数据后的样本探索分析,对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多?
答:特征衍生是数据建模过程中经常采用的一项特征工程,尤其是针对特征变量池较小的情况,但是对原始特征进行衍生的过程中,不能一味追寻加工特征的数量,务必要考虑特征的业务含义与应用价值,在银行等传统金融机构更需要注意这个要点。同时,根据原始特征的不断衍生,例如通过统计学的差分、占比等维度,理论上可以加工出无穷的字段,但新字段之间的相关性是很强的,在后续特征筛选的环节会很大概率的删除,这对工作效率来讲显然是没有必要的,即使不进行特征相关性筛选,在模型拟合过程中会直接导致模型的共线性,而这也并不是我们希望的结果。因此,在特征衍生环节,要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要?
答:特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的,对于三方数据测试,我们可以根据特征的相关性分析,得到相关字段联系的量化指标,从而为字段选择与特征引入提供很直观的参考价值;对于数据建模,特征的相关性分析已经成为一种标配,根据字段之间的相关性系数大小,可以筛选保留信息度较大的字段,不仅可以较大程度减弱模型拟合的共线性,而且可以提 

面试题:在实施A/B test时,流量该如何进行分流?

答:实施A/B test的核心思路有3点,一是多个方案同时并行,二是控制变量,每个方案之间只有一个变量有差异,三是明确方案的评价标准,即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test,那么每个方案之间的流量是要互斥的,并且是随机划分的,这样可以保证每个方案的流量都来自于同一个样本空间。

面试题:我们公司有一款产品是与银行合作推出的“联名信用卡”,这种信用卡可以取现。你认为其中存在的风险点有哪些?该如何降低这些风险?

答:我对您提到的这款“联名卡”的具体业务流程不是特别清楚,这里我就假定它和银行的信用卡是类似的。

区别在于贵公司作为资金提供方和流量入口,而银行作为发卡机构。我认为存在的风险有3点。

第一是逾期风险,这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代,定期对模型进行重新训练,适应客群的变化。如果可能的话,还可以与合作银行进行数据方面的共享,降低数据孤岛带来的影响。

第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签,与银行合作刚好可以发挥这方面的优势。

第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。
 

相关文章:

数据分析面试

数据分析相关的职位面试可以拆解为以下三块: 1)技术基础 2)项目经验提问 3)业务问题 【数据分析与挖掘(二)】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客 我裸辞去面试p…...

Open3D(C++) 整体最小二乘拟合平面

目录 一、算法原理1、算法过程2、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。 一、算法原理 1、算法过程 最小二乘拟合平面认为点云数据系数矩阵不存在误差,然而由于观测条件的限制,观测向量、系数矩阵都有可能存在误差,那么最小二乘方法就不再是最…...

【android12-linux-5.1】【ST芯片】【RK3588】【LSM6DSR】HAL源码分析

一、环境介绍 RK3588主板搭载Android12操作系统,内核是Linux5.10,使用ST的六轴传感器LSM6DSR芯片。 二、芯片介绍 LSM6DSR是一款加速度和角速度(陀螺仪)六轴传感器,还内置了一个温度传感器。该芯片可以选择I2C,SPI通讯,还有可编程终端,可以后置摄像头等设备,功能是很…...

MT8788安卓核心板详细参数_MTK安卓主板开发板智能通讯模块

MT8788安卓核心板集成了一个高效的12nm SoC,内置4G LTE调制解调器,将强大的硬件与到处可连接的全面功能设计相结合。 MTK8788智能终端具备许多功能,包括4G、2.4G/5G双频WiFi、蓝牙4.2BLE、2.5W功放、USB、mipi屏接口、三路摄像头接口、GPS和…...

C++String模拟实现

实际上string没什么可讲,主要是对string函数的运用与理解,与其写库函数如何用,不如直接去看c库函数来得好。 以下是自己实现string功能函数。但没对string库中的全部函数进行实现,而是实现主要使用的。 .cpp内是用来测试函数功能…...

Java 设置免登录请求接口被拦截问题

1、在设置免登录时,前端将请求的路由添加到白名单后,请求接口还是被拦截到了,将请求接口也设置后还是会被拦截跳转到登录页面 通过JAVA 注解 Anonymous 进行设置匿名访问就可以了...

(其他) 剑指 Offer 67. 把字符串转换成整数 ——【Leetcode每日一题】

❓ 剑指 Offer 67. 把字符串转换成整数 难度:中等 写一个函数 StrToInt,实现把字符串转换成整数这个功能。不能使用 atoi 或者其他类似的库函数。 首先,该函数会根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为…...

【MySQL】一文详解MySQL,从基础概念到调优

作者简介 前言 博主之前写过一个MySQL的系列,从基础概念、SQL到底层原理、优化,专栏地址: https://blog.csdn.net/joker_zjn/category_12305262.html?spm1001.2014.3001.5482 本文会是这个系列的清单,拉通来聊一聊Mysql从基础概…...

机器学习——boosting之提升树

提升树和adaboost基本流程是相似的 我看到提升树的时候,懵了 这…跟adaboost有啥区别??? 直到看到有个up主说了,我才稍微懂 相当于,我在adaboost里的弱分类器,换成CART决策树就好了呗&#xff1…...

解决Spring Boot启动错误的技术指南

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

使用Spring Security保障你的Web应用安全

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…...

PostgreSQL本地化

本地化的概念 本地化的目的是支持不同国家、地区的语言特性、规则。比如拥有本地化支持后,可以使用支持汉语、法语、日语等等的字符集。除了字符集以外,还有字符排序规则和其他语言相关规则的支持,例如我们知道(‘a’,‘b’)该如何排序&…...

MySQL——日志

日志的作用 1.用来排错 2.用来做数据分析 3.了解程序的运行情况,是否健康--》了解MySQL的性能,运行情况 分类 mysql很多有类型的日志,按照组件划分的话,可以分为 服务层日志 和 存储引擎层日志 : - 服务层…...

玩转Mysql系列 - 第18篇:流程控制语句(高手进阶)

这是Mysql系列第18篇。 环境:mysql5.7.25,cmd命令中进行演示。 代码中被[]包含的表示可选,|符号分开的表示可选其一。 上一篇存储过程&自定义函数,对存储过程和自定义函数做了一个简单的介绍,但是如何能够写出复…...

LED屏幕电流驱动设计原理

LED电子显示屏作为户外最大的应用产品,是大型娱乐,体育赛事,广场大屏幕等场所不可或缺的产品,从单双色简单的文字展示到今天的高清全彩,显示屏的技术一直都在进步,全球80%的LED电子显示屏皆产自于中国。显示…...

shell知识点复习

1、shell能做什么( Shell可以做任何事(一切取决于业务需求) ) 自动化批量系统初始化程序 自动化批量软件部署程序 应用管理程序 日志分析处理程序 自动化备份恢复程序 自动化管理程序 自动化信息采集及监控程序 配合Zabbix信息采集 自动化扩容 2、获取当…...

【Sentinel Go】新手指南、流量控制、熔断降级和并发隔离控制

随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 是面向分布式、多语言异构化服务架构的流量治理组件,主要以流量为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开…...

iOS自定义滚动条

引言 最近一直在做数据通信相关的工作,导致了UI上的一些bug一直没有解决。这两天终于能腾出点时间大概看了一下Redmine上的bug,发现有很多bug都是与系统滚动条有关系的。所以索性就关注一下这个小小的滚动条。 为什么要自定义ScrollIndictor 原有的Scrol…...

C++知识点2:把数据写进switch case结构,和写进json结构,在使用上有什么区别

将数据存储在Switch Case结构和JSON结构中有明显的区别,它们用于不同的目的和方式。以下是它们之间的主要区别: 1、用途和结构: Switch Case结构:Switch Case是一种条件语句,通常用于根据条件执行不同的代码块。它通常…...

肖sir__linux详解__003(vim命令)

linux 文本编辑命令 作用:用于编辑一个文件 用法:vim 文件名称 或者vi (1)编辑一个存在的文档 例子:编辑一个file1文件 vim aa (2)编辑一个文件不存在,会先创建文件,再…...

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...

脑机新手指南(八):OpenBCI_GUI:从环境搭建到数据可视化(下)

一、数据处理与分析实战 (一)实时滤波与参数调整 基础滤波操作 60Hz 工频滤波:勾选界面右侧 “60Hz” 复选框,可有效抑制电网干扰(适用于北美地区,欧洲用户可调整为 50Hz)。 平滑处理&…...

Java 8 Stream API 入门到实践详解

一、告别 for 循环&#xff01; 传统痛点&#xff1a; Java 8 之前&#xff0c;集合操作离不开冗长的 for 循环和匿名类。例如&#xff0c;过滤列表中的偶数&#xff1a; List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

Go 语言接口详解

Go 语言接口详解 核心概念 接口定义 在 Go 语言中&#xff0c;接口是一种抽象类型&#xff0c;它定义了一组方法的集合&#xff1a; // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的&#xff1a; // 矩形结构体…...

(二)原型模式

原型的功能是将一个已经存在的对象作为源目标,其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。 一、源型模式的定义 原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现,忽略对象创建过程中的其它细节。 📌 核心特点: 避免重复初…...

基于数字孪生的水厂可视化平台建设:架构与实践

分享大纲&#xff1a; 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年&#xff0c;数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段&#xff0c;基于数字孪生的水厂可视化平台的…...

AI,如何重构理解、匹配与决策?

AI 时代&#xff0c;我们如何理解消费&#xff1f; 作者&#xff5c;王彬 封面&#xff5c;Unplash 人们通过信息理解世界。 曾几何时&#xff0c;PC 与移动互联网重塑了人们的购物路径&#xff1a;信息变得唾手可得&#xff0c;商品决策变得高度依赖内容。 但 AI 时代的来…...

【Go语言基础【12】】指针:声明、取地址、解引用

文章目录 零、概述&#xff1a;指针 vs. 引用&#xff08;类比其他语言&#xff09;一、指针基础概念二、指针声明与初始化三、指针操作符1. &&#xff1a;取地址&#xff08;拿到内存地址&#xff09;2. *&#xff1a;解引用&#xff08;拿到值&#xff09; 四、空指针&am…...

Java编程之桥接模式

定义 桥接模式&#xff08;Bridge Pattern&#xff09;属于结构型设计模式&#xff0c;它的核心意图是将抽象部分与实现部分分离&#xff0c;使它们可以独立地变化。这种模式通过组合关系来替代继承关系&#xff0c;从而降低了抽象和实现这两个可变维度之间的耦合度。 用例子…...

AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别

【导读】 野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而&#xff0c;传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案&#xff0c;能够实现大范围覆盖并远程采集数据。尽管具备这些优势&#xf…...