当前位置: 首页 > news >正文

数据分析相关知识整理_--秋招面试版

一、关于sql语句(常问)

1)sql写过的复杂的运算

聚合函数,case when then end语句进行条件运算,字符串的截取、替换,日期的运算,排名等等;行列转换;

eg:行列转换

SELECT userid,

SUM(CASE WHEN subject='语文' THEN score END) as '语文',

SUM(CASE WHEN subject='数学' THEN score END) as '数学',

SUM(CASE WHEN subject='英语' THEN score END) as '英语',

SUM(CASE WHEN subject='政治' THEN score END) as '政治'

FROM tb_score

GROUP BY userid

2)sql的逻辑执行顺序

From—on—join—where--group by—with—having—select—distinct—orderby

3)如何优化sql语句

1  避免 select *,只取需要的列;

2  连接列或where子句创建索引,提高读取速度;写的速度变慢;

3  Update不要写成delete+insert,功能相同但是性能差别很大;

4  减少数据类型的转换;

5  减少不必要的子查询和连接操作;如果要使用子查询,not in 、not exist改成left join写法,in 和 exist可以改写 inner join;

6   综合多个表的数据或连接多个表时可以考虑用临时表分布汇总结果;

7   不要对索引字段进行一些操作,函数、模糊查询、数据类型转换、数学运算,会失去索引的效果;

8   多表连接条件,on where order by(排序)

4)外连接、全连接、左连接、右连接的区别

INNER JOIN:返回两个表之间共同满足连接条件的行;交

Left join:左边表中的所有行,以及右边表中与左表中的行匹配的行;

Right join:右边表中的所有行,以及左边表中与右表中的行匹配的行

FULL OUTER JOIN:返回左表和右表中的所有行

取出A、B表连接之后A表中不符合条件的行

SELECT ### FROM A

Left join

SELECT ### FROM B

ON A.column1 = B.column2

Where B. column2 IS NULL

二、Hadoop、Spark和Hive

1)Hadoop

(核心:Hbase分布式数据库—-管理+MapReduce分布式计算框架+HDFS分布式文件系统存储);批处理框架,适用于大规模数据的离线处理;Java编程)

2)Spark

基于内存的并行计算框架(快),解决了HadoopMapReduce计算模型延迟过高的问题;

可以批处理、交互式处理、流处理,更加灵活地处理离线和实施任务;

多种编程语言;PythonJavaR等;

3)Hive:

数据仓库工具,允许用户查询和分析存储在Hadoop上的数据

三、数据仓库和数据库的区别

1)设计目标:前者支持数据分析和决策制定存储大量历史数据,后者用于管理和维护操作性数据

2)数据类型:前者多种维度,历史数据、汇总数据、维度数据和事实数据;后者主要包含事务性数据,用户信息、订单、交易信息等

3)数据结构:前者星型或雪花型数据模型,包括事实表和维度表,支持复杂的多维数据分析;后者通常是关系型数据模型,表格存储,表格通过关系链接

4)数据量:前者大规模,后者存储量级相对较小的数据集

5)更新频率:前者批处理,更新频率低;后者通常实施更新,适用交互性操作

四、数据库常见数据结构

1)关系型数据,表是基本数据单元,主键唯一标识,外键建立表之间的关联关系;

2)星形数据结构,事实表和维度表,事实表通常是一些指标,例如,营业额、库存量,维度表是描述事实表的信息,如时间、位置、产品;查询性能比较高,但因为只有一个维度无法处理复杂的多维关系,且维度表的数据冗余比较多;

3)雪花型数据结构,星型进一步规范化,维度表进一步分解成多个子维度表,层次结构,减少数据冗余处理多维数据关系,查询起来更复杂多表链接,没那么快

五、非结构化数据的处理和分析

1)数据收集(爬虫、抓取)

2)文本分析、图像处理、音频处理

3)数据转换(数据标准化、特征向量)

六、NLP一般步骤

1)收集和清洗文本数据,删除不需要的字符、停用词、标点符号

2)特征提取,向量化,TF-IDF,词嵌入、词袋模型

TF(t,d)= 词项 t在文档 d 中出现的次数/文档 d 中的总词项数

IDF(t)=log(文档集合的总文档数/包含词项 t 的文档数+1)   评价重要性

3)选择模型:svm、RNN、CNN等

4)训练和评估

七、评价分类常见的指标和公式

准确率=正确的样本数/总样本数

精确度= (真正例) / (真正例 + 假正例) ,预测为正中实际为正的比例

召回率= (真正例) / (真正例 + 假负例) ,实际为正中预测为正的比例

F1 分数(F1 Score),综合评价准确率和召回率=2(准确率*召回率)/准确率+召回率)

ROC 曲线:真正例率与假正例率之间的关系,值越大性能越好

PR 曲线:不同的分类阈值绘制精确度与召回率之间的关系图;AUC PR 曲线下的面积,用于衡量分类器在不同精确度和召回率下的性能

八、分类问题中样本类别不均衡怎么办

1)欠采样、过采样;

2)设置样本权重;

3)使用不同的指标评估(精确度、召回率、F1 分数、ROC-AUC等);

4)集成学习方法处理不均衡的问题

九、假设检验原理

原假设和备择假设,一般原假设没有显著差异,备择假设有显著差异;

基于样本数据计算统计量,设定显著性水平alpha,落在拒绝阈,拒绝原假设;

两类错误:

第一类,原假设为真,拒绝原假设,alpha越低,第一类风险越小;第二类风险越大

第二类,备择假设为真,但是接受原假设;

P值小于显著性水平,拒绝原假设,接受备择。

十、LSTM门控机制

1)遗忘门(Forget Gate):

遗忘门决定了在当前时间步骤应该保留多少过去的信息。它接收当前输入和上一个时间步骤的隐藏状态作为输入,并输出一个0到1之间的值,表示要保留的信息比例。具体来说,遗忘门的计算包括一个Sigmoid激活函数,它的输出乘以上一个时间步骤的细胞状态,以确定要保留的信息。

2)输入门(Input Gate):

输入门决定了要更新细胞状态的哪些部分。它接收当前输入和上一个时间步骤的隐藏状态作为输入,并输出一个0到1之间的值,表示每个部分的更新比例。输入门的计算包括一个Sigmoid激活函数,以确定要更新的部分,以及一个Tanh激活函数,用于生成新的候选值。

3)输出门(Output Gate):

输出门决定了当前时间步骤的隐藏状态应该是什么。它接收当前输入和上一个时间步骤的隐藏状态作为输入,并输出一个0到1之间的值,表示要输出的信息比例。输出门的计算包括一个Sigmoid激活函数,以确定要输出的部分,以及一个Tanh激活函数,用于生成最终的隐藏状态。

十一、Pyecharts的一些可视化函数

Liquid、gauge、Funnel、heatmap、wordcloud、Bar条形图、Line折线图、scatter散点图、EffectScatter涟漪散点图、boxplot箱型图、Pie饼图、Radar雷达图

相关文章:

数据分析相关知识整理_--秋招面试版

一、关于sql语句(常问) 1)sql写过的复杂的运算 聚合函数,case when then end语句进行条件运算,字符串的截取、替换,日期的运算,排名等等;行列转换; eg:行列转换 SELE…...

HMM与LTP词性标注之命名实体识别与HMM

文章目录 知识图谱介绍NLP应用场景知识图谱(Neo4j演示)命名实体识别模型架构讲解HMM与CRFHMM五大要素(两大状态与三大概率)HMM案例分享HMM实体识别应用场景代码实现 知识图谱介绍 NLP应用场景 图谱的本质,就是把自然…...

Sui发布RPC2.0 Beta,拥抱GraphQL并计划弃用JSON-RPC

为了解决现有RPC存在的许多已知问题,Sui正在准备推出一个基于GraphQL的新RPC服务,名为Sui RPC 2.0。GraphQL是一种开源数据查询和操作语言,旨在简化需要复杂数据查询的API和服务。 用户目前可以访问Sui主网和测试网网络的Beta版本的只读快照…...

设计模式—结构型模式之桥接模式

设计模式—结构型模式之桥接模式 将抽象与实现解耦,使两者都可以独立变化。 在现实生活中,某些类具有两个或多个维度的变化,如图形既可按形状分,又可按颜色分。如何设计类似于 Photoshop 这样的软件,能画不同形状和不…...

【RabbitMQ】RabbitMQ 消息的堆积问题 —— 使用惰性队列解决消息的堆积问题

文章目录 一、消息的堆积问题1.1 什么是消息的堆积问题1.2 消息堆积的解决思路 二、惰性队列解决消息堆积问题2.1 惰性队列和普通队列的区别2.2 惰性队列的声明方式2.3 演示惰性队列接收大量消息2.4 惰性队列的优缺点 一、消息的堆积问题 1.1 什么是消息的堆积问题 消息的堆积…...

深度优先遍历与连通分量

深度优先遍历(Depth First Search)的主要思想是首先以一个未被访问过的顶点作为起始顶点,沿当前顶点的边走到未访问过的顶点。当没有未访问过的顶点时,则回到上一个顶点,继续试探别的顶点,直至所有的顶点都被访问过。 下图示例的…...

Python学习笔记--类的继承

七、类的继承 1、定义类的继承 说到继承,你一定会联想到继承你老爸的家产之类的。 类的继承也是一样。 比如有一个旧类,是可以算平均数的。然后这时候有一个新类,也要用到算平均数,那么这时候我们就可以使用继承的方式。新类继…...

全自动批量AI改写文章发布软件【软件脚本+技术教程】

项目原理: 利用AI工具将爆款文章改写发布到平台上流量变现,通过播放量赚取收益 软件功能: 1.可以根据你选的文章领域,识别你在网站上抓取的文章链接进来自动洗稿生成过原创的文章,自动配图 2.同时还可以将管理的账号导入进脚本软…...

strongswan:configure: error: OpenSSL Crypto library not found

引子 在配置strongswan时,有时会遇到以下错误(其实所有需要openssl的软件configure时都有可能遇到该问题): configure: error: OpenSSL Crypto library not found 解决方法 crypto是什么呢? 是OpenSSL 加密库(lib), 这个库需要op…...

Xcode 常见错误

1. Xcode 15 编译出现以下错误 clang: error: SDK does not contain libarclite at the path /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/lib/arc/libarclite_iphonesimulator.a; try increasing the minimum deployment target 从…...

【JavaEE】实现简单博客系统-前端部分

文件目录&#xff1a; 展示&#xff1a; blog_list.html: <!DOCTYPE html> <html lang"cn"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><t…...

首发scitb包,一个为制作统计表格而生的R包

目前&#xff0c;本人写的第3个R包scitb包已经正式在R语言官方CRAN上线&#xff0c;scitb包是一个为生成专业化统计表格而生的R包。 可以使用以下代码安装 install.packages("scitb")scitb包对我而言是个很重要的R包&#xff0c;我的很多想法需要靠它做平台来实现&a…...

2023-11-06 LeetCode每日一题(最大单词长度乘积)

2023-11-06每日一题 一、题目编号 318. 最大单词长度乘积二、题目链接 点击跳转到题目位置 三、题目描述 给你一个字符串数组 words &#xff0c;找出并返回 length(words[i]) * length(words[j]) 的最大值&#xff0c;并且这两个单词不含有公共字母。如果不存在这样的两个…...

numpy机器学习深度学习 常用函数

Python numpy(np)创建空的字符串数组、矩阵。解决数组中每个元素仅保留单个字符&#xff0c;无法完整填入字符串。 matrix1np.zeros(shape(31,22)).astype(np.str_) matrix1[matrix1 0.0] 1.reshape()方法 作用是将数据按照指定的维度重新组织并返回。也就是reshape&#x…...

连接器切断机维修

目录 起因 机器出现的问题排查 问题 检查 维修方法 今天也开始了设备的维修记录&#xff0c;今天出问题的是连接器切断器的维护&#xff01; 起因 “连接器切断机坏了&#xff0c;有没有维修的&#xff0c;机器不动了&#xff0c;没有报警&#xff0c;没有断电和气管的泄漏&…...

Mysql数据库 8.SQL语言 外键约束

一、外键约束 外键约束——将一个列添加外键约束与另一张表的主键&#xff08;唯一列&#xff09;进行关联之后&#xff0c;这个外键约束的列添加的数据必须要在关联的主键字段中存在 案例 创建原则&#xff1a;先创建不含外键的表也就是班级表 添加外键的方式 一般使用第一…...

ERROR in static/js/xxx.js from UglifyJs Unexpected token name «currentVersion»

添加链接描述 ERROR in static/js/xxx.js from UglifyJs Unexpected token name currentVersion, expected punc 遇到这种异常, 需要运行下面脚本运行npm i -D uglifyjs-webpack-pluginbeta修改webpack.prod.conf.jsjs中引入参数const UglifyJsPlugin require(uglifyjs-webpa…...

反序列化 [网鼎杯 2020 青龙组]AreUSerialz 1

打开题目 <?phpinclude("flag.php");highlight_file(__FILE__);class FileHandler {protected $op;protected $filename;protected $content;function __construct() {$op "1";$filename "/tmp/tmpfile";$content "Hello World!&qu…...

JWT登录校验

工作原理 下面来详细看看 UTF-8 是如何工作的&#xff0c;以及为什么它会根据被编码的字符具有不同的长度。 一、JWT是什么&#xff1f; 在介绍JWT之前&#xff0c;我们先来回顾一下利用token进行用户身份验证的流程&#xff1a; 1、客户端使用用户名和密码请求登录 2、服务端…...

python发送企业微信群webhook消息(文本、文件)

import datetime import os import time from copy import copyimport requests from loguru import logger from urllib3 import encode_multipart_formdataclass WeiXin_Robot:def __init__(self,url: str ""):# 测试cartest_url "https://qyapi.weixin.qq.…...

高数笔记06:无穷级数

图源&#xff1a;文心一言 时间比较紧张&#xff0c;仅导图~~&#x1f95d;&#x1f95d; 第1版&#xff1a;查资料、画导图~&#x1f9e9;&#x1f9e9; 参考资料&#xff1a;《高等数学 基础篇》武忠祥 &#x1f433;目录 &#x1f433;常数项级数 &#x1f40b;概要 &…...

Android工具栏ToolBar

主流APP除了底部有一排标签栏外&#xff0c;通常顶部还有一排导航栏。在Android5.0之前&#xff0c;这个顶部导航栏以ActionBar控件的形式出现&#xff0c;但AcionBar存在不灵活、难以扩展等毛病&#xff0c;所以Android5.0之后推出了ToolBar工具栏控件&#xff0c;意在取代Aci…...

2.3 - 网络协议 - ICMP协议工作原理,报文格式,抓包实战

「作者主页」&#xff1a;士别三日wyx 「作者简介」&#xff1a;CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 「推荐专栏」&#xff1a;对网络安全感兴趣的小伙伴可以关注专栏《网络安全入门到精通》 ICMP协议 1、ICMP协议工作原理2、ICMP协议报文格式…...

北京陪诊小程序|陪诊系统开发|陪诊小程序未来发展不可小觑

近几年随着互联网快速发展&#xff0c;各行业领域都比较注重线上服务系统&#xff0c;通过陪诊小程序开发可以满足更多用户使用需求&#xff0c;同时还能提高用户使用体验。现在陪诊类的软件应用得到全面推广&#xff0c;在医疗行业当中陪诊小程序更贴近用户生活&#xff0c;可…...

前端面试题总结(一)

1. vue性能优化 v-if和v-show使用&#xff1a;频繁切换使用v-show&#xff08;display样式&#xff09;&#xff0c;反之使用v-if&#xff08;删除与新值DOM&#xff09;v-for必须加key&#xff0c;不能使用index当作key&#xff08;使用index&#xff0c;如果数组发生变化&am…...

LeetCode107. Binary Tree Level Order Traversal II

文章目录 一、题目二、题解 一、题目 Given the root of a binary tree, return the bottom-up level order traversal of its nodes’ values. (i.e., from left to right, level by level from leaf to root). Example 1: Input: root [3,9,20,null,null,15,7] Output: […...

【大模型应用开发教程】04_大模型开发整体流程 基于个人知识库的问答助手 项目流程架构解析

大模型开发整体流程 & 基于个人知识库的问答助手 项目流程架构解析 一、大模型开发整体流程1. 何为大模型开发定义核心点核心能力 2. 大模型开发的整体流程1. 设计2. 架构搭建3. Prompt Engineering4. 验证迭代5. 前后端搭建 二、项目流程简析步骤一&#xff1a;项目规划与…...

【Unity ShaderGraph】| 快速制作一个 表面水纹叠加效果

前言 【Unity ShaderGraph】| 快速制作一个 表面水纹叠加效果一、效果展示二、表面水纹叠加效果三、应用实例 前言 本文将使用ShaderGraph制作一个表面水纹叠加效果&#xff0c;可以直接拿到项目中使用。对ShaderGraph还不了解的小伙伴可以参考这篇文章&#xff1a;【Unity Sh…...

大模型的实践应用5-百川大模型(Baichuan-13B)的模型搭建与模型代码详细介绍,以及快速使用方法

大家好,我是微学AI,今天给大家介绍一下大模型的实践应用5-百川大模型(Baichuan-13B)的模型搭建与模型代码详细介绍,以及快速使用方法。 Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均…...

用友U8定制版在集简云:无需API即可集成客服系统和用户运营

无代码开发的新时代 在这个信息化、自动化的时代&#xff0c;无代码开发已经成为一种新的趋势。集简云就是这样的一款工具&#xff0c;可以轻松连接用友U8 定制版与近千款软件系统&#xff0c;无需开发、无需代码知识就可以打通各种软件之间的数据连接&#xff0c;构建自动化与…...