【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。
以终为始,要解决什么问题,实现什么效果?
数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的业务数据、数据历史的变化趋势、数据的空间分布和数据构成分布等。
在系统建设层面,呈现业务对应的业务系统,往往是业务运营监控系统。通常情况下,我们看到的类似天猫双12数据大屏,公安、交通指挥中心的数据大屏等,都是呈现业务的典型案例。
我从业以来做过的报表,主要分为两部分:
一是,常规性报表,展示客观数据、以及业务人员关注的指标。客观数据占据大部分版面,老板/业务人员关注的关键性经营分析指标占小部分,但会在显眼的位置。
二是,指标分析报表,把客观数据指标化,建立一套指标体系,再对指标体系进行评价,通过多个指标的高高低低来得出结论。重在通过数据分析总结,进行业务预警,最终会聚焦在一个层面。
界定问题,要实现的目标
想要解决的问题是什么?
最终呈现的报告,包含的内容,想要证明的问题?
确定分析目标,明确要解决的问题或取得的结果,例如预测销售额、发现数据中的模式等。
梳理数据源及指标
看这个问题,可以通过什么数据形式来表现出来呢?
数据结果,数据层次,最细的粒度,可以分析的有价值粒度有哪些?
做数据结构,每个结构可以解决什么问题?
收集相关数据,可以是内部数据库、公开数据集或通过调查等方式获得。比如我做的,一般是通过ERP获取,但ERP有多个报表,选择最适合、且数据源较为规整的那一个。
数据清洗及计算
对数据进行清洗和预处理,包括处理缺失值、异常值、重复值等,以及进行数据转换、归一化、标准化等操作。
说实话,在首次清洗的时候,只能对十分明显错误数据进行处理,有一些隐藏较深无法发现的问题,只能在后续工作中不断发现不断处理,尤其是在你面对的数据集较为复杂、字段繁多,且业务意义交叉复杂时。
可视化模型搭建
通过可视化和统计方法来探索数据的特征和关系,例如绘制直方图、散点图、箱线图等。最重要的是选择适合问题的表现方法,不局限在要展示自己高超的分析技能。我常用的是条形图、环形图、卡片图、图表明细,没有用到十分复杂的图形,一方面便于模型使用者(用户)理解,另一方面我的日常业务分析一般不会涉及复杂的机器学习算法,主要目的就是针对发现的问题去“分析原因”,然后提出建议。简单图形就够了,使用模型的意义更多是希望数据能够快速更新,避免数据延迟。
有了大致思路、基础模型后,一般情况下,我会去公开网站上找到对标模板,参考那些好看的页面结构、比赛作品、小的可视化元素,这样可以提高效率,让做出来的可视化页面的可读性强,且更有设计性。需要注意,可视化页面,每一部分的字号大小、背景标题,最好提前就统一,减少后期反复及修改;先搭建粗略框架,和需求方沟通,是否可以实他们的需求?客户如提出新的细化的需求,再补充优化做出来,如此反复。
对模型形成可视化报告,进行解读
模型搭建完成,且你足够了解业务后,需要对相关数据进行多维度的监控,发现数据的异常,包括对比差异、时间变化趋势、空间分布和构成结构上的异常等,都属于异常。这一环节可以人工完成,也可以系统自动完成,一般的数据可视化模型/系统都会集成异常数据监控能力。
发现异常、分析问题往往需要人工介入,基于业务现象和异常的表现,通过时间维度、空间维度、结构维度和关系维度,分析引起异常的可能原因,并进行逐一验证。分析问题通常以人工 + 系统的方式完成,系统提供分析问题所需要的功能,人工通过该功能进行操作来验证问题的原因。
定位问题的原因是一个比较复杂的系统工程,不止需要人工介入,还要基于数据表现,制定对应的产品和运营策略。互联网公司,或者数据体量大的公司,常常通过A/B测试的模式,来验证假设,对于分析问题过程中的推论进行业务验证,从而发现根本原因。例如,当发现商品的价格因素可能是导致销量下降的原因的时候,可以通过适当的降价/促销等营销活动,来验证这个假设是否成立。
不过在我处的传统行业中,从业务端来看,更多的还是通过一些简单的运营公示的拆解,来发现问题,看是哪个环节的指标明显低于平均,进而对此进行处理。
基于数据可视化分析,解决业务问题,从系统建设和使用视角而言,是业务监控、数据化运营、数据化营销和数据化决策的过程。构建数据可视化分析体系,可以有效支撑业务运营决策,在执行运营决策的过程中,可以不断优化现有业务过程模型。
需要注意的是!
数据分析和建模是一个迭代的过程,可能需要多次调整和优化,以获得更好的结果。也避免第一版就过度追求完美,到时工期延误,项目推迟的结果,无论如何先完成一版,后续再逐步优化就好。我刚开始入行的时候,是十分理想的,看到很多没办法一次做到完美、100分的事情,就有点垂头丧气,觉得自己能力不行。但现实工作不是上学考试,真实世界的很多事情,就是这样的。
以上思考部分来自实际工作经验,部分来自网络上别的作者文章。
共勉。
相关文章:
【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。 以终为始,要解决什么问题,实现什么效果? 数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的…...
视频安防监控EasyCVR平台海康大华设备国标GB28181告警布防的报文说明
TSINGSEE青犀视频监控综合管理平台EasyCVR基于云边端协同,可支持海量视频的轻量化接入与汇聚管理。平台既具备传统安防视频监控的能力,比如:视频监控直播、云端录像、云存储、录像检索与回看、告警上报、平台级联、云台控制、语音对讲等&…...
T31开发笔记:librtmp拉流测试
若该文为原创文章,转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程,自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放,实时双向对讲功能。 一、硬件和开发环境 1、硬件࿱…...
2308C++概念化
原文 库 //概念化(需要C20) struct 可画 {void 画(小出流 &out) const {te::call([](auto const &s, auto &out)-> decltype(s.画(out)) { s.画(out); }, *this, out);} }; struct 方形 {void 画(小出流 &out) const { out << "方形"; } }…...
flutter开发实战-实现自定义按钮类似UIButton效果
flutter开发实战-实现自定义按钮类似UIButton效果 最近开发过程中需要实现一下UIButton效果的flutter按钮,这里使用的是监听手势点击事件。 一、GestureDetector GestureDetector属性定义 GestureDetector({super.key,this.child,this.onTapDown,this.onTapUp,t…...
深度优先搜索|1034, 1020, 1254
深度优先搜索|1034. 边界着色, 机器人的运动范围,529. 扫雷游戏 边界着色机器人的运动范围扫雷问题 边界着色 把这个题分段了,先找到包括 (row, col) 的连通分量,然后再去找符合条件的边界,找到以后涂上颜色就行。 c…...
都市信息供求网servlet+jsp新闻广告出售java源代码mysql
本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 都市信息供求网servletjsp 系统1权限:管理…...
kubeadm init:failed to pull image registry.k8s.io/pause:3.6
错误信息: Unfortunately, an error has occurred: timed out waiting for the condition This error is likely caused by: - The kubelet is not running - The kubelet is unhealthy due to a misconfiguration of the node in some way…...
设计模式之简单工厂模式、工厂模式、抽象工厂模式
参考: 设计模式笔记 简单工厂模式 ● 将类的创建过程交给工厂类实现,如果需要一个类对象,则直接通过工厂创建一个类。 ● 简单工厂模式不符合开闭原则 ● 适用场景:工厂类负责创建的对象比较少;客户端只知道传入工厂…...
C# 控制台彩色深度打印 工具类
文章目录 前言Nuget 环境安装代码使用打印结果 总结 前言 有时候我们想要靠打印获得程序信息,因为Dubeg模式需要一点一点断点进入进出,但是我们觉得断点运行实在是太慢了,还是直接打印后找结果会好一点。 Nuget 环境安装 想自己写的话可以看…...
Pytorch Tensor维度变换方法
1.torch.reshape()、torch.view()可以调整Tensor的shape 2.torch.unsqueeze(index)可以为Tensor增加一个维度 3.squeeze()可以删减维度 4.expand()扩展维度 5.repeat()维度重复,不常用 6.transpose(dim1, dim2)交换dim1与dim2࿰…...
微信小程序之点击文字文字自动转语音进行播放,微信小程序文字识别转语音播放
需求 一堆题目,题干需要在点击的时候进行语音朗读,不做音频上传,不然不便于维护 解决方案 点击查看微信官方文档:微信同声传译 使用流程 后台配置 mp.weixin.qq.com 设置 > 第三方设置 > 插件管理 小程序插件使用流…...
主动学习、半监督学习、它们之间的区别?
1、主动学习(Active Learning): 含义: 有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请…...
linux快速安装Rabbitmq
linux快速安装Rabbitmq 准备yum仓库 # root执行rpm --import https://github.com/rabbitmq/signing-keys/releases/download/2.0/rabbitmq-release-signing-key.ascrpm --import https://packagecloud.io/rabbitmq/erlang/gpgkeyrpm --import https://packagecloud.io/ra…...
spconv1.2.1库的编译与安装
SpConv是一个稀疏卷积库,在点云相关的深度学习算法中用的比较多。由于目前官方升级到了2.0,然而有些算法(比如审稿人要我复现的Cylinder3D)仍需要用到1.2.1版本,因此本人花了亿点点时间折腾了一下。。。 本机安装cuda…...
java+springboot+mysql企业邮件管理系统
项目介绍: 使用javaspringbootmysql开发的企业邮件管理系统,系统包含超级管理员、管理员、员工角色,功能如下: 超级管理员:管理员管理;员工管理;反馈管理;系统公告;个人…...
[CKA]考试之一个 Pod 封装多个容器
由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 创建一个Pod,名字为kucc1,这个Pod包含4容器ÿ…...
iphone备份用什么软件?好用的苹果数据备份工具推荐!
众所周知,如果要将iPhone的数据跟电脑进行传输备份的话,我们需要用到iTunes这个pc工具。但是对于iTunes,不少人都反映这个软件比较难用,用不习惯。于是,顺应时代命运的iPhone备份同步工具就出现了。那iphone备份用什么…...
一语道破 python 迭代器和生成器
简而言之:迭代器是一个抽象化的概念,在python中表示访问数据集合中元素的一种方式;生成器也是一个抽象化的概念,在python 中,边循环边生成所需数据,是一种时间换空间的方法。从访问数据方式上来看ÿ…...
有哪些开源和非开源的项目管理工具?
开源和非开源项目管理工具各有其特点和优势。下面是一些常见的开源和非开源项目管理工具以及它们的简要介绍。 开源项目管理工具: OpenProject:OpenProject 是一个功能强大、易于使用的开源项目管理工具。它提供了项目计划、任务管理、团队协作、文档管…...
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...
学校招生小程序源码介绍
基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码,专为学校招生场景量身打造,功能实用且操作便捷。 从技术架构来看,ThinkPHP提供稳定可靠的后台服务,FastAdmin加速开发流程,UniApp则保障小程序在多端有良好的兼…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级
在互联网的快速发展中,高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司,近期做出了一个重大技术决策:弃用长期使用的 Nginx,转而采用其内部开发…...
Linux云原生安全:零信任架构与机密计算
Linux云原生安全:零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言:云原生安全的范式革命 随着云原生技术的普及,安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测,到2025年,零信任架构将成为超…...
IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...
2023赣州旅游投资集团
单选题 1.“不登高山,不知天之高也;不临深溪,不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...
20个超级好用的 CSS 动画库
分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...
R 语言科研绘图第 55 期 --- 网络图-聚类
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...
前端中slice和splic的区别
1. slice slice 用于从数组中提取一部分元素,返回一个新的数组。 特点: 不修改原数组:slice 不会改变原数组,而是返回一个新的数组。提取数组的部分:slice 会根据指定的开始索引和结束索引提取数组的一部分。不包含…...
