【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。
以终为始,要解决什么问题,实现什么效果?
数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的业务数据、数据历史的变化趋势、数据的空间分布和数据构成分布等。
在系统建设层面,呈现业务对应的业务系统,往往是业务运营监控系统。通常情况下,我们看到的类似天猫双12数据大屏,公安、交通指挥中心的数据大屏等,都是呈现业务的典型案例。
我从业以来做过的报表,主要分为两部分:
一是,常规性报表,展示客观数据、以及业务人员关注的指标。客观数据占据大部分版面,老板/业务人员关注的关键性经营分析指标占小部分,但会在显眼的位置。
二是,指标分析报表,把客观数据指标化,建立一套指标体系,再对指标体系进行评价,通过多个指标的高高低低来得出结论。重在通过数据分析总结,进行业务预警,最终会聚焦在一个层面。
界定问题,要实现的目标
想要解决的问题是什么?
最终呈现的报告,包含的内容,想要证明的问题?
确定分析目标,明确要解决的问题或取得的结果,例如预测销售额、发现数据中的模式等。
梳理数据源及指标
看这个问题,可以通过什么数据形式来表现出来呢?
数据结果,数据层次,最细的粒度,可以分析的有价值粒度有哪些?
做数据结构,每个结构可以解决什么问题?
收集相关数据,可以是内部数据库、公开数据集或通过调查等方式获得。比如我做的,一般是通过ERP获取,但ERP有多个报表,选择最适合、且数据源较为规整的那一个。
数据清洗及计算
对数据进行清洗和预处理,包括处理缺失值、异常值、重复值等,以及进行数据转换、归一化、标准化等操作。
说实话,在首次清洗的时候,只能对十分明显错误数据进行处理,有一些隐藏较深无法发现的问题,只能在后续工作中不断发现不断处理,尤其是在你面对的数据集较为复杂、字段繁多,且业务意义交叉复杂时。
可视化模型搭建
通过可视化和统计方法来探索数据的特征和关系,例如绘制直方图、散点图、箱线图等。最重要的是选择适合问题的表现方法,不局限在要展示自己高超的分析技能。我常用的是条形图、环形图、卡片图、图表明细,没有用到十分复杂的图形,一方面便于模型使用者(用户)理解,另一方面我的日常业务分析一般不会涉及复杂的机器学习算法,主要目的就是针对发现的问题去“分析原因”,然后提出建议。简单图形就够了,使用模型的意义更多是希望数据能够快速更新,避免数据延迟。
有了大致思路、基础模型后,一般情况下,我会去公开网站上找到对标模板,参考那些好看的页面结构、比赛作品、小的可视化元素,这样可以提高效率,让做出来的可视化页面的可读性强,且更有设计性。需要注意,可视化页面,每一部分的字号大小、背景标题,最好提前就统一,减少后期反复及修改;先搭建粗略框架,和需求方沟通,是否可以实他们的需求?客户如提出新的细化的需求,再补充优化做出来,如此反复。
对模型形成可视化报告,进行解读
模型搭建完成,且你足够了解业务后,需要对相关数据进行多维度的监控,发现数据的异常,包括对比差异、时间变化趋势、空间分布和构成结构上的异常等,都属于异常。这一环节可以人工完成,也可以系统自动完成,一般的数据可视化模型/系统都会集成异常数据监控能力。
发现异常、分析问题往往需要人工介入,基于业务现象和异常的表现,通过时间维度、空间维度、结构维度和关系维度,分析引起异常的可能原因,并进行逐一验证。分析问题通常以人工 + 系统的方式完成,系统提供分析问题所需要的功能,人工通过该功能进行操作来验证问题的原因。
定位问题的原因是一个比较复杂的系统工程,不止需要人工介入,还要基于数据表现,制定对应的产品和运营策略。互联网公司,或者数据体量大的公司,常常通过A/B测试的模式,来验证假设,对于分析问题过程中的推论进行业务验证,从而发现根本原因。例如,当发现商品的价格因素可能是导致销量下降的原因的时候,可以通过适当的降价/促销等营销活动,来验证这个假设是否成立。
不过在我处的传统行业中,从业务端来看,更多的还是通过一些简单的运营公示的拆解,来发现问题,看是哪个环节的指标明显低于平均,进而对此进行处理。
基于数据可视化分析,解决业务问题,从系统建设和使用视角而言,是业务监控、数据化运营、数据化营销和数据化决策的过程。构建数据可视化分析体系,可以有效支撑业务运营决策,在执行运营决策的过程中,可以不断优化现有业务过程模型。
需要注意的是!
数据分析和建模是一个迭代的过程,可能需要多次调整和优化,以获得更好的结果。也避免第一版就过度追求完美,到时工期延误,项目推迟的结果,无论如何先完成一版,后续再逐步优化就好。我刚开始入行的时候,是十分理想的,看到很多没办法一次做到完美、100分的事情,就有点垂头丧气,觉得自己能力不行。但现实工作不是上学考试,真实世界的很多事情,就是这样的。
以上思考部分来自实际工作经验,部分来自网络上别的作者文章。
共勉。
相关文章:
【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。 以终为始,要解决什么问题,实现什么效果? 数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的…...
视频安防监控EasyCVR平台海康大华设备国标GB28181告警布防的报文说明
TSINGSEE青犀视频监控综合管理平台EasyCVR基于云边端协同,可支持海量视频的轻量化接入与汇聚管理。平台既具备传统安防视频监控的能力,比如:视频监控直播、云端录像、云存储、录像检索与回看、告警上报、平台级联、云台控制、语音对讲等&…...
T31开发笔记:librtmp拉流测试
若该文为原创文章,转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程,自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放,实时双向对讲功能。 一、硬件和开发环境 1、硬件࿱…...
2308C++概念化
原文 库 //概念化(需要C20) struct 可画 {void 画(小出流 &out) const {te::call([](auto const &s, auto &out)-> decltype(s.画(out)) { s.画(out); }, *this, out);} }; struct 方形 {void 画(小出流 &out) const { out << "方形"; } }…...
flutter开发实战-实现自定义按钮类似UIButton效果
flutter开发实战-实现自定义按钮类似UIButton效果 最近开发过程中需要实现一下UIButton效果的flutter按钮,这里使用的是监听手势点击事件。 一、GestureDetector GestureDetector属性定义 GestureDetector({super.key,this.child,this.onTapDown,this.onTapUp,t…...
深度优先搜索|1034, 1020, 1254
深度优先搜索|1034. 边界着色, 机器人的运动范围,529. 扫雷游戏 边界着色机器人的运动范围扫雷问题 边界着色 把这个题分段了,先找到包括 (row, col) 的连通分量,然后再去找符合条件的边界,找到以后涂上颜色就行。 c…...
都市信息供求网servlet+jsp新闻广告出售java源代码mysql
本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 都市信息供求网servletjsp 系统1权限:管理…...
kubeadm init:failed to pull image registry.k8s.io/pause:3.6
错误信息: Unfortunately, an error has occurred: timed out waiting for the condition This error is likely caused by: - The kubelet is not running - The kubelet is unhealthy due to a misconfiguration of the node in some way…...
设计模式之简单工厂模式、工厂模式、抽象工厂模式
参考: 设计模式笔记 简单工厂模式 ● 将类的创建过程交给工厂类实现,如果需要一个类对象,则直接通过工厂创建一个类。 ● 简单工厂模式不符合开闭原则 ● 适用场景:工厂类负责创建的对象比较少;客户端只知道传入工厂…...
C# 控制台彩色深度打印 工具类
文章目录 前言Nuget 环境安装代码使用打印结果 总结 前言 有时候我们想要靠打印获得程序信息,因为Dubeg模式需要一点一点断点进入进出,但是我们觉得断点运行实在是太慢了,还是直接打印后找结果会好一点。 Nuget 环境安装 想自己写的话可以看…...
Pytorch Tensor维度变换方法
1.torch.reshape()、torch.view()可以调整Tensor的shape 2.torch.unsqueeze(index)可以为Tensor增加一个维度 3.squeeze()可以删减维度 4.expand()扩展维度 5.repeat()维度重复,不常用 6.transpose(dim1, dim2)交换dim1与dim2࿰…...
微信小程序之点击文字文字自动转语音进行播放,微信小程序文字识别转语音播放
需求 一堆题目,题干需要在点击的时候进行语音朗读,不做音频上传,不然不便于维护 解决方案 点击查看微信官方文档:微信同声传译 使用流程 后台配置 mp.weixin.qq.com 设置 > 第三方设置 > 插件管理 小程序插件使用流…...
主动学习、半监督学习、它们之间的区别?
1、主动学习(Active Learning): 含义: 有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请…...
linux快速安装Rabbitmq
linux快速安装Rabbitmq 准备yum仓库 # root执行rpm --import https://github.com/rabbitmq/signing-keys/releases/download/2.0/rabbitmq-release-signing-key.ascrpm --import https://packagecloud.io/rabbitmq/erlang/gpgkeyrpm --import https://packagecloud.io/ra…...
spconv1.2.1库的编译与安装
SpConv是一个稀疏卷积库,在点云相关的深度学习算法中用的比较多。由于目前官方升级到了2.0,然而有些算法(比如审稿人要我复现的Cylinder3D)仍需要用到1.2.1版本,因此本人花了亿点点时间折腾了一下。。。 本机安装cuda…...
java+springboot+mysql企业邮件管理系统
项目介绍: 使用javaspringbootmysql开发的企业邮件管理系统,系统包含超级管理员、管理员、员工角色,功能如下: 超级管理员:管理员管理;员工管理;反馈管理;系统公告;个人…...
[CKA]考试之一个 Pod 封装多个容器
由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 创建一个Pod,名字为kucc1,这个Pod包含4容器ÿ…...
iphone备份用什么软件?好用的苹果数据备份工具推荐!
众所周知,如果要将iPhone的数据跟电脑进行传输备份的话,我们需要用到iTunes这个pc工具。但是对于iTunes,不少人都反映这个软件比较难用,用不习惯。于是,顺应时代命运的iPhone备份同步工具就出现了。那iphone备份用什么…...
一语道破 python 迭代器和生成器
简而言之:迭代器是一个抽象化的概念,在python中表示访问数据集合中元素的一种方式;生成器也是一个抽象化的概念,在python 中,边循环边生成所需数据,是一种时间换空间的方法。从访问数据方式上来看ÿ…...
有哪些开源和非开源的项目管理工具?
开源和非开源项目管理工具各有其特点和优势。下面是一些常见的开源和非开源项目管理工具以及它们的简要介绍。 开源项目管理工具: OpenProject:OpenProject 是一个功能强大、易于使用的开源项目管理工具。它提供了项目计划、任务管理、团队协作、文档管…...
深度学习在微纳光子学中的应用
深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...
【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】
1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件(System Property Definition File),用于声明和管理 Bluetooth 模块相…...
是否存在路径(FIFOBB算法)
题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...
【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)
LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...
系统掌握PyTorch:图解张量、Autograd、DataLoader、nn.Module与实战模型
本文较长,建议点赞收藏,以免遗失。更多AI大模型应用开发学习视频及资料,尽在聚客AI学院。 本文通过代码驱动的方式,系统讲解PyTorch核心概念和实战技巧,涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…...
LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用
中达瑞和自2005年成立以来,一直在光谱成像领域深度钻研和发展,始终致力于研发高性能、高可靠性的光谱成像相机,为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...
华为OD最新机试真题-数组组成的最小数字-OD统一考试(B卷)
题目描述 给定一个整型数组,请从该数组中选择3个元素 组成最小数字并输出 (如果数组长度小于3,则选择数组中所有元素来组成最小数字)。 输入描述 行用半角逗号分割的字符串记录的整型数组,0<数组长度<= 100,0<整数的取值范围<= 10000。 输出描述 由3个元素组成…...
区块链技术概述
区块链技术是一种去中心化、分布式账本技术,通过密码学、共识机制和智能合约等核心组件,实现数据不可篡改、透明可追溯的系统。 一、核心技术 1. 去中心化 特点:数据存储在网络中的多个节点(计算机),而非…...
若依登录用户名和密码加密
/*** 获取公钥:前端用来密码加密* return*/GetMapping("/getPublicKey")public RSAUtil.RSAKeyPair getPublicKey() {return RSAUtil.rsaKeyPair();}新建RSAUti.Java package com.ruoyi.common.utils;import org.apache.commons.codec.binary.Base64; im…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现指南针功能
指南针功能是许多位置服务应用的基础功能之一。下面我将详细介绍如何在HarmonyOS 5中使用DevEco Studio实现指南针功能。 1. 开发环境准备 确保已安装DevEco Studio 3.1或更高版本确保项目使用的是HarmonyOS 5.0 SDK在项目的module.json5中配置必要的权限 2. 权限配置 在mo…...
