【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。
以终为始,要解决什么问题,实现什么效果?
数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的业务数据、数据历史的变化趋势、数据的空间分布和数据构成分布等。
在系统建设层面,呈现业务对应的业务系统,往往是业务运营监控系统。通常情况下,我们看到的类似天猫双12数据大屏,公安、交通指挥中心的数据大屏等,都是呈现业务的典型案例。
我从业以来做过的报表,主要分为两部分:
一是,常规性报表,展示客观数据、以及业务人员关注的指标。客观数据占据大部分版面,老板/业务人员关注的关键性经营分析指标占小部分,但会在显眼的位置。
二是,指标分析报表,把客观数据指标化,建立一套指标体系,再对指标体系进行评价,通过多个指标的高高低低来得出结论。重在通过数据分析总结,进行业务预警,最终会聚焦在一个层面。
界定问题,要实现的目标
想要解决的问题是什么?
最终呈现的报告,包含的内容,想要证明的问题?
确定分析目标,明确要解决的问题或取得的结果,例如预测销售额、发现数据中的模式等。
梳理数据源及指标
看这个问题,可以通过什么数据形式来表现出来呢?
数据结果,数据层次,最细的粒度,可以分析的有价值粒度有哪些?
做数据结构,每个结构可以解决什么问题?
收集相关数据,可以是内部数据库、公开数据集或通过调查等方式获得。比如我做的,一般是通过ERP获取,但ERP有多个报表,选择最适合、且数据源较为规整的那一个。
数据清洗及计算
对数据进行清洗和预处理,包括处理缺失值、异常值、重复值等,以及进行数据转换、归一化、标准化等操作。
说实话,在首次清洗的时候,只能对十分明显错误数据进行处理,有一些隐藏较深无法发现的问题,只能在后续工作中不断发现不断处理,尤其是在你面对的数据集较为复杂、字段繁多,且业务意义交叉复杂时。
可视化模型搭建
通过可视化和统计方法来探索数据的特征和关系,例如绘制直方图、散点图、箱线图等。最重要的是选择适合问题的表现方法,不局限在要展示自己高超的分析技能。我常用的是条形图、环形图、卡片图、图表明细,没有用到十分复杂的图形,一方面便于模型使用者(用户)理解,另一方面我的日常业务分析一般不会涉及复杂的机器学习算法,主要目的就是针对发现的问题去“分析原因”,然后提出建议。简单图形就够了,使用模型的意义更多是希望数据能够快速更新,避免数据延迟。
有了大致思路、基础模型后,一般情况下,我会去公开网站上找到对标模板,参考那些好看的页面结构、比赛作品、小的可视化元素,这样可以提高效率,让做出来的可视化页面的可读性强,且更有设计性。需要注意,可视化页面,每一部分的字号大小、背景标题,最好提前就统一,减少后期反复及修改;先搭建粗略框架,和需求方沟通,是否可以实他们的需求?客户如提出新的细化的需求,再补充优化做出来,如此反复。
对模型形成可视化报告,进行解读
模型搭建完成,且你足够了解业务后,需要对相关数据进行多维度的监控,发现数据的异常,包括对比差异、时间变化趋势、空间分布和构成结构上的异常等,都属于异常。这一环节可以人工完成,也可以系统自动完成,一般的数据可视化模型/系统都会集成异常数据监控能力。
发现异常、分析问题往往需要人工介入,基于业务现象和异常的表现,通过时间维度、空间维度、结构维度和关系维度,分析引起异常的可能原因,并进行逐一验证。分析问题通常以人工 + 系统的方式完成,系统提供分析问题所需要的功能,人工通过该功能进行操作来验证问题的原因。
定位问题的原因是一个比较复杂的系统工程,不止需要人工介入,还要基于数据表现,制定对应的产品和运营策略。互联网公司,或者数据体量大的公司,常常通过A/B测试的模式,来验证假设,对于分析问题过程中的推论进行业务验证,从而发现根本原因。例如,当发现商品的价格因素可能是导致销量下降的原因的时候,可以通过适当的降价/促销等营销活动,来验证这个假设是否成立。
不过在我处的传统行业中,从业务端来看,更多的还是通过一些简单的运营公示的拆解,来发现问题,看是哪个环节的指标明显低于平均,进而对此进行处理。
基于数据可视化分析,解决业务问题,从系统建设和使用视角而言,是业务监控、数据化运营、数据化营销和数据化决策的过程。构建数据可视化分析体系,可以有效支撑业务运营决策,在执行运营决策的过程中,可以不断优化现有业务过程模型。
需要注意的是!
数据分析和建模是一个迭代的过程,可能需要多次调整和优化,以获得更好的结果。也避免第一版就过度追求完美,到时工期延误,项目推迟的结果,无论如何先完成一版,后续再逐步优化就好。我刚开始入行的时候,是十分理想的,看到很多没办法一次做到完美、100分的事情,就有点垂头丧气,觉得自己能力不行。但现实工作不是上学考试,真实世界的很多事情,就是这样的。
以上思考部分来自实际工作经验,部分来自网络上别的作者文章。
共勉。
相关文章:
【数据化分析和建模】一般步骤(个人工作经验总结)
近期关于【数据化分析和建模】一般步骤的思考如下。 以终为始,要解决什么问题,实现什么效果? 数据可视化分析的首要目标是通过将数据以可视化图表的形式真实、完整地呈现业务现状,为发现业务问题打好基础,包括实时的…...

视频安防监控EasyCVR平台海康大华设备国标GB28181告警布防的报文说明
TSINGSEE青犀视频监控综合管理平台EasyCVR基于云边端协同,可支持海量视频的轻量化接入与汇聚管理。平台既具备传统安防视频监控的能力,比如:视频监控直播、云端录像、云存储、录像检索与回看、告警上报、平台级联、云台控制、语音对讲等&…...

T31开发笔记:librtmp拉流测试
若该文为原创文章,转载请注明原文出处。 T31使用librtmp拉流并保存成FLV文件或H264和AAC文件。 librtmp编译在前面有教程,自行编译。 实现的目的是想要获取获取rtmp的AAC流并播放,实时双向对讲功能。 一、硬件和开发环境 1、硬件࿱…...
2308C++概念化
原文 库 //概念化(需要C20) struct 可画 {void 画(小出流 &out) const {te::call([](auto const &s, auto &out)-> decltype(s.画(out)) { s.画(out); }, *this, out);} }; struct 方形 {void 画(小出流 &out) const { out << "方形"; } }…...
flutter开发实战-实现自定义按钮类似UIButton效果
flutter开发实战-实现自定义按钮类似UIButton效果 最近开发过程中需要实现一下UIButton效果的flutter按钮,这里使用的是监听手势点击事件。 一、GestureDetector GestureDetector属性定义 GestureDetector({super.key,this.child,this.onTapDown,this.onTapUp,t…...
深度优先搜索|1034, 1020, 1254
深度优先搜索|1034. 边界着色, 机器人的运动范围,529. 扫雷游戏 边界着色机器人的运动范围扫雷问题 边界着色 把这个题分段了,先找到包括 (row, col) 的连通分量,然后再去找符合条件的边界,找到以后涂上颜色就行。 c…...

都市信息供求网servlet+jsp新闻广告出售java源代码mysql
本项目为前几天收费帮学妹做的一个项目,Java EE JSP项目,在工作环境中基本使用不到,但是很多学校把这个当作编程入门的项目来做,故分享出本项目供初学者参考。 一、项目描述 都市信息供求网servletjsp 系统1权限:管理…...
kubeadm init:failed to pull image registry.k8s.io/pause:3.6
错误信息: Unfortunately, an error has occurred: timed out waiting for the condition This error is likely caused by: - The kubelet is not running - The kubelet is unhealthy due to a misconfiguration of the node in some way…...
设计模式之简单工厂模式、工厂模式、抽象工厂模式
参考: 设计模式笔记 简单工厂模式 ● 将类的创建过程交给工厂类实现,如果需要一个类对象,则直接通过工厂创建一个类。 ● 简单工厂模式不符合开闭原则 ● 适用场景:工厂类负责创建的对象比较少;客户端只知道传入工厂…...

C# 控制台彩色深度打印 工具类
文章目录 前言Nuget 环境安装代码使用打印结果 总结 前言 有时候我们想要靠打印获得程序信息,因为Dubeg模式需要一点一点断点进入进出,但是我们觉得断点运行实在是太慢了,还是直接打印后找结果会好一点。 Nuget 环境安装 想自己写的话可以看…...
Pytorch Tensor维度变换方法
1.torch.reshape()、torch.view()可以调整Tensor的shape 2.torch.unsqueeze(index)可以为Tensor增加一个维度 3.squeeze()可以删减维度 4.expand()扩展维度 5.repeat()维度重复,不常用 6.transpose(dim1, dim2)交换dim1与dim2࿰…...

微信小程序之点击文字文字自动转语音进行播放,微信小程序文字识别转语音播放
需求 一堆题目,题干需要在点击的时候进行语音朗读,不做音频上传,不然不便于维护 解决方案 点击查看微信官方文档:微信同声传译 使用流程 后台配置 mp.weixin.qq.com 设置 > 第三方设置 > 插件管理 小程序插件使用流…...
主动学习、半监督学习、它们之间的区别?
1、主动学习(Active Learning): 含义: 有的时候,有类标的数据比较稀少而没有类标的数据是相当丰富的,但是对数据进行人工标注又非常昂贵,这时候,学习算法可以主动地提出一些标注请…...
linux快速安装Rabbitmq
linux快速安装Rabbitmq 准备yum仓库 # root执行rpm --import https://github.com/rabbitmq/signing-keys/releases/download/2.0/rabbitmq-release-signing-key.ascrpm --import https://packagecloud.io/rabbitmq/erlang/gpgkeyrpm --import https://packagecloud.io/ra…...
spconv1.2.1库的编译与安装
SpConv是一个稀疏卷积库,在点云相关的深度学习算法中用的比较多。由于目前官方升级到了2.0,然而有些算法(比如审稿人要我复现的Cylinder3D)仍需要用到1.2.1版本,因此本人花了亿点点时间折腾了一下。。。 本机安装cuda…...

java+springboot+mysql企业邮件管理系统
项目介绍: 使用javaspringbootmysql开发的企业邮件管理系统,系统包含超级管理员、管理员、员工角色,功能如下: 超级管理员:管理员管理;员工管理;反馈管理;系统公告;个人…...

[CKA]考试之一个 Pod 封装多个容器
由于最新的CKA考试改版,不允许存储书签,本博客致力怎么一步步从官网把答案找到,如何修改把题做对,下面开始我们的 CKA之旅 题目为: Task 创建一个Pod,名字为kucc1,这个Pod包含4容器ÿ…...

iphone备份用什么软件?好用的苹果数据备份工具推荐!
众所周知,如果要将iPhone的数据跟电脑进行传输备份的话,我们需要用到iTunes这个pc工具。但是对于iTunes,不少人都反映这个软件比较难用,用不习惯。于是,顺应时代命运的iPhone备份同步工具就出现了。那iphone备份用什么…...

一语道破 python 迭代器和生成器
简而言之:迭代器是一个抽象化的概念,在python中表示访问数据集合中元素的一种方式;生成器也是一个抽象化的概念,在python 中,边循环边生成所需数据,是一种时间换空间的方法。从访问数据方式上来看ÿ…...

有哪些开源和非开源的项目管理工具?
开源和非开源项目管理工具各有其特点和优势。下面是一些常见的开源和非开源项目管理工具以及它们的简要介绍。 开源项目管理工具: OpenProject:OpenProject 是一个功能强大、易于使用的开源项目管理工具。它提供了项目计划、任务管理、团队协作、文档管…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型
摘要 拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 向量 HNSW)并以大语言模型兜底”的整体框架: 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录
ASP.NET Core 是一个跨平台的开源框架,用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录,以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...

.Net框架,除了EF还有很多很多......
文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

【HarmonyOS 5.0】DevEco Testing:鸿蒙应用质量保障的终极武器
——全方位测试解决方案与代码实战 一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台,覆盖应用全生命周期测试需求,主要提供五大核心能力: 测试类型检测目标关键指标功能体验基…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...
渲染学进阶内容——模型
最近在写模组的时候发现渲染器里面离不开模型的定义,在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容,其实不管是方块还是方块实体,都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器,用于动态创…...
Axios请求超时重发机制
Axios 超时重新请求实现方案 在 Axios 中实现超时重新请求可以通过以下几种方式: 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...