数据分析概要【数据分析---偏企业】

个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
数据分析概要前 必看
Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据分析系列文章 偏学术
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型
数据分析—AI交互及爬虫
大数据导论 知识
【大数据导论】—大数据序言
【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言
【大数据导论】—大数据基础知识
目录
- 数据概念
- 数据类别
- 数据四大优势
- 数据分析概念
- 数据岗位区别
- 数据分析适用场景
- 数据分析步骤
- 数据分析框架
- 数据分析中的可视化
- 学习经验分享
数据概念
数据
- 对客观事件进行记录并可以鉴别的符号
- 是构成信息的基本单位
数据类别
-
数值型数据
由数字组成的变量
-
类别型数据
由各种字符串和分组标签组成
数据四大优势
- 反复读取和使用
- 客观
- 量化
- 机器可处理
数据分析概念
只要是基于量化的信息 提升生产力就是数据分析
数据岗位区别
基于业务
- 数据专员
- 数据运营
- 数据分析师
基于开发
- 数据工程师
- 数据产品经理
基于算法
- 算法优化师
- 算法科学家
- 算法工程师
数据分析适用场景
四大类
-
用数据去量化企业当前的经营现状或者业务事实
-
探究各种数据上的差距和异常,寻找背后的成因
-
搞清楚成因后给出具体的行动策略
方法
-
计算使当前策略投入产出比最高的过程参数
方法
数据分析步骤
- 思考 问题
- 处理 数据
- 输出 结论
-
其中思考问题
-
发现问题
-
定义问题
-
选择问题
-
确认问题
- 目的
- 背景
- 思路
解决方法及例子
注意 一定要检查数据准确性,若数据过于异常,还要检查一下数据的处理与计算
-
拆解问题
初学阶段:学习大量经典分析框架,再搭建自己的分析矩阵
成熟分析师:搭建起自己的分析矩阵,对问题全方位地拆解,高效地找到答案
-
量化问题
- 数据格式
- 日期
- 字符串
- 数字
注意 要统一统计口径,即什么时候一个数据才算有效数据
- 数据格式
-
其中处理数据
- 收集数据
- 内部数据
- 直接写SQL
- 从平台下载
- 提数据需求
- 从生产环境同步
- T+1更新
- 外部数据
- 来源:各大网站和APP
- 获取方式:爬虫和API
- 内部数据
爬虫常用工具:八爪鱼和后羿采集器或者Python中的爬虫工具包
-
处理数据
将各种脏数据通过筛选、清洗和计算处理成干净数据
-
制作图表
将清洗过的标准数据借助工具 处理成我们需要的各种图表
-
上传发布
将我们的图表发布成一个个可以访问的页面
-
输出结论
一句话一幅图
数据分析框架
其中五大基础理论
一、大数定律
大量重复某一实验时最后的频率会无限接近于事件的概率,即数据的样本量越大,预测和计算的概率就越准确
启发:对小样本量的分析结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析
二、罗卡定律
凡有接触必有痕迹,不要放弃去挖掘更多数据
启发:用户的一切行为都会留下数据,尽可能的拿来分析,找到数据背后隐藏的价值
三、幸存者偏差
统计样本的覆盖,会很大程度上直接影响分析的结果,即各种分析对象能取全量 尽量取全量
启发:分析时要提前检查取样偏差,分析的样本要越能代表整体越好
四、辛普森悖论
两组分别讨论都满足某一性质的数据,一旦合并计算会得出完全相反的结论
启发:确保数据在同一量级和权重下进行分析
五、帕累托最优
在进行资源分配中,不增加资源仅通过调整分配方式,使整体的效率最大化
启发:在不投入资源的情况下,也总有优化现状的方法
其中一法则四方法
MECE法则
要求拆解出的各个部分都要满足相互独立,完全穷尽
时间流程法
根据时间顺序对问题进行拆解
经典AARRR模型
A—获取
A—激活
R—留存
R—收益
R—传播
该模型可以根据公司的具体业务进行细分
经典两大框架
-
PDCA
强调做事情一定要先规划再执行
P—计划
D—执行
C—检查
A—处理
-
精益创业
强调 根据想法快速构建产品,并基于数据反馈快速迭代创业
模型框架法
基于几个完全平行的维度,对问题进行划分
-
SWOT法
- SO战略
依靠内部优势 - WO战略
利用外部机会
克服内部弱点 - ST战略
利用内部优势
抵制外部威胁 - WT战略
减少内部弱点
回避外部威胁
- SO战略
-
RFM法
根据不同的维度,对客户划分成8个区间
量化公式法
解决涉及到指标计算的问题
将问题量化成指标的步骤
- 根据拆解的维度找到对应的数据指标
- 基于现有的数据指标进行发散的思考
常见的指标有三类
属性:描述分析对象有哪些特征
绝对值:衡量一件事最后的结果
转换率:衡量一个环节的完成度
穷尽要素法
将整体分为不同的构成部分
例如:电商平台将消费人群划分成八大人群
其中业务诊断
业务诊断通常用时间流程法、模型框架法、量化公式法、穷尽要素法四大分析方法一起上,对问题进行拆解、量化、取数、分析
其中业务增长
- 收集外部数据
- 估算市场空间
- 推算竞品规模
- 计算增长空间
- 确定增长目标
- 研究主流打法
- 设计增长策略
- 构建增长引擎
- 计算增长成本
- 核心指标选取
- 业务动作梳理
- 指标体系搭建
- 数据实验设计
- 专项策略输出
- 梳理可行方案
- 数据实验迭代
- 达到增长目标
数据分析中的可视化
取数作图
-
可视化原理
-
经历的环节
-
数据工具
- Excel 小量级一次性的数据处理
- Tableau、Power BI等BI工具 批量的数据读取与分析
- Python 复杂的数据清洗、爬虫和算法建模
注意:若不灵活学习和使用新工具,最终都会限制自身的发展
数据表达
基于数据化的表、图、文 说明事实表达观点,从而更好地说明现状阐述事实,使人能基于数据准确地知道到底发生了什么,用数据说服他人认同我们自己想表达的观点
数据表达的原则
- 客观
- 直观
- 高效
数据表达的载体和形式
-
基于PPT的汇报总结
-
基于文档的专业分析
-
基于图文的沟通对话
表达格式:观点+数据+补充信息+图表
其中:
-
提炼文字观点
- 打破认知
- 语出惊人
-
制作完善图表
-
根据问题和观点选择合适的图表类型
-
为图表准备数据
对观点拆解量化,然后梳理出数据,并且收集处理为数据库中的标准数据 -
通过工具制作图表
-
优化视觉图形组合
制作出有效信息密度更大的高效图表
图形总结:-
比数字规模,上柱状图
-
多对象,上条形图
-
数据趋势,上折线图
-
多个对比对象,上多个折线图
-
各类占比分析,上饼图/环形图
-
多对象占比,上树图
-
两个度量上对比一个维度,上散点图
-
单一度量分布,上直方图
-
地理位置相关,上地图
-
即图表类型分类主要是从规模、趋势、占比、关系、分布
-
-
提出关键数据
- 日期时间说准确
时间日期要准确说明年月日 - 简化数字
对于大数据和小数点过长的数据,要四舍五入,并给出合适量级的单位 - 少用术语
要视对象使用术语和缩略语,不要跟业务拽专业指标,也不要跟技术说行业黑话 - 多说大白话
语言表述越直白、越简单越好,不要兜圈子
- 日期时间说准确
-
学习经验分享
- 先充分理解别人的学习框架
- 看已有框架 能不能解决问题
- 果断学习新知识去解决问题
- 学会后归纳到自己的框架里
- 甚至放弃原有框架重新搭建一个
在进行数据分析时,反复问自己三个问题:
一、输出结论是能不能理解
二、做出的图表 够不够直观
三、给出的策略 可不可执行
注意:在数据分析领域中面对众多方向先学自己用得上的技能和知识
数据分析与问题本身关系
- 只有乐于解决问题
- 才会善于解决问题
- 当善于解决问题
- 就没有难解的问题
注意:在解决问题中一定不能只看量化的数据,大量非量化的业务细节和信息,甚至连一线执行时的情绪都是不可忽略的,它们往往才是最终决定你的分析和策略 是否能真正落地实现价值的关键
好的,到此为止啦,祝您变得更强
想说的话
学习来源B站戴师兄(反反复复学习了3遍哈并且做了相应的笔记/相应的练习 然后才进行的这篇博客的书写)实不相瞒,写的这篇博客要写八个小时以上(加上自己学习和纸质笔记,共十小时吧),很累,希望大佬支持一下
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川![]() ![]() |
相关文章:

数据分析概要【数据分析---偏企业】
各位大佬好 ,这里是阿川的博客,祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 数据分析概要前 必看 Python 初阶 Python–语言基础…...

PDF编辑器大分享,这三款加速PDF编辑!
嘿,各位办公室的小伙伴们,今儿咱们来聊聊那些让咱们文员生活变得更加轻松愉快的神器——PDF编辑器!作为每天跟文档打交道的“文字魔术师”,选对工具那可真是事半功倍啊。今天,我就从我的亲身体验出发,给大伙…...

Python --Pandas库基础方法(2)
文章目录 Pandas 变量类型的转换查看各列数据类型改变数据类型 重置索引删除行索引和切片seriesDataFrame取列按行列索引选择loc与iloc获取 isin()选择query()的使用排序用索引排序使用变量值排序 修改替换变量值对应数值的替换 数据分组基于拆分进行筛选 分组汇总引用自定义函…...

《Programming from the Ground Up》阅读笔记:p75-p87
《Programming from the Ground Up》学习第4天,p75-p87总结,总计13页。 一、技术总结 1.persistent data p75, Data which is stored in files is called persistent data, because it persists in files that remain on disk even when the program …...
Python面试整理-常用标准库
Python的标准库包含了大量的模块和包,支持各种编程任务,从文件处理、数据序列化,到网络编程等。这些模块预安装在Python中,无需额外安装就可以使用。以下是一些非常有用且常用的标准库模块: 1. os 用于与操作系统进行交互,包括文件和目录管理操作。 import os # 获取当前…...

halcon_C#联合halcon打开摄像头
1. 创建halcon项目 -> 2.测试连接 -> 3. 在halcon中打开摄像头成功 -> 4. 插入代码 -> 5. 导出为.cs文件 6. 创建VS项目 -> 7.将action部分代码嵌入winform -> 8. 编写代码 -> // 导入HalconDotNet命名空间,这是用于Halcon图像处理的…...
无标题栏窗口通过消息模拟拖动窗口时,无法拖动的一个原因
在使用DUI库或者web控件来做窗口和UI时,常常遇到一个问题:整个窗口如果设置了CAPTION区域,那么在CAPTION区域中,web页面的内容无法正常响应鼠标事件,如果不设置CAPTION区域,那么对于窗口的拖动又有影响。在…...
每天一个数据分析题(四百五十四)- 调研问卷
选择题是设计市场调查问卷时常用的题目类型,关于多选题和单选题的优缺点,以下说法不正确的是? A. 多选题相比单选题提供的信息量大。 B. 单选题提供的信息量相对较少,但比较便于后期编码和统计分析。 C. 单选题和多选题可以同时…...

红酒与家居:打造优雅生活空间
在繁忙的都市生活中,我们渴望拥有一处宁静而优雅的家居空间,那里不仅是我们休憩的港湾,更是我们品味生活、享受时光的地方。当定制红酒与家居设计相遇,它们便共同绘制出一幅充满韵味与格调的生活画卷。今天,就让我们一…...
未来生成式 AI 的发展方向,是 Chat 还是 Agent?
什么是生成式AI? 生成式人工智能(Generative AI)是一种人工智能技术,它能够基于已有的数据模式和结构生成新的数据实例,这些实例可以是文本、图像、音频、视频或任何其他类型的数据。这种技术通常依赖于复杂的算法&am…...
powershell@日期和时间命令和对象
文章目录 abstract获取当前日期和时间格式化日期和时间日期计算👺创建自定义日期和时间👺**[datetime] 类型**及其构造函数缺省值计算日期差异获取特定部分的日期和时间比较日期和时间 常用日期操作总结表时间间隔 TimeSpan 👺创建TimeSpan对…...

【Golang 面试 - 基础题】每日 5 题(八)
✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/UWz06 📚专栏简介:在这个专栏中,我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏…...
LeetCode 算法:在排序数组中查找元素的第一个和最后一个位置 c++
原题链接🔗:在排序数组中查找元素的第一个和最后一个位置 难度:中等⭐️⭐️ 题目 给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标…...

会话存储、本地存储,路由导航守卫、web会话跟踪、JWT生成token、axios请求拦截、响应拦截
1、会话存储、本地存储 前端浏览器中存储用户信息,会话存储、本地存储、cookie 会话存储(sessionStorage):会话期间存储,关闭浏览器后,数据就会销毁 sessionStorage.setItem("account",resp.d…...
strcmp库函数原型
int strcmp(const char *str1, const char *str2) {unsigned const char *s1 (unsigned const char *) str1;unsigned const char *s2 (unsigned const char *) str2;while (*s1 && *s1 *s2) {s1;s2;}return *s1 - *s2; }while (*s1 && *s1 *s2) 一直循环&…...
在 Vue.js 项目中延迟加载子组件
在 Vue.js 中,当父组件渲染时,子组件的生命周期钩子函数会立即执行,即使这些子组件并未显示。这是因为 Vue.js 会在渲染父组件时实例化所有引用的子组件。为了避免不必要的函数执行,我们可以通过使用 v-if 指令和异步组件延迟加载…...
何时会用到设计模式、七大设计原则介绍
以下关于b站尚硅谷相关设计模式视频的总结 设计模式的重要性: 代码重用性(相同的代码,不用编写很多次)、 可读性(编程规范,便于其他程序员阅读和理解)、 可扩展性(增加新功能时&am…...

编程语言发展历史:赋值与相等运算符的变迁历程
本文摘取自笔者书稿《编程语言发展历史》 赋值运算符是编程语言最基础的运算符,其发展历史也非常有趣。最早的赋值语句就是使用等号“”来表示,一些语言为了让赋值运算在数学形式上更加严谨(形如“x x 1”的表达式在数学上不成立࿰…...

求职Leetcode题目(2)
1.柱状图中最大的矩形 据说这是2024年字节二面的题目,我感觉这道题跟接雨水有点类似,最重要的思路还是要找到什么时候能形成矩形的这么个情况,某个范围的矩形的高度,是由最短的柱形来决定的。 我们先整理一下,解决这道…...
深入探索 Postman:使用 API 性能测试优化你的 Web 服务
引言 在当今快速发展的互联网时代,Web 服务的性能至关重要。API 作为服务之间的桥梁,其性能直接影响到整个应用的响应速度和用户体验。Postman,作为一个多功能的 API 开发工具,提供了强大的性能测试功能,帮助开发者评…...
基于算法竞赛的c++编程(28)结构体的进阶应用
结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...

关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...
基于服务器使用 apt 安装、配置 Nginx
🧾 一、查看可安装的 Nginx 版本 首先,你可以运行以下命令查看可用版本: apt-cache madison nginx-core输出示例: nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...
基础测试工具使用经验
背景 vtune,perf, nsight system等基础测试工具,都是用过的,但是没有记录,都逐渐忘了。所以写这篇博客总结记录一下,只要以后发现新的用法,就记得来编辑补充一下 perf 比较基础的用法: 先改这…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一)
宇树机器人多姿态起立控制强化学习框架论文解析 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(一) 论文解读:交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...
MySQL用户和授权
开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务: test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

Reasoning over Uncertain Text by Generative Large Language Models
https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...