机器学习python实践——数据“相关性“的一些补充性个人思考
在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!
本文主要想解释两个问题:一个是“不相关”和“独立性”的区别;一个是降低数据“相关性”有啥用
一、“不相关”和“独立性”有什么区别
相信很多人对于“相关性”中的“不相关”和“独立性”傻傻分不清,所以先给出结论:不相关不一定独立,独立一定不相关,。至于为什么,先给出私人版的“相关性”和“独立性”的定义,然后再给出一个例子让大家直观感受一下:
“相关性”:数据特征变化趋势始终一致或相反
“独立性”:数据特征之间不存在影响现象
先说明“不相关不一定独立”,举个例子:
比如说医生和律师,医生的工资是由国家发的,每个月医生的工资收入都是固定的,而律师的工资是由律师事务所发的,律师每个月都是在增长的,从这里我们可以看出,医生的工资变化趋势是不增不减,而律师的工资变化趋势是增涨的,两者工资变化明显不存在一致或者相反的变化趋势,所以两者工资收入是不相关的,但是如果律师得了病,只有一名医生能看,这个医生又因为工资老是不涨闹情绪不给律师看病,那么律师势必无法工作,收入也就会暴跌,从这我们就可以看出医生的收入可能会在某种程度上影响到律师收入,这就表明两者是不独立的,即医生工资变化会对律师工资变化产生影响。
上面的例子说明了“不相关不一定独立”,那么下面就对“独立一定不相关”进行说明。
从上面的定义可以看出,“独立性”侧重于“影响”,“相关性”侧重于“趋势”,那么是否存在两个特征独立且相关的情况呢?我的答案是:不存在!!!因为独立意味着“随机”,而且是完全随机,这意味着没有任何规律可以寻找,这样特征之间才能保持互不影响,就好像,你都猜不到我心里想的,你怎么可能跟我同频共振,既然都没有没有规律可循,那么数据特征之间也就不存在“同增同减”或者“一减一增”这样的规律,也就表明数据特征之间不存在一致或相反的变化趋势,即数据特征之间不相关。
二、降低数据“相关性”有啥用
网上看了很多,但是个人感觉最有用的就是:降低数据“相关性”可以降低计算难度,下面举例说明:

比如说,上图中,两数据蓝点的在原始坐标系下的坐标分别是(-1,-1)和(1,1),对他进行进行诸如PCA等去"相关性"的方法降低数据两个特征之间的“相关性”。于是,建立了一个新的坐标系(两红线),新坐标系的横轴就是两点之间的连线,所以在不同坐标系下,同样的两点坐标矩阵就发生了如下的变化:

从上面例子我们可以很直观的看到,对数据进行去“相关性”操作后,数据矩阵零更多了,这也就表明计算难度就降低了,所以降低数据“相关性”可以降低计算难度
本文参考:
马同学 (matongxue.com)
概率问题 独立一定不相关,不独立一定相关,相关一定不独立,不相关不一定独立 是这个关系么_百度知道 (baidu.com)
相关文章:
机器学习python实践——数据“相关性“的一些补充性个人思考
在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官…...
MySQL——触发器(trigger)基本结构
1、修改分隔符符号 delimiter $$ $$可以修改 2、创建触发器函数名称 create trigger 函数名 3、什么样在操作触发,操作哪个表 after :……之后触发 before :……之后触发 insert :……之后触发 update :……之后触…...
数字孪生定义及应用介绍
数字孪生定义及应用介绍 1 数字孪生(Digital Twin, DT)概述1.1 定义1.2 功能1.3 使用场景1.4 数字孪生三步走1.4.1 数字模型1.4.2 数字影子1.4.3 数字孪生 数字孪生地球平台Earth-2 参考 1 数字孪生(Digital Twin, DT)概述 数字孪…...
数据赋能(122)——体系:数据清洗——技术方法、主要工具
技术方法 数据清洗标准模型是将数据输入到数据清洗处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清洗从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据…...
【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——中
1. 某学校对入学的新生进行性格问卷调查(没有心理学家的参与),根据学生对问题的回答,把学生的性格分成了8个类别。请说明该数据挖掘任务是属于分类任务还是聚类任务?为什么?并利用该例说明聚类分析和分类分析的异同点。 解答: (a)该数据…...
2024年注册安全工程师报名常见问题汇总!
注册安全工程师报名 24年注册安全工程师报名已正式拉开序幕,报名时间为6月18日—7月10日,考试时间为10月26日—10月27日。 目前经有12个地区公布了2024年注册安全工程师报名时间: 注册安全工程师报名信息完善 根据注安报名系统提示&am…...
JRebel-JVMTI [FATAL] Couldn‘t write to C:\Users\中文用户名-完美解决
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 热部署下载参考博客解决第一步第二步第三步:第四步: 热部署下载 下载后启动报错:JRebel-JVMTI [FATAL] Couldn’t write to C:\…...
STM32基于DMA数据转运和AD多通道
文章目录 1. DMA数据转运 1.1 初始化DMA步骤 1.2 DMA的库函数 1.3 设置当前数据寄存器 1.4 DMA获取当前数据寄存器 2. DMA数据转运 2.1 DMA.C 2.2 DMA.H 2.3 MAIN.C 3. DMAAD多通道 3.1 AD.C 3.2 AD.H 3.3 MAIN.C 1. DMA数据转运 对于DMA的详细解析可以看下面这篇…...
安卓应用开发——Android Studio中通过id进行约束布局
在Android开发中,布局通常使用XML文件来描述,而约束(如相对位置、大小等)可以通过多种方式实现,但直接使用ID进行约束并不直接对应于Android的传统布局系统(如LinearLayout、RelativeLayout等)。…...
Elasticsearch过滤器(filter):原理及使用
Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…...
Docker配置与使用详解
一、引言 随着云计算和微服务的兴起,Docker作为一种轻量级的容器化技术,越来越受到开发者和运维人员的青睐。Docker通过容器化的方式,将应用程序及其依赖项打包成一个可移植的镜像,从而实现了应用程序的快速部署和扩展。本文将详…...
触控MCU芯片(1):英飞凌PSoC第6代第7代
前言: 说到触摸MCU芯片,这个历史也是很久了,比如日常经常接触到的洗衣机、电冰箱、小家电,隔着一层玻璃,轻轻一按就能识别按键,感觉比过去纯机械式的按键更高级更美观,不仅白电,现在很多汽车也都在进行触摸按键的改版,不再使用笨重的机械按键,比如空调调温按键、档位…...
git pull报错:unable to pull from remote repository due to conflicting tag(s)
背景 我在vscode里正常拉取代码,突然就报了如题所示的错误。 原因 因为vscode的拉取按钮执行的实际命令是:git pull --tags origin branch-name,该命令的实际含义是从远程仓库拉取指定的分支和该远程仓库上的所有标签。 在拉取标签时本地的…...
Python将字符串用特定字符分割并前面加序号
Python将字符串用特定字符分割并前面加序号 Python将字符串用特定字符分割并前面加序号,今天项目中就遇到,看着不难,得花点时间搞出来急用啊,在网上找了一圈,没发现有完整流程的文章。所以就搞出来并写了这个文章。仅…...
【第16章】Vue实战篇之跨域解决
文章目录 前言一、浏览器跨域二、配置代理1.公共请求2.代理配置 总结 前言 前后端项目分离衍生出浏览器跨域问题,开发之前我们通过配置代理解决这个问题。 一、浏览器跨域 浏览器的跨域问题主要是由于浏览器的同源策略导致的。同源策略是浏览器的一个安全功能&…...
【PB案例学习笔记】-22制作一个语音朗读金额小应用
写在前面 这是PB案例学习笔记系列文章的第22篇,该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习,提高编程技巧,以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码,小凡都上传到了gite…...
glmark2代码阅读总结
glmark2代码阅读总结 一、总体 用输入参数生成testbench项用scene和benchmark管理进行复用通过类的重载,创建出不同的分支和具体的实现点,如scene和mainloop类用例执行又规划,每个scene都统一有setup,等使用scene的继承关系&…...
第 6 章 监控系统 | 监控套路 - 总结
前面,我们使用 Prometheus + Grafana + Node Exporter 实现虚拟机监控及告警。 那么,😇 监控的套路究竟是什么呢? 第 1 步:暴露 metrics,通过某个 exporter 将 metrics 暴露出来第 2 步:配置 Prometheus 抓取上面暴露的 metrics 数据第 3 步:加速 metrics 显示,配置…...
VsCode中C文件调用其他C文件函数失败
之前一直使用CodeBlocks,最近使用vscode多,感觉它比较方便,但在调用其他C文件的时候发现报错以下内容基于单C文件运行成功,否则请移步 博文:VSCode上搭建C/C开发环境 报错信息 没有使用CodeRunner插件,弹…...
css中content属性你了解多少?
在CSS中,content属性通常与伪元素(如 ::before 和 ::after)一起使用,用于在元素的内容之前或之后插入生成的内容。这个属性不接受常规的HTML内容,而是接受一些特定的值,如字符串、属性值、计数器值等。 以…...
别再熬夜改答辩 PPT 了!okbiye AI PPT,4 步搞定学术演示稿(附保姆级操作指南)
okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPTAI PPT制作 - Okbiye智能写作https://www.okbiye.com/ppt 作为一名被毕业答辩 PPT 折磨过两次的过来人,我太懂那种痛苦了:对着几万字的论文,不知道怎么浓缩成十几页 …...
唐山暖气片测评:河北卓兴材质散热佳但价格略高,适合这类人群
在唐山暖气片市场,众多厂家各展风采。本次测评旨在为对唐山暖气片感兴趣的人群,提供客观、真实的产品信息。参与本次测评的产品来自河北卓兴散热器有限公司。本次测评主要基于以下几个核心维度:1. 材质质量(40%)&#…...
从TTP223到JL523:低成本电容触摸按钮的选型与实战
1. 电容触摸按钮入门:从原理到选型 第一次接触电容触摸按钮是在五年前的一个智能台灯项目上。当时为了给台灯添加一个酷炫的触摸开关,我试遍了市面上各种方案,最终锁定了TTP223这颗经典芯片。没想到几年后,国产的JL523给了我更大的…...
2026年测试工程师常用性能测试平台:高效办公与场景适配指南
测试工程师作为性能测试的核心执行者,对性能平台的需求聚焦于高效办公、功能全面、易用性强、问题定位精准四大维度。测试工程师日常工作涵盖脚本开发、场景编排、压测执行、监控分析、报告生成等多个环节,合适的性能平台,能够提升工作效率&a…...
3步在Windows电脑运行安卓应用的终极指南:APK安装器完全教程
3步在Windows电脑运行安卓应用的终极指南:APK安装器完全教程 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想过,如果能在Windows电…...
OpenClaw数据备份实战:基于Synology NAS的增量备份与安全恢复方案
1. 项目概述与核心价值如果你和我一样,把OpenClaw当作一个重要的生产力工具,用它来管理项目、运行自动化任务,甚至托管一些关键的业务逻辑,那么数据安全就成了一个绕不开的话题。我见过太多因为硬盘突然挂掉、云服务商出问题&…...
Linux串口通信终极指南:3步搞定CH341SER驱动安装,让Arduino开发不再卡壳
Linux串口通信终极指南:3步搞定CH341SER驱动安装,让Arduino开发不再卡壳 【免费下载链接】CH341SER CH341SER driver with fixed bug 项目地址: https://gitcode.com/gh_mirrors/ch/CH341SER 你是否曾经兴奋地拿起一块Arduino开发板,准…...
突破性AI编程工具破解方案:cursor-free-vip技术深度解析与全栈实施指南
突破性AI编程工具破解方案:cursor-free-vip技术深度解析与全栈实施指南 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve …...
D3KeyHelper:暗黑3游戏宏助手终极指南,五分钟轻松搞定技能连点
D3KeyHelper:暗黑3游戏宏助手终极指南,五分钟轻松搞定技能连点 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 想要在《暗黑破…...
告别重复图片困扰:AntiDupl.NET开源工具助你3步清理数字垃圾
告别重复图片困扰:AntiDupl.NET开源工具助你3步清理数字垃圾 【免费下载链接】AntiDupl A program to search similar and defect pictures on the disk 项目地址: https://gitcode.com/gh_mirrors/an/AntiDupl 你是否曾经花费数小时整理电脑中的照片&#x…...
