当前位置: 首页 > article >正文

机器学习数学基础:44.多元线性回归

一、文字内容详解

1. 多重共线性的判断——皮尔逊相关系数

皮尔逊相关系数用于衡量自变量间的线性相关程度,取值范围为 ([-1, 1]):

  • 绝对值越接近 (1),变量间线性相关性越强;越接近 (0),相关性越弱。
  • 在多重共线性判断中,经验标准为:若自变量间的皮尔逊相关系数 < 0.7,说明变量间线性关联未达到“严重”水平,多重共线性问题可控。例如,分析“广告投入、产品价格”对销量的影响时,若二者相关系数为 (0.6),则不构成严重共线性。
2. 多重共线性的处理措施
  • 删除次要变量
    通过理论分析或统计检验(如变量显著性检验),识别对因变量影响较小(不显著)且与其他变量高度相关的自变量。例如,研究消费行为时,若“月收入”与“银行存款”高度相关,且“银行存款”对消费的解释不显著,可删除该变量,减少共线性干扰。
  • 合并相关较高的变量
    将高相关变量整合成新指标。常用方法包括:
    • 主成分分析:提取公共因子,用少数综合变量替代原始变量;
    • 构建综合指标:如将“运动量”“运动强度”合并为“运动总消耗”,既保留信息,又降低共线性。

二、图示内容详解

  • 变量关系
    • X1、X2、X3:代表自变量,彼此间通过曲线箭头连接,表明存在相关关系(即多重共线性)。
    • Y:代表因变量,直线箭头表示自变量对因变量的影响路径,体现多元线性回归中“多个自变量共同解释因变量”的逻辑。
  • 模型逻辑
    图示直观呈现多元线性回归模型的结构,既展示自变量间的关联(潜在的多重共线性问题),也体现自变量对因变量的作用。这种关联可能干扰对因变量影响的准确估计,因此需通过判断(如皮尔逊相关系数)和处理(删除或合并变量)优化模型。

三、通俗理解多重共线性

1. 多重共线性是啥?

想象分析“每天学习时长、刷题量、复习次数”对考试成绩的影响。理论上,这三个因素独立影响成绩,但现实中,学习时间长可能刷题量多、复习次数也多——它们之间有关联,这就是多重共线性。多元回归假设自变量“各自独立”,但现实中它们常有关联,只要关联不大就没事,关联过强才出问题。

2. 多重共线性的“破坏力”

比如研究“运动量、运动强度”对减肥的影响。正常逻辑:运动量越大、强度越高,减肥效果越好(对应回归系数应为正数)。但如果“运动量”和“运动强度”高度相关(如运动强度高时,运动量被迫减少),分析结果可能出现“运动强度”的系数是负数——违背常理,这就是多重共线性导致的“诡异结果”。

3. VIF:判断共线性的“尺子”
  • VIF<3:自变量间“关系很淡”,共线性问题几乎可忽略,像陌生人;
  • 3≤VIF≤10:自变量间“有点交情”,存在弱共线性,像普通朋友;
  • VIF>10:自变量间“关系过密”,共线性严重,像亲密伙伴,此时必须处理(如删除部分变量、合并变量等),否则分析结果不可信。

相关文章:

机器学习数学基础:44.多元线性回归

一、文字内容详解 1. 多重共线性的判断——皮尔逊相关系数 皮尔逊相关系数用于衡量自变量间的线性相关程度,取值范围为 ([-1, 1]): 绝对值越接近 (1),变量间线性相关性越强;越接近 (0),相关性越弱。在多重共线性判断…...

GetWindowLongPtr函数分析

第一部分: #ifdef UNICODE FUNCLOG2(LOG_GENERAL, LONG_PTR, APIENTRY, GetWindowLongPtrW, HWND, hwnd, int, nIndex) #else FUNCLOG2(LOG_GENERAL, LONG_PTR, APIENTRY, GetWindowLongPtrA, HWND, hwnd, int, nIndex) #endif // UNICODE LONG_PTR APIENTRY GetWin…...

大语言模型(LLM)和嵌入模型的统一调用接口

ChatModelFactory、EmbeddingModelFactory 讲解代码:import os from dotenv import load_dotenv, find_dotenv_ load_dotenv(find_dotenv())from langchain_openai import ChatOpenAI, OpenAIEmbeddings, AzureChatOpenAI, AzureOpenAIEmbeddingsclass ChatModelF…...

大白话html语义化标签优势与应用场景

大白话html语义化标签优势与应用场景 大白话解释 语义化标签就是那些名字能让人一看就大概知道它是用来做什么的标签。以前我们经常用<div>来做各种布局&#xff0c;但是<div>本身没有什么实际的含义&#xff0c;就像一个没有名字的盒子。而语义化标签就像是有名…...

Scala:在哪里写类的属性?类的属性必须私有吗?类的必须初始化吗?

哪里写类的属性 直接在类体中定义属性 class Circle {private var _radius: Double 0.0def radius: Double _radiusdef radius_(newRadius: Double): Unit {_radius newRadius}def area: Double scala.math.Pi * _radius * _radius } 可以在类体内部直接定义属性。例如&am…...

Android源码编译命令详解

一、引言 先看下面几条指令&#xff0c;相信编译过Android源码的人都再熟悉不过的。 source setenv.sh lunch make -j8记得最初刚接触Android时&#xff0c;同事告诉我用上面的指令就可以编译Android源码&#xff0c;指令虽短但过几天就记不全或者忘记顺序&#xff0c;每次编…...

任务11:路由器配置与静态路由配置

目录 一、概念 二、路由器配置 三、配置静态路由CSDN 原创主页&#xff1a;不羁https://blog.csdn.net/2303_76492156?typeblog 一、概念 1、路由器的作用&#xff1a;通过路由表进行数据的转发。 2、交换机的作用&#xff1a;通过学习和识别 MAC 地址&#xff0c;依据 M…...

Unity之如何实现哔哩哔哩直播弹幕游戏

前言 什么是直播间互动? 当我们使用哔哩哔哩进行直播或者观看视频时,我们可以通过接入哔哩哔哩提供的 直播&互动玩法SDK,让直播和视频可以与Unity3D游戏客户端或者游戏服务器进行互动。 环境要求 Unity 2020.x或更高版本 依赖库:Newtonsoft Json Unity Package 在P…...

Python实例:PyMuPDF实现PDF翻译,英文翻译为中文,并按段落创建中文PDF

基于PyMuPDF与百度翻译的PDF翻译处理系统开发:中文乱码解决方案与自动化排版实践 一 、功能预览:将英文翻译为中文后创建的PDF 二、完整代码 from reportlab.lib.pagesizes import letter from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle...

LeeCode题库第四十六题

46.全排列 项目场景&#xff1a; 给定一个不含重复数字的数组 nums &#xff0c;返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3] 输出&#xff1a;[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]]示例 2&am…...

LangChain4j开发RAG入门示例

本文将详细介绍如何基于Java语言&#xff0c;使用Langchain4j开源框架、Milvus向量数据、阿里Qwen大模型&#xff0c;开发一个RAG入门级简单示例。本示例虽然简单&#xff0c;但涉及到多个知识点&#xff0c;包括&#xff1a;Milvus初始化、Embedding模型、文档切片、Springboo…...

快速从C过度C++(一):namespace,C++的输入和输出,缺省参数,函数重载

&#x1f4dd;前言&#xff1a; 本文章适合有一定C语言编程基础的读者浏览&#xff0c;主要介绍从C语言到C过度&#xff0c;我们首先要掌握的一些基础知识&#xff0c;以便于我们快速进入C的学习&#xff0c;为后面的学习打下基础。 这篇文章的主要内容有&#xff1a; 1&#x…...

课程《Deep Learning Specialization》

在coursera上&#xff0c;Deep Learning Specialization 课程内容如下图所示&#xff1a;...

微服务与消息队列RabbitMQ

简介 同步模式 异步模式 内容 解决方案RabbitMQ 同步调用的优缺点 同步调用的优势是什么&#xff1f; 时效性强&#xff0c;等待到结果后才返回。 同步调用的问题是什么&#xff1f; 拓展性差性能下降级联失败问题...

苹果 M3 Ultra 芯片深度解析:AI 时代的性能革命

2025 年 3 月 5 日&#xff0c;苹果正式发布了其史上最强 PC 芯片 ——M3 Ultra。这款基于 UltraFusion 封装技术的旗舰级 SoC&#xff0c;不仅延续了苹果芯片在能效比上的传统优势&#xff0c;更通过架构创新与硬件升级&#xff0c;将 AI 计算能力推向了新高度。本文将从性能突…...

通义千问:Qwen2.5-0.5B模型架构解释

通义千问:Qwen2.5-0.5B模型架构解释 1. 模型权重文件 .mdl、.msc:存储模型核心参数,是模型训练后学习到的知识载体,包含神经网络各层权重,加载后模型才能执行推理、生成等任务。 .mdl文件:通常是模型的核心权重数据文件,存储神经网络各层的权重参数、张量等关键数据,是…...

安装完flash-attn,使用时报错undefined symbol

去flash attention官网下载安装包, 注意需要根据自己的torch版本,cuda版本(可以选择低于自己cuda版本的) 和python版本进行选择。 如果whl文件名上包含参数abiTRUE&#xff0c;则会报错。需要安装包含abiFALSE的whl文件。 卸载&#xff1a;卸载原先报错的flash-attn pip uni…...

【Linux】冯诺依曼体系与操作系统理解

&#x1f31f;&#x1f31f;作者主页&#xff1a;ephemerals__ &#x1f31f;&#x1f31f;所属专栏&#xff1a;Linux 目录 前言 一、冯诺依曼体系结构 二、操作系统 1. 操作系统的概念 2. 操作系统存在的意义 3. 操作系统的管理方式 4. 补充&#xff1a;理解系统调用…...

玩转ChatGPT:GPT 深入研究功能

一、写在前面 民间总结&#xff1a; 理科看Claude 3.7 Sonnet 文科看DeepSeek-R1 那么&#xff0c;ChatGPT呢&#xff1f; 看Deep Research&#xff08;深入研究&#xff09;功能。 对于科研狗来说&#xff0c;在这个文章爆炸的时代&#xff0c;如何利用AI准确、高效地收…...

虚函数和虚表的原理是什么?

虚函数是一个使用virtual关键字声明的成员函数&#xff0c;在基类中声明虚函数&#xff0c;在子类中可以使用override重写该函数。虚函数根据指针或引用指向的实际对象调用&#xff0c;实现运行时的多态。 虚函数表&#xff08;虚表&#xff09;是一个用于存储虚函数地址的数组…...

laravel es 相关代码 ElasticSearch

来源&#xff1a; github <?phpnamespace App\Http\Controllers;use Elastic\Elasticsearch\ClientBuilder; use Illuminate\Support\Facades\DB;class ElasticSearch extends Controller {public $client null;public function __construct(){$this->client ClientB…...

字节跳动C++客户端开发实习生内推-抖音基础技术

智能手机爱好者和使用者&#xff0c;追求良好的用户体验&#xff1b; 具有良好的编程习惯&#xff0c;代码结构清晰&#xff0c;命名规范&#xff1b; 熟练掌握数据结构与算法、计算机网络、操作系统、编译原理等课程&#xff1b; 熟练掌握C/C/OC/Swift一种或多种语言&#xff…...

C语言_数据结构总结6:链式栈

纯c语言代码&#xff0c;不涉及C 顺序栈的实现&#xff0c;欢迎查看这篇文章&#xff1a;C语言_数据结构总结5&#xff1a;顺序栈-CSDN博客 0. 结构单元 #include<stdio.h> #include<stdlib.h> typedef int ElemType; typedef struct Linknode { ElemType…...

DQN(Deep Q - Network)原理举例说明

DQN(Deep Q - Network)原理举例说明 1. 基本概念回顾 DQN 结合了深度学习和 Q - learning 算法,用深度神经网络来近似 Q 值函数,解决传统 Q - learning 在处理高维状态空间时的局限性。Q 值表示在某个状态下采取某个动作所能获得的期望累积奖励。 以下是DQN和A3C的原理对…...

物联网-IoTivity:开源的物联网框架

IoTivity 是一个开源的物联网(IoT)框架,旨在为物联网设备提供互操作性、安全性和可扩展性。它由 Open Connectivity Foundation (OCF) 主导开发,遵循 OCF 的标准,致力于实现设备之间的无缝连接和通信。IoTivity 提供了一个统一的框架,支持设备发现、数据交换、设备管理和…...

基于DeepSeek的智慧医药系统(源码+部署教程)

运行环境 智慧医药系统运行环境如下&#xff1a; 前端&#xff1a; HTMLCSS后端&#xff1a;Java AIGCDeepseekIDE工具&#xff1a;IDEA技术栈&#xff1a;Springboot HTMLCSS MySQL 主要角色 智慧医药系统主要分为两个角色。 游客 尚未进行注册和登录。具备登录注册、…...

基于Linux系统的边缘智能终端(RK3568+EtherCAT+PCIe+4G+5G)

背景 现有产品基本都是传统的产品&#xff0c;比如之前写的RTU还有基于Linux系统的物联网采集终端都是传统意义的产品&#xff0c;大家做的都差不多&#xff0c;能拼的除了价格之外就是软硬件的基本功了&#xff0c;好的产品肯定是要经过时间的磨合的。没有任何人可以写出来没有…...

Java 线程池内部任务出异常后,如何知道是哪个线程出了异常?

你的回答&#xff08;口语化&#xff0c;面试场景&#xff09; 好的&#xff0c;这个问题需要结合线程池的异常处理机制来回答。 Java线程池内部任务抛出的异常默认会被“吞掉”&#xff0c;但可以通过以下方法定位具体线程的异常&#xff1a; 方法1&#xff1a;在任务代码中捕…...

热图回归(Heatmap Regression)

热图回归(Heatmap Regression)是一种常用于关键点估计任务的方法,特别是在人体姿态估计中。它的基本思想是通过生成热图来表示某个关键点在图像中出现的概率或强度。以下是热图回归的主要特点和工作原理: 主要特点 热图表示: 每个关键点对应一个热图,热图中的每个像素值…...

信奥赛CSP-J复赛集训(模拟算法专题)(6):P6352 [COCI 2007/2008 #3] CETIRI

信奥赛CSP-J复赛集训&#xff08;模拟算法专题&#xff09;&#xff08;6&#xff09;&#xff1a;P6352 [COCI 2007/2008 #3] CETIRI 题目描述 你原本有 4 4 4 个数&#xff0c;它们从小到大排序后构成了等差数列。 但是现在丢失了一个数&#xff0c;并且其余的三个数的顺序…...