当前位置：首页 > news >正文

机器学习数学基础：39.样本和隐含和残差协方差矩阵

news 2026/2/11 2:43:14

假设我们研究学生的数学成绩、英语成绩和学习时间之间的关系。收集了100名学生这三项数据作为样本。

样本协方差矩阵

计算得到的样本协方差矩阵如下（假设数据简化）：
$\begin{bmatrix} Var(数学) & Cov(数学,英语) & Cov(数学,学习时间) \\ Cov(英语,数学) & Var(英语) & Cov(英语,学习时间) \\ Cov(学习时间,数学) & Cov(学习时间,英语) & Var(学习时间) \end{bmatrix} \ = \begin{bmatrix} 25 & 10 & 8 \\ 10 & 16 & 6 \\ 8 & 6 & 9 \end{bmatrix}$
这里 $Va r (数学)$ 表示数学成绩的方差， $C o v (数学, 英语)$ 表示数学成绩和英语成绩的协方差，以此类推，体现了实际样本中这三个变量之间的离散和相关关系。

隐含协方差矩阵

我们构建一个结构方程模型，假设学习时间会影响数学和英语成绩，通过模型计算得到隐含协方差矩阵：
$\begin{bmatrix} 23 & 9 & 7 \\ 9 & 15 & 5 \\ 7 & 5 & 8 \end{bmatrix}$
这是基于我们设定的模型，推导出来的变量之间的协方差关系。

比较拟合程度

用样本协方差矩阵减去隐含协方差矩阵，得到残差矩阵：
$\begin{bmatrix} 25 - 23 & 10 - 9 & 8 - 7 \\ 10 - 9 & 16 - 15 & 6 - 5 \\ 8 - 7 & 6 - 5 & 9 - 8 \end{bmatrix} \ = \begin{bmatrix} 2 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{bmatrix}$
如果残差矩阵里的元素都比较小，就说明我们构建的这个模型推导出来的变量关系，和实际样本数据中的变量关系差异不大，模型拟合较好。但如果残差矩阵元素值较大，那就说明模型和实际数据不太相符，拟合程度差。

为了让你更好地理解，下面再以一个更简单的例子详细说明隐含协方差矩阵的计算过程：

假设我们有一个非常简单的结构方程模型，只包含两个观测变量 $X$ 和 $Y$ ，它们都受到一个共同的潜变量 $Z$ 的影响，且模型中路径系数分别为 $a$ （ $Z$ 对 $X$ 的影响）和 $b$ （ $Z$ 对 $Y$ 的影响），潜变量 $Z$ 的方差为 $Var(Z)\ =\sigma^2$ 。

首先，根据结构方程模型的理论，观测变量 $X$ 和 $Y$ 的方差可以表示为：
$Var(X)\ =a^2\times Var(Z)\ =a^2\sigma^2$
$Var(Y)\ =b^2\times Var(Z)\ =b^2\sigma^2$

观测变量 $X$ 和 $Y$ 之间的协方差可以表示为：
$Cov(X,Y)\ =a\times b\times Var(Z)\ =ab\sigma^2$

那么，这个模型的隐含协方差矩阵就是：
$\begin{bmatrix} Var(X)&Cov(X,Y)\\ Cov(Y,X)&Var(Y) \end{bmatrix} \ = \begin{bmatrix} a^2\sigma^2&ab\sigma^2\\ ab\sigma^2&b^2\sigma^2 \end{bmatrix}$

例如，假设 $\ = 0.6$ ， $\ = 0.5$ ， $\sigma^2 \ = 4$ ，则：
$Var(X)\ =a^2\sigma^2\ =0.6^2\times4 \ = 1.44$
$Var(Y)\ =b^2\sigma^2\ =0.5^2\times4 \ = 1$
$Cov(X,Y)\ =ab\sigma^2\ =0.6\times0.5\times4 \ = 1.2$

所以隐含协方差矩阵为：
$\begin{bmatrix} 1.44&1.2\\ 1.2&1 \end{bmatrix}$

这就是在这个简单的结构方程模型下，通过模型设定的参数计算得到隐含协方差矩阵的过程。在实际的结构方程模型中，可能会有更多的观测变量、潜变量以及更复杂的关系，但基本的计算原理是类似的。

机器学习数学基础：39.样本和隐含和残差协方差矩阵

样本协方差矩阵

隐含协方差矩阵

比较拟合程度

相关文章：

机器学习数学基础：39.样本和隐含和残差协方差矩阵

java之http传MultipartFile文件

深入解析SpringMVC中Http响应的实现机制

构建一个支持精度、范围和负数的-Vue-数字输入框

尚硅谷爬虫note14

1438. 绝对差不超过限制的最长连续子数组

ZCC5090EA适用于TYPE-C接口,集成30V OVP功能, 最大1.5A充电电流,带NTC及使能功能,双节锂电升压充电芯片替代CS5090EA

Dify 开源大语言模型应用开发平台使用（二）

【LangFuse】数据集与测试

【Python】如何解决Jupyter Notebook修改外部模块后必须重启内核的问题？

Redis 篇

React + TypeScript 实战指南：用类型守护你的组件

从零开始：Linux环境下如何制作静态库与动态库

【智能体Agent】ReAct智能体的实现思路和关键技术

Java进阶：Zookeeper相关笔记

QT-绘画事件

鸿蒙NEXT开发-端云一体化开发

大模型——股票分析AI工具开发教程

nexus 实现https 私有镜像搭建

颈椎X光数据集（cervical spine X-ray dataset）

7.4.分块查找

大话软工笔记—需求分析概述

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

Zustand 状态管理库：极简而强大的解决方案

R语言AI模型部署方案：精准离线运行详解

React第五十七节 Router中RouterProvider使用详解及注意事项

AI Agent与Agentic AI：原理、应用、挑战与未来展望

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

高危文件识别的常用算法：原理、应用与企业场景

【Go语言基础【12】】指针：声明、取地址、解引用