当前位置：首页 > news >正文

【漫话机器学习系列】122.相关系数（Correlation Coefficient）

news 2026/2/9 23:34:12

深入理解相关系数（Correlation Coefficient）

1. 引言

在数据分析、统计学和机器学习领域，研究变量之间的关系是至关重要的任务。我们常常想知道：当一个变量变化时，另一个变量是否也会随之变化？如果会，它们之间的关系有多强？ 相关系数（Correlation Coefficient）是用来衡量两个变量之间线性关系的一种重要指标。

本文将深入解析：

相关系数的定义与公式
计算方法及示例
相关系数的范围及解释
相关系数的应用
相关系数的局限性

2. 相关系数的定义

相关系数（Correlation Coefficient），通常指皮尔逊相关系数（Pearson Correlation Coefficient），用来衡量两个变量之间的线性关系。它的数学表达式如下：

$Cor(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}}$

3. 公式解析

让我们详细拆解皮尔逊相关系数公式中的各个部分：

$Cor(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \cdot \sqrt{\sum (y_i - \bar{y})^2}}$

其中：

$x_i$ 和 $y_i$ 分别表示两个变量 X 和 Y 在第 i 个样本中的取值。
$\bar{x}$ 和 $\bar{y}$ 分别是变量X 和 Y 的均值：
$\bar{x} = \frac{1}{n} \sum x_i, \quad \bar{y} = \frac{1}{n} \sum y_i$
分子部分 $\sum (x_i - \bar{x})(y_i - \bar{y})$ 计算的是协方差（Covariance），用于衡量 X 和 Y 共同变化的程度：
$Cov(X, Y) = \frac{1}{n} \sum (x_i - \bar{x})(y_i - \bar{y})$
分母部分是两个变量的标准差的乘积：
$\sqrt{\sum (x_i - \bar{x})^2} \quad$ 和 $\quad \sqrt{\sum (y_i - \bar{y})^2}$
它的作用是对数据进行标准化，使得相关系数的值始终在[-1, 1]之间。

4. 相关系数的取值范围及解释

皮尔逊相关系数 Cor(X, Y) 的取值范围是 [-1, 1]，其含义如下：

相关系数 Cor(X,Y)Cor(X, Y)Cor(X,Y)	解释
Cor(X, Y) = 1	完全正相关，即 X 增加时 Y 也以完全线性的方式增加。
0 < Cor(X, Y) < 1	正相关，即 X 增加时 Y 也有增加的趋势，相关性越接近 1，线性关系越强。
Cor(X, Y) = 0	无相关关系，即 X 和 Y 之间没有线性关系（但可能存在非线性关系）。
-1 < Cor(X, Y) < 0	负相关，即 X 增加时 Y 倾向于减少，相关性越接近 -1，线性关系越强。
Cor(X, Y) = -1	完全负相关，即 X 增加时 Y 以完全线性的方式减少。

简单来说：

接近 1：强正相关
接近 0：弱相关或无相关
接近 -1：强负相关

5. 计算示例

假设我们有两个变量 X 和 Y 的五个样本点：

样本编号	X	Y
1	2	3
2	3	6
3	4	9
4	5	12
5	6	15

步骤 1：计算均值

$\bar{x} = \frac{2 + 3 + 4 + 5 + 6}{5} = 4$
$\bar{y} = \frac{3 + 6 + 9 + 12 + 15}{5} = 9$

步骤 2：计算协方差

$\sum (x_i - \bar{x})(y_i - \bar{y})$

样本编号	$x_i$	$y_i$	$x_i - \bar{x}$	$y_i - \bar{y}$	$(x_i - \bar{x})(y_i - \bar{y})$
1	2	3	-2	-6	12
2	3	6	-1	-3	3
3	4	9	0	0	0
4	5	12	1	3	3
5	6	15	2	6	12

$\sum (x_i - \bar{x})(y_i - \bar{y}) = 12 + 3 + 0 + 3 + 12 = 30$

步骤 3：计算标准差

$\sqrt{\sum (x_i - \bar{x})^2} = \sqrt{(-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2} = \sqrt{10}$
$\sqrt{\sum (y_i - \bar{y})^2} = \sqrt{(-6)^2 + (-3)^2 + 0^2 + 3^2 + 6^2} = \sqrt{90}$

步骤 4：计算相关系数

$Cor(X, Y) = \frac{30}{\sqrt{10} \times \sqrt{90}}$

计算得到：

$Cor(X, Y) \approx 1$

结果表明，变量 X 和 Y 之间存在很强的正相关关系。

6. 相关系数的应用

6.1 经济学

研究某种产品的价格与销量之间的关系。
研究工资与消费水平的关系。

6.2 机器学习

在特征工程中，去除相关性极高的特征，防止共线性问题。
选择与目标变量最相关的特征，提高模型性能。

6.3 生物统计

研究身高与体重的关系。
研究药物剂量与治疗效果的关系。

7. 相关系数的局限性

只能衡量线性关系，不能捕捉非线性关系。例如，如果数据是曲线相关的，皮尔逊相关系数可能接近 0，但实际上它们仍然存在关系。
受异常值影响，如果数据集中存在极端值，可能会影响相关系数的计算结果。
相关不代表因果，即使 X 和 Y 相关，也不能直接推断 X 导致 Y 发生变化。

8. 总结

相关系数 $Cor(X, Y)$ 衡量两个变量之间的线性关系。
取值范围在 [-1,1] 之间，绝对值越大，线性相关性越强。
计算方法基于协方差与标准差。
应用于经济学、机器学习、生物统计等多个领域。
需要注意非线性关系、异常值 和 因果推断 的问题。

相关系数是数据分析中的重要工具，正确理解和使用它，可以帮助我们更好地解读数据之间的关系！