当前位置：首页 > news >正文

【机器学习】线性回归与一元线性回归

news 2026/2/10 3:03:37

线性回归与一元线性回归

- V1.1
- 线性回归问题
- 线性方程的最优解
- 一元线性回归
- - 一元线性回归的方程
  - 一元线性回归距离衡量方法
  - 一元线性回归的最优化求解
  - 一元线性回归的最小二乘法解法

V1.1

线性回归问题

线性回归问题就是找一条线或超平面，并使用线或超平面来描述数据分布，即特征向量和特征标签的对应关系（线或超平面中也包含了特征标签的维度）。
线或超平面中既有特征向量的维度（ $x_1,...,x_n$ ），也有特征标签的维度( $y$ )。例如，特征向量只有一个维度，则模型可视化后有两个维度，及特征向量（ $x$ ）和特征标签（ $y$ ）的维度，用坐标系表示就是二维坐标系中的一条直线。
输入是一维或多维特征向量，输出是线性式（对应到使用线和超平面计算结果）计算的结果。
线性回归模型使用线性式描述，线性式的形式如下：
$y=w_0+w_1*x_1+w_2*x_2+...+w_n*x_n$
模型的使用方法，使用数据训练得到模型后，输入待预测的特征向量，就会根据线性模型计算预测值。因为是用模型计算的，因此预测值会落在模型线性方程上。

线性方程的最优解

那么怎样找到线性方程的最优解呢？我们需要衡量每1个特征向量的预测值与真实值的距离，即距离衡量。
并且需要一种投票机制来衡量，根据每个特征向量的距离，计算正在研究的线性模型的总体损失，以得出模型的优劣程度。

一元线性回归

一元线性回归，一元指输入特征向量是一个维度，一元线性回归的输出也是一个维度。

一元线性回归的方程

一元线性回归模型使用如下方程描述
$y = k x + b$

一元线性回归距离衡量方法

衡量一个模型总体的优劣程度要用到损失函数。计算预测值与真实值的差值的平方，并将其加和即可得到整体目前所测试的模型的总体损失。
一元线性回归的损失函数使用公式表述为：
$\sum_{i=1}^m(y_i-\hat{y_i})^2$
其中 $y_i$ 是特征向量的标签值，即真实值。 $\hat{y_i}$ 是正在研究的模型的对应特征向量的预测值。

一元线性回归的最优化求解

通过最小化损失函数，我们可以将一元线性回归问题，转化为最优化问题，并使用最优化问题的解法求解。
在研究的模型的总体损失值越小越好，越小的损失值，对应的模型更能准确的反应数据（即特征向量）的特征，其对应更优的参数。
在一元线性回归模型中，待求的参数是模型公式中的 $k$ 和 $b$ 。
$\argmin_{k,b}\sum_{i=1}^m(y_i-\hat{y_i})^2$
将 $\hat{y_i}=k*{x_i}+b$ 带入，得到
$\argmin_{k,b}\sum_{i=1}^m(y_i-k*{x_i}-b)^2$

最小化损失是找到最优的两个参数， $k$ 和 $b$ 使得模型的总体损失最小。

一元线性回归的最小二乘法解法

已经有数学的方法来计算一元线性回归的最优解，即最小二乘法，此外还有梯度下降的方法来求解。最小二乘法是一种数学方法，能够直接给出准确的解，而梯度下降的方法是搜索的方法。
最小二乘法公式如下，直接套用即可，输入训练数据，计算训练数据的平均值，即可得到最有参数 $k$ 和 $b$ 。
$k=\frac{\sum_{i=1}^m(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^{m}(x_i-\bar{x})^2}$
$b=\bar{y}-k*\bar{x}$