当前位置：首页 > news >正文

机器学习｜多变量线性回归 | 吴恩达学习笔记

news 2026/2/9 1:46:01

前文回顾：机器学习 | 线性回归（单变量）

📚多维特征

📚多变量梯度下降

📚梯度下降法实践

🐇特征缩放

🐇学习率

📚特征和多项式回归

📚正规方程

📚梯度下降与正规方程的比较

📚多维特征

接上文单变量线性回归，现在我们对房价模型增加更多的特征，例如房间数楼层等，构成一个含有多个变量的模型，模型中的特征为 $(x_1,x_2,...,x_n)$ 。

增添更多特征后，我们引入一系列新的注释：

$n$ 代表特征的数量
$x^{(i)}$ 代表第i个训练实例，是特征矩阵中的第i行，是一个向量。
$x_j^{(i)}$ 代表特征矩阵中第i行的第j个特征，也就是第i个训练实例的第j个特征。
支持多变量的假设h表示为：，这个公式中有n+1个参数和n个变量，为了使公式能够简化一些，引入。
- 则公式转化为 $h_\Theta (x)=\Theta _0x_0+\Theta _1x_1+\Theta _2x_2+...+\Theta _nx_n$
- 此时模型中的参数是一个n+1维的向量，任何一个训练实例也都是n+1维的向量，最后公式可以简化为： $h_\Theta (x)=\Theta ^TX$

📚多变量梯度下降

与单变量线性回归类似，在多变量线性回归中，我们也构建一个代价函数，且我们的目标依旧是要找出使得代价函数最小的一系列参数。

多元线性回归的批量梯度下降算法为：

在这里我们回顾当时单变量用到的代价函数，就会发现单变量多变量的代价函数其实就是同一个东西， $x_0^{(i)}=1$ 。

我们开始随机选择一系列参数值，计算所有的预测结果后，再给所有的参数一个新的值，如此循环直至收敛。

📚梯度下降法实践

🐇特征缩放

在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为 0-2000 平方英尺，而房间数量的值则是 0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能，图像会显得很扁，梯度下降算法需要非常多次的迭代（会反复振荡）才能收敛，就是会走一条折来折去的路线来找全局最小值。

解决方法就是尝试将所有特征的尺度都尽量缩放到-1到1之间，例如把房屋的尺寸除以2000，把房间的数量除以5，如下图，会更圆一些，梯度下降算法会找到一条更直接的路径。

最简单的方法是令： $x_n=\frac{{x_n-\mu _n}}{s_n}$ ，其中 $\mu_n$ 是平均值， $s_n$ 是标准差。针对这个 $s_n$ ，一般就是最大值减去最小值就可以了。而且其实特征缩放也不一定需要那么精确，我们只是为了让梯度下降运行得更快一点，收敛所需的迭代次数更少。

🐇学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，而我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。

所以这条曲线显示的是梯度下降的每步迭代后代价函数的值。如果代价函数正常工作的话，每一步迭代之后 $J(\Theta )$ 都应该下降，因此看这种曲线图可以告诉你算法有没有正常工作。而且可以通过这个曲线判断梯度下降算法最后有没有收敛（如上图，可以判断在400次左右就已经收敛了）。

也有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值（例如 0.001）

进行比较，但通常看上面这样的图表更好。

梯度下降算法的每次迭代受到学习率的影响，如果学习率𝑎过小，则达到收敛所需的迭代次数会非常高；如果学习率𝑎过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。通常来说，如果代价函数没有下降（不管是一直上升，或者是一会降一会升），那就是要减小学习率（但也别太小）。

通常可以考虑尝试这些学习率： $\alpha=0.01,0.03,0.1,0.3,1,3,10$ ，通过图像找出最快收敛的 $\alpha$ 。

📚特征和多项式回归

如以下房价预测问题，所给的特征是邻街宽度和纵向深度，而我们可以用临街宽度×纵向深度得到面积，并用面积这一更好的特征来替换原有的那两个特征。

与选择特征想法密切相关的一个概念被称为多项式回归。

线性回归并不适用于所有的数据，有时我们需要曲线来适应我们的数据，例如以下所给出的数据集，我们或许会用二次方模型去拟合（考虑到数据集的后续下降趋势），也可以用三次方模型去拟合（考虑到数据集后续再升高），通常我们需要先观察数据然后再决定准备尝试怎样的模型。

且相关特征的选择也可以是灵活的，例如以下二次方模型的两种特征选择。

最后不管选择了怎样的模型，我们可以通过换元在将模型转化为线性回归模型。

注：如果我们采用多项式回归模型，在运行梯度下降算法前，特征缩放非常有必要。因为平方甚至更高次方等等数据之间相差太多啦。

📚正规方程

到目前为止，我们都在使用梯度下降算法，但是对于某些线性回归问题，正规方法是更好的解决方案。正规方程（区别于迭代方法的直接解法）。

假设我们的训练集特征矩阵为X（包含了 $x_0=1$ ），并且我们的训练集结果为向量y，则利用正规方程解出向量 $\theta =(X^TX)^{-1}X^Ty$

在Octave中，正规方程写作：

pinv(X'*X)*X'*y

注：

对于那些不可逆的矩阵（通常是因为特征之间不独立，如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征，也有可能是特征数量大于训练集的数量），正规方程方法是不能用的（原则上）。

当你发现矩阵𝑋′𝑋的结果是奇异矩阵（即不可逆）

首先，看特征值里是否有一些多余的特征，像这些 $x_1$ 和 $x_2$ 是线性相关的，互为线性函数。同时，当有一些多余的特征时，可以删除这两个重复特征里的其中一个，无须两个特征同时保留，将解决不可逆性的问题。

但于𝑋′𝑋的不可逆的问题很少发生，在 Octave 里，如果用pinv()来实现𝜃的计算，会得到一个正常的解，即便矩阵 𝑋′𝑋是不可逆的（即使𝑋′𝑋的结果是不可逆的，但算法执行的流程是正确的）。在 Octave 里，有两个函数可以求解矩阵的逆，一个被称为 pinv()，另一个是 inv()，这两者之间的差异是些许计算过程上的，一个是所谓的伪逆，另一个被称为逆。

总之，出现不可逆矩阵的情况极少发生，所以在大多数实现线性回归中，出现不可逆的问题不应该过多的关注 $X^TX$ 是不可逆的。

📚梯度下降与正规方程的比较

梯度下降	正规方程
需要选择学习率 $\alpha$	不需要
需要多次迭代	一次运算得出
当特征数量n大时也能较好适用	需要计算 $(X^TX)^{-1}$ ，如果特征数量n较大则运算代价大，因为矩阵逆的计算时间复杂度为 $O(n^3)$ ，通常来说当𝑛小于 10000 时还是可以接受的
适用于各种类型的模型	只适用于线性模型，不适合逻辑回归模型等其他模型

一般来说，只要特征变量的数目并不大，标准方程是一个很好的计算参数θ的替代方法。

参考学习链接：【中英字幕】吴恩达机器学习系列课程，本篇对应4.1-4.7

be happy——

机器学习｜多变量线性回归 | 吴恩达学习笔记

📚多维特征

📚多变量梯度下降

📚梯度下降法实践

🐇特征缩放

🐇学习率

📚特征和多项式回归

📚正规方程

📚梯度下降与正规方程的比较

相关文章：

机器学习｜多变量线性回归 | 吴恩达学习笔记

高并发内存池

springboot mybatis-plus 对接 sqlserver 数据库批处理的问题

Acwing---843. n-皇后问题——DFS

Android事件分发机制

python版协同过滤算法图书管理系统

Redis基础入门

【微服务】Feign实现远程调用和负载均衡

Windows使用QEMU搭建arm64 ubuntu 环境

NodeJS安装

Gin 优雅打印请求与回包内容

关于k8s中ETCD集群备份灾难恢复的一些笔记

【设计模式之美设计原则与思想：设计原则】19 | 理论五：控制反转、依赖反转、依赖注入，这三者有何区别和联系？

2023年全国最新高校辅导员精选真题及答案13

【XXL-JOB】XXL-JOB定时处理视频转码

optuna用于pytorch的轻量级调参场景和grid search的自定义设计

语法篇--汇编语言先导浅尝

【ID：17】【20分】A. DS顺序表--类实现

【java web篇】Tomcat的基本使用

MySQL实战解析底层---行锁功过：怎么减少行锁对性能的影响

【Linux】C语言执行shell指令

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

MMaDA: Multimodal Large Diffusion Language Models

跨链模式：多链互操作架构与性能扩展方案

算法岗面试经验分享-大模型篇

C++：多态机制详解

安全突围：重塑内生安全体系：齐向东在2025年BCS大会的演讲

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

HubSpot推出与ChatGPT的深度集成引发兴奋与担忧

保姆级【快数学会Android端“动画“】+ 实现补间动画和逐帧动画！！！