当前位置：首页 > news >正文

Python 中从零开始的随机梯度下降

news 2026/2/9 20:07:56

文章目录

一、说明
二、了解基础知识的重要性：
- 2.1 什么是梯度下降？
- 2.2 梯度下降的类型：
三、随机梯度下降（SGD）有何不同
- 3.1 随机性的概念：
- 3.2 SGD的优点和缺点：
四、随机梯度下降的分步说明
五、在 Python 中从头开始实现随机梯度下降
- 5.1 设置环境：
- 5.2 编写 SGD 函数：
- 5.3 常见陷阱
六、何时使用随机梯度下降（SGD）
七、与其他优化器的比较
八、结论

一、说明

想象一下，在一个雾蒙蒙的早晨，你试图找到山谷中的最低点——你迈出的每一步都像是在猜测地形。在机器学习的世界中，这种 “猜测” 过程正是优化算法的作用 — 它们调整模型的参数以找到最佳结果。这就是SGD。

二、了解基础知识的重要性：

以下是您可能不知道的事情：从头开始学习实施 SGD 很像学习驾驶手动汽车。当然，有自动变速器汽车（预构建的库和优化器），但当您了解底层机制时，您将获得对机器学习模型行为方式的控制、精度和信心。通过从头开始构建，您将深入了解优化算法，从而更轻松地解决问题，甚至在未来提高性能。

2.1 什么是梯度下降？

简要说明：
将坡度下降想象成徒步下山以找到山谷中的最低点。您根据地形的坡度采取步数 — 坡度越陡，步长越大。在机器学习中，这个“谷值”是成本函数的最小值，它表示模型的表现如何。Gradient descent 就像您的指南，告诉您向哪个方向调整模型的参数（权重和偏差），以便在每次迭代中表现更好。目标是什么？尽可能降低成本功能。

2.2 梯度下降的类型：

事情变得有趣了：走下这座山的方法不止一种。您有三种主要类型的梯度下降，每种类型都有自己的个性：

批量梯度下降：此 SQL 会等到它拥有所有数据后再进行移动。这就像计算完美的步骤，但需要大量的时间和内存。
随机梯度下降（SGD）：啊，我们节目的明星。SGD 不会等待整个数据集;相反，它在每个数据点之后需要一个步骤。它快速、灵活，而且 - 就像你可能已经猜到的那样 - 有点混乱。
小批量梯度下降：一个快乐的中间地带。小批量梯度下降不是等待所有数据或在每一个点之后匆忙前进，而是以小组（小批量）的形式处理数据。它在速度和准确性之间取得了平衡。
您可能会想，“为什么 SGD 对于大型数据集如此有价值？原因如下：假设您有数百万个数据点。使用批量梯度下降意味着您将陷入处理困境，永远等待进行更新。但是，借助 SGD，您几乎可以在每个数据点到达时立即更新模型，这使其非常适合需要快速获得结果的大型数据集。

三、随机梯度下降（SGD）有何不同

3.1 随机性的概念：

事情是这样的：SGD 被称为“随机”，因为它将随机性引入到流程中。它不是根据您的所有数据计算梯度（就像在批量梯度下降中一样），而是一次选择一个数据点来调整参数。这种随机性为 SGD 提供了速度优势，但也使其更加不稳定 — 有时，您会朝着正确的方向迈进，有时您会稍微偏离路径。但随着时间的推移，步骤会平均化，你（希望）最终得到最优解的速度比一次计算所有内容更快。

3.2 SGD的优点和缺点：

优势：
速度：由于它会在每个数据点后更新，因此它比大型数据集的批量梯度下降要快得多。您几乎可以立即获得有关每个步骤如何影响模型的反馈。
正则化效果：SGD 引入的随机噪声可以帮助防止过拟合，起到一种隐式正则化的作用。
内存效率：一次只有一个样本加载到内存中，非常适合大型数据集。
缺点：
嘈杂的更新：由于您在每个数据点之后都进行了更改，因此通往最佳解决方案的路径可能会参差不齐且不太稳定。
在某些情况下收敛速度较慢：在某些情况下，可能需要更长的时间才能达到确切的最小值，尤其是在学习率没有得到很好的调整时。

四、随机梯度下降的分步说明

初始化参数：
在运行模型之前，您需要从头开始 — 这意味着初始化模型的参数（权重和偏差）。想象一下，你正在开始一个没有放置任何块的拼图。你不知道最终的图片是什么样子的，所以你随机放置这些碎片，希望它们最终能形成一些有意义的东西。同样，在 SGD 中，我们随机初始化权重和偏差。

事情是这样的：当这些权重被随机初始化时，它们将在训练期间进行调整，以尽可能准确地拟合数据。对于线性回归问题，这些权重确定线的斜率，而偏差调整线的截距。在 Python 中，您可以使用正态分布中的随机值或仅使用小随机数来初始化这些值。

选择学习率：
您可能想知道，“每个人都在谈论的这个学习率是多少？将学习率视为您在优化路径上所采取的步骤的大小。如果你的学习率太高，就像进行巨大的跳跃——你可能会超过最佳点，在目标周围弹跳而从未着陆。如果它太低，就像小步走——当然，你会到达那里，但需要令人沮丧的很长时间。

要找到最佳点，需要仔细选择学习率。一种常见的技术是使用学习率衰减，其中学习率会随着模型越来越接近最佳解决方案而降低。这样，您首先会采取较大的步骤来加快流程，但当您接近最小值时，会逐渐采取更小、更精确的步骤。

更新规则：
训练开始后，每个数据点都会为您提供有关调整体重方式的线索。这就是魔法发生的地方。每次迭代（使用单个样本）后，您计算梯度，然后使用学习率更新参数（权重和偏差）。

交易是这样的：对于数据集中的每个样本，都会重复此更新过程，这意味着在每个数据点之后，您的模型会进行微小的调整，逐渐学习隐藏在数据中的模式。

停止标准：
你怎么知道什么时候停止？这就像问：“画家什么时候完成他们的杰作？在 SGD 中，您可以根据以下条件停止训练：

epoch 数：纪元是指算法查看整个数据集一次的时间。您可以设置固定数量的 epoch，例如 100 或 200，以确保足够的迭代。
成本函数的收益递减：您还可以监控成本函数（您的模型有多错误），并在改进变得可以忽略不计时停止 — 当进一步的训练并没有真正使模型变得更好时。
现在我们已经有了理论基础，让我们卷起袖子开始编写代码。

五、在 Python 中从头开始实现随机梯度下降

5.1 设置环境：

要从头开始实施 SGD，我们需要能够高效处理矩阵运算的 Python 库。具体来说，您将使用：

numpy用于线性代数运算和矩阵作。
您还可以添加以可视化学习过程（例如绘制成本函数的减少）。matplotlib
现在，让我们从一个简单的线性回归模型开始，我们的目标是通过数据找到最合适的线。

5.2 编写 SGD 函数：

以下是编写 SGD 函数的方法：

初始化参数：初始化权重和偏差。在这种情况下，假设我们的权重从小的随机数开始，我们的偏差为 0。

import numpy as np# Initialize parameters
def initialize_params(n_features):weights = np.random.randn(n_features) * 0.01bias = 0.0return weights, bias

编写循环：现在，您需要一个循环来遍历每个数据样本，计算成本函数的梯度，并相应地更新权重和偏差。您还需要跟踪每个步骤的成本，以便了解模型的学习效果。

def stochastic_gradient_descent(X, y, learning_rate=0.01, epochs=100):weights, bias = initialize_params(X.shape[1])n_samples = X.shape[0]for epoch in range(epochs):for i in range(n_samples):# Select one samplex_i = X[i]y_i = y[i]# Predict the outputprediction = np.dot(x_i, weights) + bias# Calculate gradientsdw = (prediction - y_i) * x_idb = (prediction - y_i)# Update weights and biasweights -= learning_rate * dwbias -= learning_rate * db# Optionally, print the cost for trackingcost = np.mean((np.dot(X, weights) + bias - y) ** 2)print(f'Epoch {epoch+1}, Cost: {cost}')return weights, bias

跟踪成本函数：您可能希望定期打印或绘制成本函数，以监控模型的学习方式。这可能是查看您的学习率是太高（成本会大幅波动）还是太低（成本会非常缓慢地降低）的好方法。

代码演练：

让我们分解一下这里发生的事情：

initialize_params()：此函数将您的权重和偏差设置为较小的初始值，以确保您的模型可以开始学习。
stochastic_gradient_descent()：在这个循环中，我们：
1 单独浏览每个数据点。
2 根据当前权重和偏差进行预测。
3 计算误差（预测与实际值的偏差）。
4 计算成本函数相对于权重和偏差的梯度。
5 使用学习率更新权重和偏差。
5 跟踪成本函数以监控进度。

5.3 常见陷阱

您可能会想，“这听起来很简单，但哪里会出错呢？以下是一些常见错误：

不对数据进行随机排序：如果您不在每个 epoch 之前对数据进行随机排序，则您的模型可能会学习数据排序中的模式，而不是数据本身的模式。始终在 epoch 之间对数据进行随机排序。
使用过高的学习率：如前所述，过高的学习率会导致模型剧烈振荡，永远无法收敛。密切关注 cost 函数 — 如果它跳动太多，请考虑降低学习率。

六、何时使用随机梯度下降（SGD）

实际应用：

您可能想知道，“什么时候是 Stochastic Gradient Descent 我最好的选择？事情是这样的：SGD 在处理大型数据集或复杂的神经网络时真正闪耀。将其视为实时学习的首选算法，您需要快速更新，而无需等待处理整个数据集。

例如，假设您正在使用用于图像识别的深度学习模型。数据集很大 — 数百万张图像。如果您使用批量梯度下降，则必须在对模型进行任何调整之前加载和处理每张图像。但是使用 SGD 时，模型会在每张图像之后更新其参数。这使您可以立即查看进度并减少计算负载，从而使其更快、更节省内存。

在金融或电子商务等行业中，模型需要使用流数据（想想推荐系统或股票价格预测）不断更新，SGD 一次处理一个数据点的能力非常宝贵。它用于训练卷积神经网络（CNN）和递归神经网络（RNN）等大规模神经网络，这些网络为从自动驾驶汽车到语言翻译的所有功能提供支持。

七、与其他优化器的比较

现在，您可能会想，“好吧，SGD 听起来不错，但 Adam 或 RMSprop 等其他优化器呢？让我们来分析一下。

Adam （Adaptive Moment Estimation）：Adam 结合了 SGD 与 momentum 和 RMSprop 的优点。它使用梯度（如 momentum）和平方梯度（如 RMSprop）的运行平均值来调整每个参数的学习率。这通常会导致更快的收敛。在训练需要平衡速度和精度的深度网络时，您可能更喜欢 Adam。
RMSprop：此优化器根据最近梯度的大小单独调整每个参数的学习率。它对于处理非平稳目标特别有用，因为在训练过程中，最佳学习率可能会发生变化。您会发现 RMSprop 对于训练 RNN 特别方便。
那么，什么时候应该坚持使用 SGD？如果您正在寻找简单性、内存效率和控制力，SGD 仍然是一个不错的选择。例如，如果您有一个非常大的数据集，并且无法承受 Adam 或 RMSprop 所需的额外内存开销，则 SGD 是一种更直接的解决方案。此外，如果您工作的环境中训练需要对每个新数据点做出更快的响应（例如在实时应用程序中），SGD 的频繁更新使其更合适。

这可能会让您感到惊讶：尽管有所有花哨的新优化器，但 SGD 仍然因其简单性和效率而受到从业者的最爱。在担心过拟合的情况下，SGD 固有的噪声（由于其频繁更新）甚至可以充当正则化器，防止模型过于完美地拟合训练数据。

八、结论

那么，这给我们留下了什么呢？让我们回顾一下：
我们首先深入研究了是什么让 Stochastic Gradient Descent 成为如此强大和高效的优化算法。从梯度下降背后的理论到在 Python 中从头开始实施 SGD，您已经看到了如何在细粒度级别控制和理解此过程中的每个步骤。您已经了解到：
SGD 提供了速度和内存效率，尤其是在处理大型数据集时。
它在神经网络和依赖快速迭代学习的行业中具有实际应用。
虽然有更高级的优化器，如 Adam 和 RMSprop，但 SGD 由于其简单性和灵活性而仍然是最受欢迎的。