当前位置：首页 > news >正文

李宏毅机器学习-批次 (batch)和动量(momentum)

news 2026/5/22 0:03:36

一.batch（批次）

在计算微分时，不是对所有的数据算出来的Loss值做微分，而是将所有的数据分成一个一个的batch。一个batch是一个B，在更新参数时，拿B的资料计算Loss，计算gradient，再更新参数；另一组参数也是类似，拿B的资料计算Loss，计算gradient，再更新参数，以此类推。不会将所有的数据计算loss，而是将资料分成一个一个的batch。

所有的batch计算过一遍就叫做一个epoch。在每一个epoch开始前，会分一次batch。
每一个epoch分的batch都不一样。在把所有的资料分成一个一个的batch时，这个过程就叫做Shuffle。

Small batch v.s. Large Batch

假设现在有20个训练资料，左边是没有用batch的（batch size就是全部的训练资料）、右边的batch size为1。左边的需要把所有的资料看过一次，才能计算loss值，计算gradient，然后更新一次参数。右边的更新一次参数只要一个B的batch资料，在一个epoch里面，就需要更新20次参数。

比较1：Speed for one update：Large Batch的蓄力时间较长，因为需要把所有的资料都看过一遍。Small batch的蓄力时间短，每看到一笔资料就需要更新一次参数。
比较2：Gredient：Large batch比较稳， Small Batch的就比较noisy。

比较3：Time for one epoch：batch size 比较大的训练资料计算loss、gradient、更新参数的时间不一定比batch size 小的时间长

以识别数字为例，在batch size为1-1000时相差不大（GPU可以做平行运算，所以计算1000个资料的时间并不是1个资料的1000倍），但是batch size超过一定界限，计算的时间会随着batch size的增大而增大。

因为有平行运算的能力，当 batch size 小的时候，跑完一个epoch花费的时间比大的batch size的多。例如：batch size为1的时候与batch size为1000的时候时间差不多，但是，batch size为1的时候跑完一个epoch的时间为350+，batch size为1000的时候跑完一个epoch的时间只要20。这个时候 batch size 为1000的时间更短，更有效率。所以考虑平行运算时，batch size比较大的一个epoch花费的时间更少。

综上来说，batch size 大的似乎更好，比较batch size 大小的好坏还需要考虑到稳定还是陡，比较陡的gradient反而可以帮助训练。

例如：左边为MNISTY的影像辨识例子、右边为CIFAR-10的影像辨识例子。横轴为batch size的大小，纵轴为正确率。batch size越大，validation上的结果就越差。在training上也是如此。这是optimization不理想所导致的问题。

比较4：optimization：小的batch size更有利于训练

因为如果是full batch的话，沿着loss function更新参数，遇到local minima、saddle point时就无法用gradient decent的方法更新了。

如果是small batch的话，因为每次用一个batch来计算loss，根据loss来更新参数。每次更新参数用到的loss function都是有差异的，第一次用L1、第二次用L2。假设第一次更新时用L1计算gradient为0，这就卡住了。但是L2的gradient不一定为0，可以继续更新，所以比较陡的反而更有利于训练。

比较5：Generalization：小的batch size对测试资料有帮助：

假8

为什么小的batch size对测试资料有帮助呢？

在Training loss上可能有很多的local minima，loss值趋近于0，如果一个local minima两边斜率很大，则这个local minima为sharp minima；如果一个local minima两边斜率很小，则这个local minima为flat minima。在Testing loss上，flat minima在Training loss和Testing loss上不会差很多；但是sharp minima在Training loss和Testing loss上会差很多。大的batch size会更容易得出sharp minima；小的batch size会更容易得出flat minima。

总结

在没有平行运算的情况下，Small Batch比 Large Batch更有效率；

在有平行运算的情况下，Small Batch与Large Batch运算时间没有太大差距，除非大的超出一定界限；

在一个epoch时间内，Large Batch比Small Batch更快，Large Batch更有效率；

Small Batch比较陡，Large Batch比较稳定；

比较noisy的batch size比比较stable 的batch size在训练和测试时占有优势。

2. momentum

Gradient Descent：

计算Gradient，沿着Gradient的反方向更新参数；再计算下一个位置的Gradient，沿着Gradient的反方向更新参数，以此类推。

Gradient Descent + Momentum：

不是沿着Gradient的反方向更新参数，而是沿着Gradient的反方向加上前一步移动的方向的结果来更新参数。初始参数为 θ ，前一步的movement为0，计算 θ 的gradient，移动的方向为gradient的方向加上前一步的方向，以此类推。

李宏毅机器学习-批次 (batch)和动量(momentum)

一.batch（批次）

Small batch v.s. Large Batch

总结

2. momentum

相关文章：

李宏毅机器学习-批次 (batch)和动量(momentum)

C# 网络编程--关于UDP 通信（二）

【k8s集群应用】Kubernetes部署安装-二进制部署实例

js常见代码输出问题之promise,await,变量提升以及闭包（包括例子以及详细解析）

遗传算法与深度学习实战（27）——进化卷积神经网络

【Vue3】前端使用 FFmpeg.wasm 完成用户视频录制，并对视频进行压缩处理

基础算法——前缀和

spring实例化对象的几种方式（使用XML配置文件）

【二叉树】力扣 129.求根节点到叶子节点数字之和

深度学习物体检测之YOLOV5源码解读

音频数据采样入门详解 - 给Python初学者的简单解释

Unity类银河战士恶魔城学习总结（P179 Enemy Archer 弓箭手）

SpringCloud集成sleuth和zipkin实现微服务链路追踪

Python随机抽取Excel数据并在处理后整合为一个文件

Linux+Docker onlyoffice 启用 HTTPS 端口支持

在 Visual Studio Code 中编译、调试和执行 Makefile 工程 llama2.c

python中math模块常用函数

优化 Vue 3 开发体验：配置 Vite 使用 WebStorm 作为 Vue DevTools 的默认编辑器

【C语言练习（9）—有一个正整数，求是几位数然后逆序打印】

热敏打印机的控制

2026年一键生成论文工具实测排行，哪款真正适合顺利通关？

国内大学生必备的AI论文写作工具有哪些？

Midjourney金属质感渲染实战手册（航天级铝钛合金/做旧铜锈/镜面不锈钢三重进阶）

GEO优化避坑指南：告别关键词堆砌，用实体权威与结构化数据抢占AI推荐位

Diablo Edit2：5分钟掌握暗黑破坏神2终极角色编辑器

告别本科论文 “从零焦虑”：okbiye AI 写作如何用 “全流程定制” 终结熬夜改稿循环

Windhawk终极指南：5分钟掌握Windows系统个性化定制

告别IBus！在Ubuntu 22.04上为Fcitx5安装搜狗输入法并设置自启动的完整流程

1993-2025年《中国汽车工业年鉴》Excel/PDF格式

TegraRcmGUI终极指南：Windows上最简单的Switch注入工具免费使用教程