当前位置：首页 > news >正文

神经网络的一些常规概念

news 2025/7/18 20:58:45

epoch：是指所有样本数据在神经网络训练一次（单次epoch=(全部训练样本/batchsize)/iteration=1）或者（1个epoch=iteration数 × batchsize数）

batch-size：顾名思义就是批次大小，也就是一次训练选取的样本个数

iteration：1个iteration=1个正向通过+1个反向通过=使用batchsize个样本训练一次。

注意：每一次迭代得到的结果都会被作为下一次迭代的初始值。

在人工神经网络中,权重是相邻两层神经元之间的连接强度。权重的更新是通过反向传播算法实现的,主要步骤如下:

前向传播:输入数据从输入层向前传播,在各层被激活并加权,得到输出值。
计算损失:使用损失函数计算输出值和真实标签之间的差距,得到总体损失。
求导:使用链式法则计算损失相对于各层权重的偏导数。
权重更新:使用梯度下降法则更新各层权重,使损失最小化。

梯度下降法的概念：

梯度下降法的基本思想是通过不断迭代，找到函数的最小值点，从而得到最优的模型参数。在梯度下降法中，我们首先需要定义一个损失函数，该函数表示了模型的预测结果与实际结果之间的差距。然后，我们初始化一组模型参数，并计算损失函数关于这些参数的梯度，即损失函数在参数空间中的斜率。接着，我们沿着负梯度方向移动一定的步长，更新模型参数，直到损失函数的值收敛或达到预定的迭代次数。

下面介绍几种常见的梯度下降算法优化方法。

1. 批量梯度下降算法（Batch Gradient Descent）

批量梯度下降算法是最基本的梯度下降算法，它在每次迭代中使用所有的样本来计算梯度。虽然批量梯度下降算法的收敛速度比较慢，但是它的收敛结果比较稳定，因此在小数据集上表现良好。

2. 随机梯度下降算法（Stochastic Gradient Descent）

随机梯度下降算法是一种每次只使用一个样本来计算梯度的算法，因此它的收敛速度比批量梯度下降算法快很多。但是，由于它只使用一个样本来计算梯度，所以收敛结果可能会受到噪声的影响，因此它的收敛结果不够稳定。

3. 小批量梯度下降算法（Mini-Batch Gradient Descent）

小批量梯度下降算法是介于批量梯度下降算法和随机梯度下降算法之间的一种算法。它在每次迭代中使用一部分样本来计算梯度，通常选择的样本数是几十或几百。小批量梯度下降算法的收敛速度比批量梯度下降算法快，而且比随机梯度下降算法更稳定。

4. 动量梯度下降算法（Momentum Gradient Descent）

动量梯度下降算法是一种基于动量的优化算法，它的核心思想是在更新参数的时候，将上一次的梯度方向加入到本次梯度方向中，从而加速收敛。动量梯度下降算法通常可以减少梯度震荡，从而加速收敛。

5. 自适应学习率梯度下降算法（Adaptive Learning Rate Gradient Descent）

自适应学习率梯度下降算法是一种自适应学习率的优化算法，它的核心思想是根据梯度的大小来调整学习率，从而提高算法的效率和稳定性。常见的自适应学习率梯度下降算法有Adagrad、Adadelta和Adam等。

在深度学习中，一般采用SGD训练（随机梯度下降），即每次训练在训练集中取batchsize个样本训练；

（1）经验总结：Batch_Size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡

相对于正常数据集，如果Batch_Size过小，训练数据就会非常难收敛，从而导underfitting。增大Batch_Size，相对处理速度加快。但是，增大Batch_Size，所需内存容量增加（epoch的次数需要增加以达到最好的结果）这就出现了矛盾。——因为当epoch增加以后，同样也会导致耗时增加从而速度下降。因此我们需要寻找最好的Batch_Size。

（2）适当的增加Batch_Size的优点：

1.通过并行化提高内存利用率。
2.单次epoch的迭代次数减少，提高运行速度。
3.适当的增加Batch_Size，梯度下降方向准确度增加，训练震动的幅度减小。

为什么我们必须要使用梯度下降法？

参考：一文全解梯度下降法_已知两组样本梯度下降-CSDN博客

以线性回归问题为例说明这个流程：

过原点的直线 y=wx 就相当于线性回归问题中用于做预测的函数，y是房价，x是面积，每个样本代表不同面积的具体房价机器的任务就是想办法计算出一条最好的直线来拟合这些样本点数据，而直线的斜率w就可以简单控制直线，所以我们的目的是要求解出最能拟合数据分布的变量w

为了方便求解出最优参数w，我们引入了与这条直线相关的损失函数

我们通过预测函数和误差公式推导出损失函数，成功的将直线拟合样本点的过程映射到了一个损失函数上，并且它是个开口向上的抛物线图像，它是以参数w为自变量、误差或者损失值作为因变量的，见下图中的右侧图

因为我们的目标是拟合出最接近这些数据分布的直线，也就是找到使得误差代价最小的参数w，对应在右图的损失函数图像上就是它的最低点，这个不断寻找最低点的过程就是梯度下降要干的活。

我们先随机选取一个参数起始点，对应到曲线上的某个误差值，然后不断的沿着损失函数曲线陡峭程度最大的方向前进，就能更快更准的找到误差的最低点。

这个陡峭程度就是梯度，它是损失函数的导数，对于抛物线而言就是曲线的斜率

另外，因为梯度的方向是损失函数值增加最快的方向，负梯度是损失函数值下降最快的方向，所以我们其实是沿着梯度的反方向前往最低点。这就是为何叫梯度下降的原因

确定了损失函数值的下降方向以后，还需要考虑前进的步长，即学习率

学习率是步长超参数，人为选择，选择学习率时，步子太大即选择数值太大会反复横跳，步子太小会走得很慢浪费计算上面我们是用线性回归做预测函数的，实际情况中房价不仅与面积，还与城市、地段、政策等相关，那么预测函数就会是非线性甚至是曲面多维的各种复杂函数，对应的损失函数也可能是更复杂的，如

上面说了梯度下降的原理，但是实际我们很少直接使用梯度下降，因为我们每次计算梯度时要对每个损失函数求导，这个损失函数是对所有训练样本的平均损失，意味着每次计算梯度都要计算一遍所有样本，花费的时间成本太大了。现在深度学习默认使用的是小批量随机梯度下降方法来训练模型得到最优参数

另外，小批量batchsize也是个超参数，它选择越小，对收敛越好，即模型拟合数据的越好；对了，上述那个例子中的直线或者说预测函数 y=wx 就可以看作是简单的预测模型，所以才总说训练模型的参数嘛

batchsize选择越小，产生的噪音越多，噪音对神经网络是有一定好处的，深度神经网络太复杂了，一定的噪音可以避免网络模型在训练的时候不会走偏；也就是说模型对各种噪音的容忍度越好，则模型的泛化性就越好，泛化性越好就能让模型更好预测其他新数据

当然，选择太小也不行，会浪费计算，时间成本高啊；batchsize选择太大会虽然导致收敛问题，但只要不是特别大，最后多花点时间还是能收敛的。小批量随机梯度下降中的‘随机’是随机采样的意思，批量大小都是提前定义好的；假如batchsize是128，那么随机从所有样本中采样128个读进内存用于训练

常用的激活函数：

（1）sigmoid

（2）tanh

（3）ReLU

（4）Leaky ReLU

（5）softmax

优化函数：

optimizer = keras.optimizer.SGD(lr=0.001, momentum=0.9)

动量优化

optimizer = keras.optimizer.SGD(lr=0.001, momentum=0.9, nesterov=True)

optimizer = keras.optimizer.RMSprop(lr=0.001, rho=0.9)

RMSProp算法通过只是累加最近迭代中的梯度（而不是自训练开始以来的所有梯度）

optimizer = keras.optimizer.Adam(lr=0.001, beta_1=0.9, beta_2=0.999)

Adam代表自适应钜估计，结合了动量优化和RMSProp的思想：就像动量优化一样，它跟踪过去梯度的指数衰减平均值；想RMSProp一样，它跟踪过去平方梯度的指数衰减平均值。

神经网络的一些常规概念

epoch：是指所有样本数据在神经网络训练一次（单次epoch(全部训练样本/batchsize)/iteration1）或者（1个epochiteration数 batchsize数） batch-size：顾名思义就是批次大小，也就是一次训练选取的样…...

编程日记 2024/2/1 11:20:17

【从零开始的rust web开发之路三】orm框架sea-orm入门使用教程

【从零开始的rust web开发之路三】orm框架sea-orm入门使用教程文章目录前言一、引入依赖二、创建数据库连接简单链接连接选项开启日志调试三、生成实体安装sea-orm-cli创建数据库表使用sea-orm-cli命令生成实体文件代码四、增删改查实现新增数据主键查找条件查找查找用户名…...

编程日记 2024/2/1 11:19:16

SQL中limit的用法

在SQL中，LIMIT是一个用于限制返回结果行数的关键词。它可用于在查询结果中指定返回的行数，从而可以用于分页查询或限制结果集大小。 LIMIT关键词有两种常用的语法格式： LIMIT offset, count：该语法用于指定返回结果的起始位置和…...

编程日记 2024/2/1 11:18:15

vue3 [Vue warn]: Unhandled error during execution of scheduler flush

文章目录前言一、报错截图二、排除问题思路相关问题 Vue3 优雅解决方法异步组件异同之处：好处：在使用异步组件时，有几个注意点： vue3 定义与使用异步组件总结前言 Bug 记录。开发环境运行正常，构建后时不时触发下面…...

编程日记 2024/2/1 11:17:14

【vue2源码】阶段一：Vue 初始化

文章目录一、项目目录1、主目录2、打包入口二、构造函数Vue的初始化1、创建 Vue 构造函数2、初始化内容分析2.1 initMixin2.2 stateMixin2.3 eventsMixin2.4 lifecycleMixin2.5 renderMixin 一、项目目录源码版本：2.7.16 1、主目录 src |-- compiler # 包…...

编程日记 2024/2/1 11:14:10

14.java集合

文章目录概念Collection 接口概念示例 Iterator 迭代器基本操作：并发修改异常增强循环遍历数组：遍历集合：遍历字符串：限制 list接口ListIteratorArrayList创建 ArrayList：添加元素：获取元素：修…...

编程日记 2024/2/1 11:13:09

二叉树顺序结构堆实现

目录 Test.c测试代码 test1 test2 test3 🎇Test.c总代码 Heap.h头文件&函数声明头文件函数声明 🎇Heap.h总代码 Heap.c函数实现 ☁HeapInit初始化 ☁HeapDestroy销毁 ☁HeapPush插入数据【1】插入数据【2】向上调整Adjustup❗ …...

编程日记 2024/2/1 11:11:07

正则表达式与文本三剑客（sed grep awk）

一，正则表达式 （一）正则表达式相关定义 1，正则表达式含义 REGEXP： Regular Expressions，由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意…...

编程日记 2024/2/1 11:10:05

【XR806开发板试用】全志 XR806 OpenHarmony 鸿蒙系统固件烧录

大家好，我是极智视界，本教程详细记录了全志 XR806 OpenHarmony 鸿蒙系统固件烧录的方法。在上一篇文章《【嵌入式AI】全志 XR806 OpenHarmony 鸿蒙系统固件编译》中咱们已经编译生成了系统镜像，这里把这个编译出来的镜像烧录到 XR806 板子里…...

编程日记 2024/2/1 11:09:04

重启 jenkins的命令： systemctl start jenkins 如果没有vim 命令可以使用 yum install vim 安装 vim git 下载包地址 https://www.kernel.org/pub/software/scm/git/git-2.28.0.tar.gz 1.安装依赖环境： yum install -y curl-devel expat-devel ge…...

编程日记 2024/2/1 11:08:03

RabbitMQ快速上手

首先他的需求实在什么地方。我美哟明显的感受到。它给我的最大感受就是脱裤子放屁——多此一举，的感觉。他将信息发送给服务端中间件。在由MQ服务器发送消息。服务器会监听消息。但是它不仅仅局限于削峰填谷和稳定发送信息的功能，它还有其他重要…...

编程日记 2024/2/1 11:00:55

SpringBoot activemq收发消息、配置及原理

SpringBoot集成消息处理框架 Spring framework提供了对JMS和AMQP消息框架的无缝集成，为Spring项目使用消息处理框架提供了极大的便利。与Spring framework相比，Spring Boot更近了一步，通过auto-configuration机制实现了对jms及amqp主流框架…...

编程日记 2024/2/1 10:56:50

视频智能识别安全帽佩戴系统-工地安全帽佩戴识别算法---豌豆云

视频智能识别安全帽佩戴系统能够从繁杂的工地、煤矿、车间等场景下同时对多个目标是否戴安全帽穿反光衣进行实时识别。当视频智能识别安全帽佩戴系统发现作业人员没有戴安全帽、穿反光衣或者戴安全带，系统会及时报警提醒，并抓拍存档。视频智能识别安…...

编程日记 2024/2/1 10:55:49

指针的深入理解（三）

这一节主要使用复习回调函数， 利用冒泡模拟实现qsort函数。 qsort 排序使用冒泡排序，主要难点在于运用元素个数和字节数以及基地址控制元素的比较： if里面使用了一个判断函数，qsort可以排序任意的数据，原因就是因为可…...

编程日记 2024/2/1 10:54:47

【Linux C | 网络编程】详细介绍 “三次握手(建立连接)、四次挥手(终止连接)、TCP状态”

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

编程日记 2024/2/1 10:51:45

主从数据库MySQL服务重启步骤与注意事项

主从数据库MySQL服务重启步骤与注意事项实验环境： 172.20.26.34 （主应用服务器） 172.20.26.26 （备应用服务器） 172.20.26.37 （主库服务器） 172.20.26.38 （从库服务器&…...

编程日记 2024/2/1 10:48:40

netlink学习

netlink是什么 netlink是Linux内核中的一种进程间通信（IPC）机制。它允许内核空间与用户空间之间，以及用户空间进程之间进行双向通信。内核里的很多子系统使用netlink通信，包括网络管理（Routing，Netfilt…...

编程日记 2024/2/1 10:46:38

地理空间分析10——空间数据分析中的地理编码与Python

目录写在开头1. 地理编码基础1.1 地理编码的基本原理1.1.1 坐标系统1.1.2 地名解析1.1.3 编码算法1.2 Python中使用地理编码的基础知识1.2.1 百度地图API1.2.2 高德地图API1.2.3 腾讯地图API1.3 Python中实现代码2. 逆地理编码2.1 利用Python进行逆地理编码2.1.1 获取高德地图…...

编程日记 2024/2/1 10:44:34

使用“快速开始”将数据传输到新的 iPhone 或 iPad

使用“快速开始”将数据传输到新的 iPhone 或 iPad 使用 iPhone 或 iPad 自动设置你的新 iOS 设备。使用“快速开始”的过程会同时占用两台设备，因此请务必选择在几分钟内都不需要使用当前设备的时候进行设置。确保你当前的设备已连接到无线局域网，并…...

编程日记 2024/2/1 10:41:29

计算机网络（第六版）复习提纲13

前同步码，七位1010交替出现，帧开始码：10101011 为什么没有帧结束？曼彻斯特码传播完成后，维持高电平，不再跳变，因此不必要设置帧结束。 3.无效的MAC帧 i.数据字段的长度与长度字段的值不一致&…...

编程日记 2024/2/1 10:37:23

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2025/7/15 16:29:58

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2025/7/11 8:23:31

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

编程新知 2025/6/15 19:07:20

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能，多端兼容

基于 UniApp + WebSocket实现多端兼容的实时通讯系统，涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能，适配微信小程序、H5、Android、iOS等终端目录技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...

编程新知 2025/7/17 11:50:29

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/7/8 4:43:23

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码，写上注释当然可以！这段代码是 Qt …...

编程新知 2025/6/15 21:47:30

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/7/17 16:06:16

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/7/6 3:09:48

CMake 从 GitHub 下载第三方库并使用

有时我们希望直接使用 GitHub 上的开源库，而不想手动下载、编译和安装。可以利用 CMake 提供的 FetchContent 模块来实现自动下载、构建和链接第三方库。 FetchContent 命令官方文档✅ 示例代码我们将以 fmt 这个流行的格式化库为例，演示如何：使用 FetchContent 从 GitH…...

编程新知 2025/7/16 3:21:13

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/7/8 14:06:13

神经网络的一些常规概念

相关文章：

神经网络的一些常规概念

【从零开始的rust web开发之路三】orm框架sea-orm入门使用教程

SQL中limit的用法

vue3 [Vue warn]: Unhandled error during execution of scheduler flush

【vue2源码】阶段一：Vue 初始化

14.java集合

二叉树顺序结构堆实现

正则表达式与文本三剑客（sed grep awk）

【XR806开发板试用】全志 XR806 OpenHarmony 鸿蒙系统固件烧录

linux环境安装git、maven、jenkins等

RabbitMQ快速上手

SpringBoot activemq收发消息、配置及原理

视频智能识别安全帽佩戴系统-工地安全帽佩戴识别算法---豌豆云

指针的深入理解（三）

【Linux C | 网络编程】详细介绍 “三次握手(建立连接)、四次挥手(终止连接)、TCP状态”

主从数据库MySQL服务重启步骤与注意事项

netlink学习

地理空间分析10——空间数据分析中的地理编码与Python

使用“快速开始”将数据传输到新的 iPhone 或 iPad

计算机网络（第六版）复习提纲13

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能，多端兼容

【位运算】消失的两个数字（hard）

Qt Widget类解析与代码注释

【2025年】解决Burpsuite抓不到https包的问题

VTK如何让部分单位不可见

CMake 从 GitHub 下载第三方库并使用

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分