深度学习 | BN层原理浅谈
深度学习 | BN层原理浅谈
文章目录
- 深度学习 | BN层原理浅谈
- 一. 背景
- 二. BN层作用
- 三. 计算原理
- 四. 注意事项
- 为什么BN层一般用在线性层和卷积层的后面,而不是放在激活函数后
- 为什么BN能抑制过拟合(有争议)
一. 背景
神经网络在训练时,由于内存限制,各框架都会设置batch和epoch的概念来进行训练。
每个batch内采样的训练数据的分布各不相同,那么网络就要在每次迭代都去学习以适应不同的分布。对于深度学习这种包含很多隐层的网络结构,各隐层学到的权重等参数都在不停的变化,导致隐层的输入分布老是变来变去,产生了所谓的“Internal Covariate Shift”(内部协变量偏移)现象,
使用更好的参数初始化或者使用较低的分辨率能够一定程度上缓和这个问题,但是会大大降低网络的训练速度,为了保证隐层分布稳定及训练速度,Batch Nomalization算法随之而来;
二. BN层作用
(1)将每一隐层参数都归一化至均值0、方差为1,输出至下一隐层;
(2)加速网络收敛速度,可以使用较大的学习率来训练网络
(3)改善梯度弥散
(4)提高网络的泛化能力
(5)BN层一般用在线性层和卷积层后面,而不是放在非线性单元后
三. 计算原理
BN层对每一个batch内样本的features中计算其均值μ\muμ和方差σ,然后对每一个x减去均值除以标准差,最后利用超参数γ\gammaγ和β\betaβ进行仿射变换,即可得到最终的BN输出y,具体过程如下:

1.计算样本均值。
2.计算样本方差。
3.样本数据标准化处理。
4.进行平移和缩放处理。引入了γ\gammaγ和β\betaβ两个参数。来训练γ和β两个参数。引入了这个可学习重构参数γ\gammaγ和β\betaβ,让我们的网络可以学习恢复出原始网络所要学习的特征分布。
四. 注意事项
为什么BN层一般用在线性层和卷积层的后面,而不是放在激活函数后
因为激活函数一般为非线性,非线性单元的输出分布形状会在训练过程中发生变化,归一化无法消除它的方差偏移,相反的,全连接和卷积层的输出一般是一个对称的,非稀疏的一个分布,更加类似于高斯分布,对他们进行归一化会产生更加稳定的分布。例如Relu激活函数,如果输入的数据是一个高斯分布,经过Relu输出的数据小于0的被抑制,就不是高斯分布了。
为什么BN能抑制过拟合(有争议)
BN每个batch采样的数据都不一样,但是每次的batch的数据都会被局部均值和方差作用,可以认为是引入了噪声,增强了过拟合能力。
相关文章:
深度学习 | BN层原理浅谈
深度学习 | BN层原理浅谈 文章目录深度学习 | BN层原理浅谈一. 背景二. BN层作用三. 计算原理四. 注意事项为什么BN层一般用在线性层和卷积层的后面,而不是放在激活函数后为什么BN能抑制过拟合(有争议)一. 背景 神经网络在训练时,由于内存限制࿰…...
每日面试题
2022/12/15 如何实现一个IOC容器 1、配置文件配置包扫描路径 2、递归包扫描获取.class文件 3、反射、确定需要交给lOC管理的类4、对需要注入的类进行依赖注入 配置文件中指定需要扫描的包路径 定义一些注解,分别表示访问控制层、业务服务层、数据持久层、依赖注…...
将IDEA的项目托管到gitee
目录1. 在gitee上创建仓库2. 本地创建仓库目录3. 将项目添加到缓冲区4. 将缓冲区的项目添加到本地仓库5. 将本地仓库的项目上传到gitee6. 遇到的问题6.1 问题描述6.2 解决方法7. 相关图示与补充8. 相关参考1. 在gitee上创建仓库 2. 本地创建仓库目录 在IDEA中选择创建 Git 仓…...
父类子类静态代码块、构造代码块、构造方法执行顺序
github:https://github.com/nocoders/java-everything.git 名词解释 静态代码块:java中使用static关键字修饰的代码块,每个代码块只会执行一次,JVM加载类时会执行静态代码块中的代码,静态代码块先于主方法执行。构造代码块&#…...
【C++】开散列实现unordered_map与unordered_set的封装
本文主要介绍unordered_map与unordered_set的封装,此次封装主要用上文所说到的开散列,通过开散列的一些改造来实现unordered_map与unordered_set的封装 文章目录一、模板参数二、string的特化三、正向迭代器四、构造与析构五、[]的实现六、unordered_map的实现七、u…...
华为OD机试真题Python实现【删除指定目录】真题+解题思路+代码(20222023)
删除指定目录 题目 某文件系统中有 N 个目录, 每个目录都一个独一无二的 ID。 每个目录只有一个付目录, 但每个目录下可以有零个或多个子目录, 目录结构呈树状结构。 假设 根目录的 ID 为0,且根目录没有父目录 ID 用唯一的正整数表示,并统一编号 现给定目录 ID 和其付目…...
CSS选择器大全(上)
基础选择器: id选择器:#id{} 类选择器: .class{} 标签选择器: h1{} 复合选择器: 交集选择器:作用:选中同时符合多个条件的元素 语法:选择器1选择器2选择器3选择器n{} 注意ÿ…...
JavaScript 俄罗斯方块 - setTimeout和rAF
本节内容需要有些基础知识,如进程和线程,队列数据结构 一、setTimeout和setInterval 只要使用过JavaScript的朋友,对setTimeout和setInterval应该不会默生,如果光说怎样去使用这个API,并不难,无非就是隔多少毫秒再执行某个函数,把变化的内容封装在函数中,就可以制作出动…...
LeetCode:构造最大二叉树;使用中序和后序数组构造二叉树;使用前序和中序数组遍历二叉树。
构造二叉树最好都是使用前序遍历;中左右的顺序。 654. 最大二叉树 中等 636 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。递归地在最大值 左边 的 子数组前缀上 构建…...
nodejs实现jwt
jwt是json web token的简称,本文介绍它的原理,最后后端用nodejs自己实现如何为客户端生成令牌token和校验token 1.为什么需要会话管理 我们用nodejs为前端或者其他服务提供resful接口时,http协议他是一个无状态的协议,有时候我们…...
结构体占用内存大小如何确定?-->结构体字节对齐 | C语言
目录 一、什么是结构体 二、为什么需要结构体 三、结构体的字节对齐 3.1、示例1 3.2、示例2 3.3、示例3 3.4、示例4 3.5、示例5 四、结构体字节对齐总结 一、什么是结构体 结构体是将不同类型的数据按照一定的功能需 求进行整体封装,封装的数据类型与大小均…...
Vue和Uniapp:优缺点比较
Vue和Uniapp是两个流行的前端框架,都是用于开发跨平台应用程序的工具。虽然两者都有很多相似之处,但它们也有一些不同之处,这些不同之处可以影响你的选择。下面将对Vue和Uniapp的优缺点进行比较和分析,以帮助你做出更明智的决策。…...
AMBA-AXI(二)AXI的序,保序与乱序
💡Note:本文是根据AXI协议IHI0022F_b_amba_axi_protocol_spec.pdf(issue F)整理的。主要是分享AXI3.0和4.0部分。如果内容有问题请大家在评论区中指出,有补充或者疑问也可以发在评论区,互相学习ὤ…...
APIs and Open Interface--非工单领、发料(含调拨)
表名 MTL_TRANSACTIONS_INTERFACEMTL_TRANSACTION_LOTS_INTERFACE序列 MTL_MATERIAL_TRANSACTIONS_S.NEXTVALAPIs INV_TXN_MANAGER_PUB.PROCESS_TRANSACTIONS案例 杂发/杂收(代码)Declare v_user_id number : fnd_global.user_id; v_login_id number …...
互联网医院系统软件开发|互联网医院管理系统开发的好处
互联网医院一直是现在的热门行业,很多的医院已经开发了互联网医院,并且已经在良好的运行中,而有一些医院和企业正在开发中,或者打算开发互联网医院系统,其实这些企业和医院还是很有远见的,因为他们知道并了…...
2.单例模式
基本概念 单例模式:保证一个类只有一个实例,并提供一个访问该实例的全局访问点 常见应用场景 读取配置文件的类一般设计为单例模式网站计数器应用程序的日志应用,因为共享日志文件一直处于打开状态,只能有一个实例去操作Spring…...
【保姆级】Java后端查询数据库结果导出xlsx文件+打印xlsx表格
目录前言一、需求一:数据库查询的数据导出成Excel表格1.1 Vue前端实现导出按钮点击事件1.2 后端根据数据库查询结果生成xlsx文件二、需求二:对生成的xlsx文件调用打印机打印2.1 Vue前端实现按钮事件2.2 后端实现打印前言 最近在弄一个需求,需…...
Java数据库部分(MySQL+JDBC)(二、JDBC超详细学习笔记)
文章目录1 JDBC(Java Database Connectivity)1.1 什么是 JDBC?1.2 JDBC 核心思想2 JDBC开发步骤【重点】2.0 环境准备2.1 注册数据库驱动2.2 获取数据库的连接2.3 获取数据库操作对象Statement2.4 通过Statement对象执行SQL语句2.5 处理返回结…...
vue3生命周期
一、Vue3中的生命周期 1、setup() : 开始创建组件之前,在 beforeCreate 和 created 之前执行,创建的是 data 和 method 2、onBeforeMount() : 组件挂载到节点上之前执行的函数; 3、onMounted() : 组件挂载完成后执行的函数; 4、…...
Python学习笔记10:开箱即用
开箱即用 模块 python系统路径 import sys, pprint pprint.pprint(sys.path) [,D:\\Program Files\\Python\\Lib\\idlelib,D:\\Program Files\\Python\\python310.zip,D:\\Program Files\\Python\\DLLs,D:\\Program Files\\Python\\lib,D:\\Program Files\\Python,D:\\Progr…...
从STM32空闲中断迁移到HC32F460超时中断:串口不定长数据接收的两种思路对比
STM32空闲中断与HC32F460超时中断的深度对比:串口不定长数据接收实战指南 在嵌入式系统开发中,串口通信作为最基础的外设接口之一,其数据接收的稳定性和效率直接影响系统性能。对于无固定协议帧的串口数据流(如编码器输出…...
终极指南:10个必学Objective-C库助力iOS开发效率翻倍
终极指南:10个必学Objective-C库助力iOS开发效率翻倍 【免费下载链接】TimLiu-iOS iOS开发常用三方库、插件、知名博客等等 项目地址: https://gitcode.com/gh_mirrors/ti/TimLiu-iOS TimLiu-iOS是一个精心整理的iOS开发资源宝库,包含了Objective…...
3分钟掌握PPT演示时间管理的终极方案:智能悬浮计时器
3分钟掌握PPT演示时间管理的终极方案:智能悬浮计时器 【免费下载链接】ppttimer 一个简易的 PPT 计时器 项目地址: https://gitcode.com/gh_mirrors/pp/ppttimer 在演讲、汇报、教学等场景中,时间管理是成功的关键因素。PPTTimer作为一款专为Wind…...
OpenTwitter MCP Server:让AI助手连接社交媒体,实现自动化情报监控
1. 项目概述:当AI助手学会“刷”社交媒体如果你和我一样,日常工作中需要频繁关注特定领域(比如加密货币、科技动态或某个行业)的社交媒体动态,那你一定理解那种被信息流淹没的疲惫感。手动刷新、筛选、整理,…...
强化学习在推测执行漏洞挖掘中的应用与实践
1. 推测执行漏洞与安全挑战现代处理器中的推测执行技术通过预测分支路径提前执行指令,大幅提升了指令级并行性。当处理器遇到条件分支时,它会根据历史记录预测分支走向,并提前执行预测路径上的指令。如果预测正确,可以节省约10-15…...
Ai小程序入门00-初识AI编程(小白入门:不懂代码也能做小程序?AI编程到底怎么玩)
Ai小程序入门00-初识AI编程(小白入门:不懂代码也能做小程序?AI编程到底怎么玩) 📌 文章简介:很多人都有一个"做个小程序赚钱"或"实现自己创意"的梦想,但往往被复杂的代码、繁琐的环境配置劝退。如今,AI 编程工具(如 Cursor、Claude 等)彻底改变…...
Python开发者三步完成Taotoken大模型API的首次调用
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 Python开发者三步完成Taotoken大模型API的首次调用 对于希望快速体验不同大模型能力的Python开发者而言,通过一个统一的…...
为什么迅雷下载比浏览器稳?从原理到实战的完整使用手册
目录 为什么迅雷下载比浏览器稳?从原理到实战的完整使用手册 前言 一、核心原理:为什么迅雷下载断网也不怕? 1. 断点续传:下载到一半断网也能续 2. 多线程下载:同时开多个 “下载通道” 3. P2P 分布式加速&#…...
开源AI演示文稿生成工具slide-sage:从原理到实践全解析
1. 项目概述:一个开源的演示文稿生成利器 如果你和我一样,经常需要制作技术分享、产品汇报或者教学课件,那你一定体会过那种面对空白PPT文档的“创作焦虑”。从构思大纲、搜集素材、设计排版到最终美化,一套像样的幻灯片做下来&a…...
量子电路编译与Trotter分解技术详解
1. 量子电路编译基础与Trotter分解原理量子电路编译是将抽象的量子算法转化为可在实际量子硬件上执行的低级量子门序列的过程。在模拟量子系统动力学时,Trotter-Suzuki分解是最常用的技术之一,它允许我们将连续的量子演化分解为离散的门操作序列。1.1 Tr…...
