当前位置: 首页 > news >正文

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

        在深度学习中,批量归一化(Batch Normalization,BN)技术是一种重要的优化方法,它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用,以及如何选择合适的损失函数来提高模型的训练效果,同时对均方误差和交叉熵两种常见的损失函数进行比较。

一、批量归一化的原理

        在深度学习中,误差表面的崎岖不平会使训练变得困难。批量归一化的想法就是通过改变误差表面的地貌,“把山铲平”,让训练变得更容易。

        具体来说,当输入特征在不同维度上的数值范围差距很大时,可能会导致误差表面在不同方向上的斜率差异很大,从而使训练变得困难。为了解决这个问题,可以对特征进行归一化,使不同维度的数值具有相同的数值范围。

        例如,可以使用 Z 值归一化(标准化)的方法,对每个维度的数值计算平均值和标准差,然后将该维度的数值减去平均值并除以标准差,得到归一化后的数值。这样可以使归一化后的数值分布在 0 上下,方差为 1,从而制造一个更好的误差表面,使训练更顺利。

二、批量归一化的实现方式

        在深度学习中,批量归一化的实现方式如下:

  1. 对输入的特征进行归一化,得到归一化后的特征˜x。
  2. 将˜x 输入到深度网络中,经过第一层得到 z^1,然后通过激活函数得到 a^1,接着再通过下一层,以此类推。
  3. 对中间层的特征 z 进行归一化,具体步骤如下:
    • 计算 z^1, z^2, z^3 的平均值 μ 和标准差 σ。
    • 根据计算出的 μ 和 σ 进行归一化:。
    • 最后,加上 β 和 γ 进行调整:,其中代表逐元素的相乘,β 和 γ 是需要学习的参数。

在实际实现中,批量归一化只对一个批量内的数据进行归一化,以近似整个数据集的特征归一化。同时,在测试时,PyTorch 会对训练时每个批量计算出的 μ 和 σ 进行移动平均,测试时直接用训练时的移动平均来取代 μ 和 σ。

三、批量归一化在神经网络中的应用

        批量归一化可以应用于神经网络的各个层,它可以使误差表面变得更加平滑,从而提高训练的稳定性和收敛速度。

        通过对特征进行归一化,可以减少不同维度之间的差异,使得网络更容易学习到有用的特征。此外,批量归一化还可以缓解梯度消失和梯度爆炸的问题,使训练更加稳定。

四、如何选择合适的损失函数来提高模型的训练效果        

        选择合适的损失函数对于提高模型的训练效果至关重要。不同的损失函数适用于不同的问题和模型。

        在分类问题中,常用的损失函数有均方误差和交叉熵。均方误差是将输出与标签之间的差异平方后求和,而交叉熵则是根据输出与标签之间的概率分布来计算损失。

        交叉熵损失函数通常比均方误差更常用在分类上,因为它能够更好地引导模型的训练。当输出与标签相同时,交叉熵可以最小化交叉熵的值,此时均方误差也是最小的。此外,交叉熵还能够使大的值跟小的值的差距更大,从而更好地优化模型。

五、均方误差和交叉熵两种常见的损失函数的比较

        通过一个三类分类的例子,可以比较均方误差和交叉熵在优化中的表现。

        假设网络先输出和,通过 softmax 以后,产生和。假设正确答案是,要计算跟和之间的距离 e,e 可以是均方误差或交叉熵。

        当很大,很小时,代表会很接近 1,会很接近 0,此时不管 e 取均方误差或交叉熵,损失都是小的;当小,大时,是 0,是 1,这个时候损失会比较大。

        在优化过程中,如果选择交叉熵,左上角圆圈所在的点有斜率,可以通过梯度一路往右下的地方 “走”;如果选均方误差,左上角圆圈就卡住了,均方误差在这种损失很大的地方非常平坦,梯度非常小趋近于 0,无法用梯度下降顺利地 “走” 到右下角。因此,在做分类时,选均方误差的时候,如果没有好的优化器,有非常大的可能性会训练不起来。如果用 Adam,虽然图中圆圈的梯度很小,但 Adam 会自动调大学习率,还有机会走到右下角,不过训练的过程比较困难。

相关文章:

Datawhale x李宏毅苹果书AI夏令营深度学习详解进阶Task03

在深度学习中,批量归一化(Batch Normalization,BN)技术是一种重要的优化方法,它可以有效地改善模型的训练效果。本文将详细讨论批量归一化的原理、实现方式、在神经网络中的应用,以及如何选择合适的损失函数…...

【机器学习】任务三:基于逻辑回归与线性回归的鸢尾花分类与波士顿房价预测分析

目录 1.目的和要求 1.1 掌握回归分析的概念和使用场景 1.2 掌握机器学习回归分析进行数据预测的有效方法 1.3 掌握特征重要性分析、特征选择和模型优化的方法 2.波士顿房价预测与特征分析 2.1第一步:导入所需的模块和包 2.2 第二步:加载波士顿房价…...

【操作系统存储篇】Linux文件基本操作

目录 一、Linux目录 二、Linux文件的常用操作 三、Linux文件类型 一、Linux目录 Linux有很多目录,Linux一切皆是文件,包括进程、设备等。 相对路径:相对于当前的操作目录,文件位于哪个目录。 绝对路径 :从根目录开…...

C++ | Leetcode C++题解之第387题字符串中的第一个唯一字符

题目&#xff1a; 题解&#xff1a; class Solution { public:int firstUniqChar(string s) {unordered_map<char, int> position;queue<pair<char, int>> q;int n s.size();for (int i 0; i < n; i) {if (!position.count(s[i])) {position[s[i]] i;…...

数学建模--皮尔逊相关系数、斯皮尔曼相关系数

目录 1.总体的皮尔逊相关系数 2.样本的皮尔逊相关系数 3.对于皮尔逊相关系数的认识 4.描述性统计以及corr函数 ​编辑 5.数据导入实际操作 6.引入假设性检验 6.1简单认识 6.2具体步骤 7.p值判断法 8.检验正态分布 8.1jb检验 8.2威尔克检验&#xff1a;针对于p值进行…...

DAY87 APP 攻防-安卓逆向篇Smail 语法反编译签名重打包Activity 周期Hook 模块

1、APK 逆向-数据修改-结构&格式 2、APK 逆向-逻辑修改-Smail 语法 3、APK 逆向-视图修改-Activity&Xml #章节点&#xff1a; 1、APP 资产-内在提取&外在抓包 2、APP 逆向-反编译&删验证&重打包 3、APP 安全-存储&服务&组件&注册等 演示案例&a…...

jenkins 工具使用

使用方式 替代手动&#xff0c;自动化拉取、集成、构建、测试&#xff1b;是CI/CD持续集成、持续部署主流开发模式中重要的环节&#xff1b;必须组件 jenkins-gitlab&#xff0c;代码公共仓库服务器&#xff08;至少6G内存&#xff09;&#xff1b;jenkins-server&#xff0c;…...

使用C语言实现字符推箱子游戏

使用C语言实现字符推箱子游戏 推箱子&#xff08;Sokoban&#xff09;是一款经典的益智游戏&#xff0c;玩家通过移动角色将箱子推到目标位置。本文将带你一步步用C语言实现一个简单的字符版本的推箱子游戏。 游戏规则 玩家只能推箱子&#xff0c;不能拉箱子。只能将箱子推到…...

用SpringBoot API实现识别pdf文件是否含有表格

要使用Spring Boot API 实现一个识别 PDF 文件是否含有表格的功能&#xff0c;你可以结合 PDF 解析库&#xff08;如 Apache PDFBox&#xff09;来解析 PDF 文件内容&#xff0c;并通过分析文本或线条来判断 PDF 是否包含表格。然后使用 Spring Boot 提供的 REST API 来实现上传…...

嵌入式S3C2440:控制LED灯

发光二极管接口&#xff08;左端&#xff09;应为低电平 以LED1为例 LED1的接口为GPB5 void led_init(void) {//配置GPB5功能为输出GPBCON & ~(0x3 << 10);GPBCON | (0x1 << 10); //使GPB5输出高电平(关灯)GPBDAT | (1 << 5); }void led_on(void) {GPB…...

算法:区间dp

文章目录 一、适用场景二、基本思路步骤时间复杂度&#xff1a; 三、例题 区间动态规划&#xff08;Interval DP&#xff09;是一种用于解决某些需要处理区间或子段问题的动态规划方法&#xff0c;特别适合于问题的解可以通过子区间的解进行组合的情况。该方法的核心思想是在子…...

【14.1运行版】C++俄罗斯方块-实现欢迎界面

实现欢迎界面 #include <stdio.h>//C语言形式的输入输出 #include <graphics.h>//图形库的头文件//实现欢迎界面 void welcome(void);int main(void) {welcome();//colsegraph();return 0; }void welcome(void) {//初始化画布initgraph(550, 660);//设置窗口标题H…...

数据分析:R语言计算XGBoost线性回归模型的SHAP值

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍SHAP用途计算方法:应用加载R包导入数据数据预处理函数模型介绍 SHAP(SHapley Additive exPlanations)值是一种解释机器学习模型预测的方法。它基于博弈论中的Shapley值概念,…...

SprinBoot+Vue图书馆预约与占座微信小程序的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue3.6 uniapp代码 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍 博主个人介绍&#xff1a;CSDN认证博客专家&#xff0c;CSDN平…...

云计算之大数据(上)

目录 一、Elasticsearch 1.1 产品组件 1.1.1 X-Pack 1.1.2 Beats数据采集中心 1.1.3 Logstash 1.1.4 Kibana 1.2 架构特性 1.2.1 性能 1.2.2 安全性 1.2.3 可用性 1.2.4 可扩展性 1.2.5 可维护性 1.2.6 国际化 1.3 综合检索分析 1.4 全观测 1.5 大数据检索加速…...

交友系统“陌陌”全方位解析

交友系统在现代社会中扮演着越来越重要的角色&#xff0c;尤其是随着互联网技术的发展&#xff0c;各种交友软件层出不穷。陌陌作为其中的佼佼者&#xff0c;其全方位解析对于理解交友系统的商业开发至关重要。 陌陌的核心功能是提供基于地理位置的社交服务&#xff0c;用户可…...

Android 删除开机动画

Android 删除开机动画 两种方法都是将debug.sf.nobootanimation的值改为属性1 第一种&#xff1a; frameworks/base/cmds/bootanimation/BootAnimationUtil.cpp bool bootAnimationDisabled() {char value[PROPERTY_VALUE_MAX]; // property_get("debug.sf.nobootani…...

我用 GPT 学占星

最近对占星赶兴趣&#xff0c;但是看到星盘中好多名词&#xff0c;不懂是什么意思&#xff1f;所以直接问 gpt &#xff0c; 发现回答的真的很棒&#x1f389; &#xff01; 假如我想知道各个状态的具体是根据什么数据来显示的&#xff1f; 分分钟解决了我的问题&#xff1b; 我…...

028、架构_高可用_主从原理

MySQL半同步复制概览 MySQL主从复制是一个异步的复制过程,主库发送更新事件到从库,从库读取更新记录,并执行更新记录,使得从库的内容与主库保持一致。主从复制的基本过程如下图所示: 主从复制的完成通过以下三个进程实现的主库 binary log dump 线程:当从库连接主库时,…...

【启明智显技术分享】探讨CAN总线相关知识以及Model3C 2路CAN的应用

一、 CAN总线相关知识 CAN总线概述 CAN&#xff08;Controller Area Network&#xff09;总线是一种高实时性、高可靠性和灵活性的串行通信协议&#xff0c;广泛应用于汽车和工业控制系统中。它由德国BOSCH公司开发&#xff0c;最高速率可达到1Mbps&#xff0c;具有强大的检错…...

3步构建智能象棋分析系统:为教练与学习者打造实时战术辅助工具

3步构建智能象棋分析系统&#xff1a;为教练与学习者打造实时战术辅助工具 【免费下载链接】VinXiangQi Xiangqi syncing tool based on Yolov5 / 基于Yolov5的中国象棋连线工具 项目地址: https://gitcode.com/gh_mirrors/vi/VinXiangQi 问题象限&#xff1a;象棋数字化…...

Perseus补丁技术指南:现代游戏增强工具的全方位应用解析

Perseus补丁技术指南&#xff1a;现代游戏增强工具的全方位应用解析 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 在移动游戏个性化定制领域&#xff0c;Perseus补丁以其独特的无偏移架构设计、跨版本兼…...

Z-Image-GGUF多场景应用:IP形象设计、PPT插图生成、短视频封面批量制作

Z-Image-GGUF多场景应用&#xff1a;IP形象设计、PPT插图生成、短视频封面批量制作 1. 引言&#xff1a;从技术工具到生产力伙伴 想象一下这个场景&#xff1a;你正在为一个新品牌设计IP形象&#xff0c;手绘了几版草图都不满意&#xff1b;或者明天就要交一份重要的PPT报告&…...

前端新手天天踩坑?安全老兵带你彻底搞懂HTML“路径引用”与“跳转陷阱”(附实战代码)

我平时在做代码审计和渗透测试时,经常会碰到一类让人哭笑不得的低级Bug:本地测试好好的图片,一部署到服务器上就全部裂开;别人点击网页上的链接,直接报404找不到页面。 这些问题归根结底,都是因为新手没有彻底搞懂 HTML 的**路径(Path)和锚点(Anchor)**规则。很多同…...

OpenClaw+Phi-3-mini-128k-instruct成本对比:自建模型VS商用API实测

OpenClawPhi-3-mini-128k-instruct成本对比&#xff1a;自建模型VS商用API实测 1. 为什么需要做这个成本对比 上个月我在用OpenClaw自动化处理公司季度报表时&#xff0c;突然收到OpenAI API的账单提醒——单月费用突破了800元。作为一个个人开发者&#xff0c;这个数字让我不…...

如何快速配置PlugY:暗黑破坏神2单机玩家的终极生存指南

如何快速配置PlugY&#xff1a;暗黑破坏神2单机玩家的终极生存指南 【免费下载链接】PlugY PlugY, The Survival Kit - Plug-in for Diablo II Lord of Destruction 项目地址: https://gitcode.com/gh_mirrors/pl/PlugY 你是否曾在暗黑破坏神2的单机游戏中为有限的仓库空…...

打印机租赁行业迷局:繁荣表象下的“三座大山”

2025年&#xff0c;中国打印机租赁市场规模已突破187.6亿元&#xff0c;产业链上下游企业多达10万余家。表面看&#xff0c;这是一片欣欣向荣的蓝海。然而&#xff0c;繁荣之下&#xff0c;行业正被“三座大山”压得喘不过气。行业现状&#xff1a;数据繁荣&#xff0c;内卷加剧…...

【算法三十八】200. 岛屿数量

200. 岛屿数量 DFS&#xff1a; class Solution {public int numIslands(char[][] grid) {int ans 0;for(int i 0;i<grid.length;i){for(int j 0;j<grid[0].length;j){if(grid[i][j]1){dfs(grid,i,j);ans;}}}return ans;}private void dfs(char[][] grid,int i,int …...

Llama Factory零代码微调大模型:5分钟上手Qwen实战教程

Llama Factory零代码微调大模型&#xff1a;5分钟上手Qwen实战教程 1. 前言&#xff1a;为什么选择Llama Factory&#xff1f; 大模型微调一直是AI工程师的必备技能&#xff0c;但传统方法需要编写大量代码&#xff0c;配置复杂环境&#xff0c;让很多初学者望而却步。Llama …...

基于YOLOV5的手势识别检测系统

基于YOLOV5的手势识别检测系统项目介绍&#xff1a; 软件&#xff1a;PycharmAnaconda 环境&#xff1a;python3.8 opencv_python PyQt5文件&#xff1a; 1.完整程序文件&#xff08;.py等&#xff09; 2.UI界面源文件、图标&#xff08;.ui、.qrc、.py等&#xff09; 3.测试图…...