ccc-Tips for Deep Learning-李宏毅(8)
文章目录
- Recipe of Deep Learning
- Good Results on Training Data
- New activation function
- Adaptive Learning Rate
- Good Results on Testing Data
- Early Stopping
- Regularization
- Dropout
- why Dropout work?
- Reason for bias&variance
- Dropout is a kind of ensemble
Recipe of Deep Learning
Do not always blame overfitting
对于DL模型而言,测试集效果不好不一定是overfitting,可能和训练方式和模型结构有关,下图就是一个56层神经网络在测试集和训练集效果都不如26层的例子:

Good Results on Training Data
New activation function

当model使用sigmoid这个激活函数时会出现层数增加准确率反而减小的问题,问题来源是vanishing gradient problem(梯度消失)
vanishing gradient problem

图像中可以看到,输入的差值在经过sigmoid函数后会被缩小,这也导致model很深的时候,靠近input参数对于损失函数的影响很小(Backpropagation反向),而靠近output时梯度update确很快。所以导致训练结束时,前面的参数还是未收敛的random状态,形象解释如下:

Rectified Linear Unit (ReLU)

特点如下:
- 解决梯度消失问题
- 相当于无数bias不同的sigmoid叠加
- 计算快
- 使网络变得thinner
- 单个神经元是线性的,但整体网络还是非线性
- 直接放弃输出为0的neural
操作示意图如下:

ReLU - variant
大同小异,为了让0的那部分更加合理,有东西可学

Maxout
就是对于同一组输出选最大的当作下一组输入,示意图如下:

它相当于ReLU 的普遍状态,状态图(2 elements)如下:

Adaptive Learning Rate
这些优化算法在之前的文章有过更加详细全面的讲解
Good Results on Testing Data
Early Stopping

“testing set”效果最好时手动停止训练,这里的“testing set”指validation set模拟的testing set
Regularization
目的是让objective function平滑,通常去掉bias后效果更好
L2 regularization

ηλ\eta \lambdaηλ这项是很小的正数,最后会使参数wnw^nwn接近0 ,L2 regularization可以让weight每次都变得更⼩⼀点(由于第二项的存在,不会为0)也称Weight Decay(权重衰减)
L1 regularization

也是让参数变小,不过是通过减去ηλsgn(wt)\eta \lambda sgn(w^t)ηλsgn(wt)来使得绝对值靠近0
L1 V.s. L2
- 参数w的绝对值⽐较⼤的时候,L2下降得更快
- L1 training 出来的model,参数会有很大的值
Dropout
在training时,每一个Neuron都有机率p完全失效,得到thinner 的network;

testing时将weight乘(1-p),不需要dropout。之所以乘(1-p)中和未失效结点与失效结点的关系
why Dropout work?
Reason for bias&variance
复杂的model,bias小而variance大。多个复杂的model结合计算平均,可能使variance减小
Dropout is a kind of ensemble
对于M个neurons,使用Dropout 方式就有2M2^M2M可能的network;对这样多的minibatch计算平均结果是非常困难的,但testing时将weight乘(1-p)可以很大程度上估计它,原理示意如下:

形象解释如下:

相关文章:
ccc-Tips for Deep Learning-李宏毅(8)
文章目录Recipe of Deep LearningGood Results on Training DataNew activation functionAdaptive Learning RateGood Results on Testing DataEarly StoppingRegularizationDropoutwhy Dropout work?Reason for bias&varianceDropout is a kind of ensembleRec…...
ArkUI新能力,助力应用开发更便捷
ArkUI是一套构建分布式应用的声明式UI开发框架。它具备简洁自然的UI信息语法、丰富的UI组件、多维的状态管理,以及实时界面预览等相关能力,帮助您提升应用开发效率,并能在多种设备上实现生动而流畅的用户体验。随着HarmonyOS 3.1版本的发布&a…...
vue面试题大全
Vue面试题大全一.vue的基本原理二.双向数据绑定的原理三.使用object.defineProperty()来进行数据劫持有什么缺点?一.vue的基本原理 当一个vue实例创建的时候,vue会遍历data中的属性,用object.defineProperty,将它们转为getter/se…...
P1307 [NOIP2011 普及组] 数字反转
[NOIP2011 普及组] 数字反转 题目描述 给定一个整数 NNN,请将该数各个位上数字反转得到一个新数。新数也应满足整数的常见形式,即除非给定的原数为零,否则反转后得到的新数的最高位数字不应为零(参见样例 2)。 输入…...
【服务器数据恢复】NetApp存储无法访问的数据恢复案例
服务器数据恢复环境: NetApp某型号存储; 配备SAS硬盘,该硬盘520字节一个扇区; 所有的lun映射到小型机使用,存放Oracle数据库文件,采用ASM裸设备存储方式。 服务器故障: 管理员误操作删除NetApp…...
(考研湖科大教书匠计算机网络)第四章网络层-第三节2:分类编址的IPv4地址
获取pdf:密码7281专栏目录首页:【专栏必读】考研湖科大教书匠计算机网络笔记导航 文章目录一:分类IP地址概述二:各类地址详解(1)A类地址(2)B类地址(3)C类地址…...
Allegro移动器件时附带的孔和线被同步更改的原因和解决办法
Allegro移动器件时附带的孔和线被同步更改的原因和解决办法 用Allegro做PCB设计的时候,移动器件的时候,会出现附带的孔和线也会被同步更改,有时并不是期望的效果,如下图 Allegro其实将这个功能关闭即可,具体操作如下 选择Edit点击Move命令...
工程监测多通道振弦模拟信号采集仪VTN参数修改
工程监测多通道振弦模拟信号采集仪VTN参数修改 1 使用按键修改参数 使用按键修改某个参数的方法如下: (1)在系统参数查看页面(PXX 页面),按【SWITCH】或【SETTING】按键切换到要修改的参数项。 (…...
【算法】差分
作者:指针不指南吗 专栏:算法篇 🐾合理规划时间与精力🐾 1.什么是差分? 与前缀和是反函数 原数组a a1 , a2 , a3 , a4 , a5 , a6 , a7 构造数组b a1b1; a2b1b2; a3b1b2b3; … aib1b2b3…bi; 构造一个b数组使得&#…...
【LeetCode】剑指 Offer(1)
目录 写在前面: 题目1:剑指 Offer 03. 数组中重复的数字 - 力扣(Leetcode) 题目的接口: 解题思路: 代码: 过啦!!! 题目2:剑指 Offer 06. 从…...
linux rancher 清理docker容器磁盘空间
目录说明 /var/lib/docker/containers: 是 Docker 在 Linux 系统上默认存储容器信息的目录。在该目录下,每个运行的 Docker 容器都有一个单独的目录,以容器 ID 命名,其中包含有关该容器的元数据和日志文件。 具体来说࿰…...
移动端兼容性问题集锦
前言 去年主要工作就是混合开发,写app内嵌的h5。在开发期间多多少少遇到些兼容性问题,最近工作比较清闲,整理下方便以后查阅,也希望能帮助到一些同学。 并且本文会持续补充内容,欢迎关注我,另外我会更新一…...
【Spark分布式内存计算框架——Spark SQL】4. DataFrame(上)
3.1 DataFrame是什么 在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 使…...
GPS通信
目录 一、GPS启动的方式 二、GPS经纬度坐标转换 三、GPS定位和网络定位 四、3D定位和2D 定位 五、同步GPS时间到本地时间 六、卫星分布对GPS performance有很大影响吗 一、GPS启动的方式 热启动:指在上次关机的地方没有过多移动过,且距离上次定位…...
Java高频面试题,ReentrantLock 是如何实现锁公平和非公平性的?
我先解释一下个公平和非公平的概念。 公平,指的是竞争锁资源的线程,严格按照请求顺序来分配锁。 非公平,表示竞争锁资源的线程,允许插队来抢占锁资源。 ReentrantLock 默认采用了非公平锁的策略来实现锁的竞争逻辑。 其次&…...
「JVM 原理使用」 实际开发中的应用
Class 文件格式、执行引擎主要以 Class 文件描述了存储格式、类何时加载、如何连接、VM 如何执行字节码指令,这些动作基本都是 JVM 直接控制,用户代码无法干预和改变; 用户可以干预的只有字节码生成、类加载器两部分,而这两部分的…...
最最普通程序员,如何利用工资攒够彩礼,成为人生赢家
今天我们不讲如何提升你的专业技能去涨工资,不讲面试技巧如何跳槽涨工资,不讲如何干兼职赚人生第一桶金,就讲一个最最普通的程序员,如何在工作几年后,可以攒够彩礼钱,婚礼酒席钱,在自己人生大事…...
脏话越多,代码越好!
你在读开源代码的时候有没有遇到过这种注释?What the fuck ?Dude,WTFFuck this !我遇到过,每次都忍不住笑,心想老外可真是性情中人,遇到不爽的地方就开骂,还直接写到注释中,甚至代码中。Bob大叔…...
【Node.js】模块化
模块化模块化的基本概念模块化规范Node.js中模块化分类模块作用域向外共享模块作用域的成员Node.js中的模块化规范模块化的基本概念 指解决一个复杂问题时,自顶向下逐层把系统划分成若干模块的过程对于整个系统来说,模块是可组合,分解和更换…...
训练一个中文gpt2模型
前言 这是我的github上的一个介绍,关于如何训练中文版本的gpt2的。链接为: https://github.com/yuanzhoulvpi2017/zero_nlp 介绍 本文,将介绍如何使用中文语料,训练一个gpt2可以使用你自己的数据训练,用来:写新闻、…...
从DataFrame到MySQL:利用pandas与pymysql实现高效数据迁移
1. 为什么需要把DataFrame数据写入MySQL? 在日常数据分析工作中,我们经常使用pandas处理数据。DataFrame作为pandas的核心数据结构,提供了丰富的数据操作功能。但分析结果最终需要持久化存储时,MySQL这类关系型数据库仍然是企业级…...
告别调试助手:在Linux终端用minicom高效收发AT指令
1. 为什么选择minicom替代图形化串口工具 作为一名在嵌入式领域摸爬滚打多年的开发者,我经历过各种串口调试工具的折磨。从早期的Windows超级终端到现在的各种图形化串口助手,最终发现Linux下的minicom才是真正的高效利器。你可能要问:为什么…...
半导体行业数据解析:销售额与资本支出双高增长背后的逻辑
1. 行业数据深度解析:半导体销售额与资本支出的双高增长最近和几个在晶圆厂和设计公司工作的朋友聊天,大家不约而同地提到了一个词:“忙疯了”。订单排到明年,产线24小时连轴转,连带着上游的设备商和材料供应商都跟着“…...
PCL2启动器游戏启动失败的终极解决方案:3步快速修复指南
PCL2启动器游戏启动失败的终极解决方案:3步快速修复指南 【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher(PCL)。 项目地址: https://gitcode.com/gh_mirrors/pc/PCL Plain Craft Launcher 2(PCL2)…...
TIA Portal 多版本下载与安装全攻略
1. TIA Portal版本选择与下载准备 第一次接触西门子TIA Portal的工程师,面对从V15.1到V18多个版本时,往往会陷入选择困难。我刚开始用TIA Portal时也踩过不少坑,后来发现版本选择主要取决于两个因素:项目需求和硬件兼容性。如果是…...
Flutter从入门到实战-02-Flutter框架核心
Flutter 从入门到实战(二):Flutter 框架核心本文根据讲义目标是把“会搭环境、会写页面、会管理状态与路由、会做基础网络请求”串成一条完整上手路径。一、先把开发环境一次搭对 这部分讲义强调的核心思想是:环境问题越早解决&am…...
揭秘半导体IP授权:从PowerVR客户名单看移动芯片生态博弈
1. 项目概述:一场关于半导体IP版图的“侦探游戏”如果你在2012年前后关注过移动芯片和图形处理领域,那你一定对Imagination Technologies这家公司不陌生。当时,智能手机和平板电脑的浪潮正席卷全球,而决定这些设备图形显示能力的心…...
RANSAC算法调参指南:迭代次数和容差阈值到底怎么设?附Python/Matlab实例
RANSAC算法实战调参手册:从理论到代码的深度解析 在三维重建、自动驾驶和工业检测等机器视觉应用中,数据噪声和异常值一直是模型拟合的噩梦。传统最小二乘法就像一位过分认真的学生,试图让所有数据点都满意,结果却被少数离群点带偏…...
京东商品自动监控下单工具:告别手动刷新,让心仪商品自动到手
京东商品自动监控下单工具:告别手动刷新,让心仪商品自动到手 【免费下载链接】jd-happy [DEPRECATED]Node 爬虫,监控京东商品到货,并实现下单服务 项目地址: https://gitcode.com/gh_mirrors/jd/jd-happy 还在为抢不到心仪…...
开源协作平台smouj:微内核插件化架构与全栈部署实战
1. 项目概述:一个开源协作平台的诞生与价值 最近在开源社区里,一个名为“smouj/smouj”的项目引起了我的注意。乍一看这个标题,你可能会有点摸不着头脑,这不像我们常见的“vue/vue”或“tensorflow/tensorflow”那样一目了然。但恰…...
