机器学习笔记:初始化0的问题
1 前言
假设我们有这样的两个模型:
- 第一个是逻辑回归
- 第二个是神经网络
他们的损失函数都是交叉熵

sigmoid函数的导数:

他们能不能用0初始化呢?
2 逻辑回归
2.1 求偏导
2.1.1 结论

2.1.2 L对a的偏导
![]()

2.1.3 对w1,w2求偏导

w2同理
2.1.4 对b偏导

2.2 参数更新与分析


w1,w2,b的梯度和w1,w2,b无关,所以初始化成0之后没有影响
3 神经网络

3.1 偏导
a3的部分和前面逻辑回归是一样的


3.1.1 a1部分推导
3.1.1.1 对a1的偏导


3.1.1.2 对w11,w21,b1的推导

3.2 初始化为0
3.2.1 w初始化为0,b初始化为0

3.2.2w初始化为0,b随机初始化

3.3 w随机初始化,b初始化为0
前向传播过程中,a1,a2均不为0,反向传播的过程中各参数均可以更新
更新幅度也不一样
参考内容:神经网络权重为什么不能初始化为0? (qq.com)
相关文章:
机器学习笔记:初始化0的问题
1 前言 假设我们有这样的两个模型: 第一个是逻辑回归 第二个是神经网络 他们的损失函数都是交叉熵 sigmoid函数的导数: 他们能不能用0初始化呢? 2 逻辑回归 2.1 求偏导 2.1.1 结论 2.1.2 L对a的偏导 2.1.3 对w1,w2求偏导 w2同…...
JavaWeb—js(3)
Bom dom: document object model(文档对象模型), 是处理html、xml的标准编写接口。 节点和元素 整个页面也就是整个文档我们称之为文档节点; 文档节点使用document来表示; 页面中的所有标签我们称之为元素,使用element来表示; 如此处的文本、属性、注释等&…...
PLSQL Day4
--使用显式游标更新行,对所有salesman增加500奖金: declare cursor s_cursor is select * from emp where job SALESMAN for update; begin for e_s in s_cursor loop update emp set comm nvl(comm,0)500 where current of s_cur…...
git合并报错:git -c core.quotepath=false -c log.showSignature=false merge r
这个错误通常发生在 Git 尝试合并两个没有共同祖先的历史时,比如在合并不同的分支或仓库时,可以尝试以下几种方法: 允许不相关历史的合并: git merge release-3.6 --allow-unrelated-histories这个选项告诉 Git 允许合并两个没有共同历史的分…...
云原生存储:使用MinIO与Spring整合
在现代云原生应用开发中,高效、可靠的存储解决方案是至关重要的。MinIO是一个高性能、分布式的对象存储系统,它与Amazon S3兼容,非常适合在Kubernetes等云原生环境中使用。本文将详细介绍如何在Spring Boot应用中整合MinIO,并提供…...
等保测评新趋势:应对数字化转型中的安全挑战
随着信息技术的飞速发展,数字化转型已成为企业提升竞争力、优化运营效率的重要手段。然而,这一转型过程中,企业也面临着前所未有的安全挑战。等保测评(信息安全等级保护测评)作为保障信息系统安全的重要手段࿰…...
使用esptool工具备份ESP32的固件(从芯片中备份下来固件)
本文以Windows电脑为例 板子为esp32-c3 1下载python 可在官网中下载,此处不进行讲解 使用如下代码查看是否安装了 Python(终端输入) python 2下载esptool 在终端输入如下代码即可下载 使用 pip(推荐): 在你已经安装的 Pyth…...
JS进阶-解析赋值
学习目标: 掌握解析赋值 学习内容: 解构赋值数组解构对象解构筛选数组filter方法(重点) 解构赋值: 解构赋值是一种快速为变量赋值的简洁语法,本质上仍然是为变量赋值。 分为: 数组解构对象解…...
Java虚拟机面试题汇总
目录 1. JVM的主要组成部分及其作用? 1.1 运行时数据区划分? 1.2 哪些区域可能会发生OOM? 1.3 堆和栈的区别? 1.4 内存模型中的happen-before是什么? 2. HotSpot虚拟机对象创建流程? 2.1 类加载过程…...
C++休眠的方法
Windows的API函数 Sleep(INFINITE); 休眠时间为永久 Linux的API函数sleep 没有直接表示无限时间的参数,根据POSIX标准,sleep() 函数的参数应该是 unsigned int 类型,因此最大可以接受的参数值是 UINT_MAX,即 4294967295 秒。sleep…...
选择排序(C语言版)
选择排序是一种简单直观的排序算法 算法实现 首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置。 再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。 重复第二步&…...
基于CentOS Stream 9平台搭建FRP内网穿透
内网穿透方法很多,本文以github上很火的frp为例 1.frp官方 文档:https://gofrp.org/zh-cn/docs/overview/ 1.1 下载 https://github.com/fatedier/frp/releases 选中合适的版本 2. 服务端(服务器)搭建frps 需要公网IP服务器 选…...
Redis管理禁用命令
在redis数据量比较大时,执行 keys * ,fluashdb 这些命令,会导致redis长时间阻塞,大量请求被阻塞,cpu飙升,严重可能导致redis宕机,数据库雪崩。所以一些命令在生产环境禁止使用。 Redis 禁用命令…...
RFID智能锁控系统在物流安全运输中的应用与效益分析
一、物流锁控系统现状与挑战 1.1 传统锁控系统的局限性 安全性不足:机械锁容易被撬开或钥匙被复制,导致货物在运输过程中面临被盗风险。 无法实时追踪:一旦货物离开发货点,物流公司无法实时监控货物状态,增加了货物…...
WPF设置全局样式
目的 创建一个资源字典,自动引入到各个Window或者UserControl中,可以随意使用。或者引入多个控件包,为了做兼容,保证可以引用多个控件库。 1. 定义资源字典 首先,你需要创建一个XAML文件来定义你的资源字典…...
【福利】代码公开!咸鱼之王自动答题脚本
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 微信或QQ打开咸鱼之王小程序,进入答题界面,运行main.py。期间不要动鼠标。 可自行更改代码来适配自己的需求~ 可以按照示例图片…...
ChatGPT-4o大语言模型优化、本地私有化部署、从0-1搭建、智能体构建技术
在过去几年中,人工智能领域的发展迅猛,尤其是大语言模型的应用,为各行各业带来了前所未有的创新与突破。从ChatGPT-3.5的推出到GPT Store的上线,再到最新的多模态交互ChatGPT-4o,OpenAI不断引领科技潮流,推…...
使用clion刷leetcode
如何优雅的使用clion刷leetcode 安装插件:LeetCode Editor) 插件配置: 这样我们每打开一个项目,就会创建类似的文件 我们的项目结构: 我们在题解文件中导入头文件myHeader.h并将新建的文件添加到cmakelists.txt文件,…...
图解HTTP(5、与 HTTP 协作的 Web 服务器 6、HTTP 首部)
5、与 HTTP 协作的 Web 服务器 一台 Web 服务器可搭建多个独立域名的 Web 网站,也可作为通信路径上的中转服务器提升传输效率。 用单台虚拟主机实现多个域名 在相同的 IP 地址下,由于虚拟主机可以寄存多个不同主机名和域名的 Web 网站,因此…...
JS之防抖和节流
防抖 (debounce) 所谓防抖,就是指触发事件后在 n 秒内函数只能执行一次,如果在 n 秒内又触发了事件,则会重新计算函数执行时间。 ps: 重置普攻,百度翻译要输完停止一定时间后才翻译。 没有防抖和节流的缺点: 函数触发…...
Gear-Lib系统抽象层揭秘:POSIX适配与硬件抽象设计思想
Gear-Lib系统抽象层揭秘:POSIX适配与硬件抽象设计思想 【免费下载链接】gear-lib Gear-Lib, C library for IOT Embedded Multimedia and Network 项目地址: https://gitcode.com/gh_mirrors/ge/gear-lib Gear-Lib作为面向物联网嵌入式多媒体与网络的C语言库…...
Windows 7如何突破Python版本限制?企业级兼容性解决方案指南
Windows 7如何突破Python版本限制?企业级兼容性解决方案指南 【免费下载链接】PythonVista Python 3.9 installers that support Windows 7 SP1 and Windows Server 2008 R2 项目地址: https://gitcode.com/gh_mirrors/py/PythonVista 一、痛点分析ÿ…...
小白也能懂!CosyVoice2-0.5B API调用全攻略,快速生成克隆语音
小白也能懂!CosyVoice2-0.5B API调用全攻略,快速生成克隆语音 1. 准备工作:认识CosyVoice2-0.5B CosyVoice2-0.5B是阿里开源的一款强大的语音克隆工具,它能让你用短短3-10秒的参考音频,就能克隆出几乎一模一样的声音…...
新手零基础入门:跟着快马生成的互动教程完成jdk17下载安装与第一个程序
作为一名Java初学者,第一次接触JDK安装可能会觉得有些迷茫。最近我在InsCode(快马)平台上尝试了一个JDK17安装教程项目,整个过程比我预想的要简单很多。下面就把我的学习笔记分享给大家,希望能帮助到同样刚入门的朋友。 JDK17下载步骤 首先需…...
攻防世界 reverse题GFSJ0810-【crazy】
1.工具:exeinfope、IDA Pro (64-bit)、thonny2.解题:下载附件后,我们先在exeinfope里查壳,如下我们发现是64位无壳文件,然后我们把它放到IDA Pro (64-bit)里分析,我们点击F5先查看伪代码,如下代…...
思源宋体TTF终极指南:7字重开源字体深度解析与实战应用
思源宋体TTF终极指南:7字重开源字体深度解析与实战应用 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为商业项目寻找既专业又免版税的中文字体解决方案吗?…...
Vue 3项目性能优化:给你的Live2D看板娘‘瘦身’并加速加载的3个实用技巧
Vue 3项目性能优化:Live2D看板娘轻量化与加速加载实战指南 当你的博客或展示型网站成功集成了Live2D看板娘后,是否遇到过页面加载变慢、资源过大或移动端体验不佳的问题?作为一位长期在Vue项目中优化动态元素性能的开发者,我深知在…...
保姆级教程:用Brainstorm搞定运动想象EEG分析,从时频图到分类器实战
保姆级教程:用Brainstorm搞定运动想象EEG分析,从时频图到分类器实战 运动想象脑电(EEG)分析是脑机接口(BCI)研究中的经典课题,也是许多研究生和初学者的第一个实战项目。但面对复杂的信号处理和…...
4个Dify工作流配置策略:从基础请求到复杂数据处理的高效实践
4个Dify工作流配置策略:从基础请求到复杂数据处理的高效实践 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome…...
Qwen3-Reranker-8B保姆级教程:开源镜像免配置快速部署指南
Qwen3-Reranker-8B保姆级教程:开源镜像免配置快速部署指南 你是不是也遇到过这样的问题:面对海量的搜索结果或文档列表,不知道哪一条才是真正相关的?传统的搜索排序往往不够精准,而自己搭建一个智能的“重排序”模型&…...
