当前位置: 首页 > news >正文

动手学深度学习(第二版)学习笔记 第三章

第三章 线性神经网络

代码:d2l-zh/pytorch/chapter_linear-networks

3.1 线性回归

3.1. 线性回归 — 动手学深度学习 2.0.0 documentation

解析解

线性回归的解可以用一个公式简单地表达出来,这类解叫作解析解(analytical solution)。
首先,我们将偏置b合并到参数w中,合并方法是在包含所有参数的矩阵中附加一列。我们的预测问题是最小化。
这在损失平面上只有一个临界点,这个临界点对应于整个区域的损失极小点。
将损失关于∣∣y−Xw∣∣2||\bold y-\bold Xw||^2∣∣yXw2的导数设为0,得到解析解:

w∗=(XTX)−1XTy\bold w^*=(\bold X^T \bold X)^{-1} \bold X^T \bold y w=(XTX)1XTy

像线性回归这样的简单问题存在解析解,但并不是所有的问题都存在解析解。解析解可以进行很好的数学分析,但解析解对问题的限制很严格,导致它无法广泛应用在深度学习里。

随机梯度下降

算法的步骤如下: (1)初始化模型参数的值,如随机初始化; (2)从数据集中随机抽取小批量样本且在负梯度的方向上更新参数,并不断迭代这一步骤。

最优化方法一:梯度下降法_意念回复的博客-CSDN博客_梯度下降优化算法

矢量化加速

SIMD

在训练我们的模型时,我们经常希望能够同时处理整个小批量的样本。 为了实现这一点,需要我们对计算进行矢量化, 从而利用线性代数库,而不是在Python中编写开销高昂的for循环。

%matplotlib inline
import math
import time
import numpy as np
import torchn = 10000
a = torch.ones([n])
b = torch.ones([n])c = torch.zeros(n)
timer = Timer()
for i in range(n):c[i] = a[i] + b[i]
f'{timer.stop():.5f} sec'
# '0.09661 sec'timer.start()
d = a + b
f'{timer.stop():.5f} sec'# '0.00021 sec'

结果很明显,第二种方法比第一种方法快得多。 矢量化代码通常会带来数量级的加速。 另外,我们将更多的数学运算放到库中,而无须自己编写那么多的计算,从而减少了出错的可能性。

3.2 线性回归的从零开始实验

3.2. 线性回归的从零开始实现 — 动手学深度学习 2.0.0 documentation

课后题

如果我们将权重初始化为零,会发生什么。算法仍然有效吗?

谈谈神经网络权重为什么不能初始化为0

在单层网络中(一层线性回归层),将权重初始化为零时可以的,但是网络层数加深后,在全连接的情况下,在反向传播的时候,由于权重的对称性会导致出现隐藏神经元的对称性,使得多个隐藏神经元的作用就如同1个神经元,算法还是有效的,但是效果不大好。

3.3 线性回归的简洁实现

3.3. 线性回归的简洁实现 — 动手学深度学习 2.0.0 documentation

为什么机器学习优化算法都采取梯度下降(一阶导算法),而不采用牛顿法(二阶导算法),收敛速度更快,一般能算出一阶导, 二阶导也应该能算。

为什么机器学习中通常使用梯度下降进行训练

高阶导数信息的准确估计需要训练数据的批量更大

复杂高维神经网络的代价函数具有极多鞍点使高阶方法失效

其实核心还是神经网络参数数量大造成高阶方法计算、存储成本难以接受

如果样本大小不是批量数的整数倍,那需要随机剔除多余的样本吗?

如果是100个样本且batchsize=60 :

(1)就取剩下的40个(2)丢掉剩下的40个(3)从下一个epoch再补20个

3.4 softmax回归

在这里插入图片描述

全连接层的参数开销

正如我们将在后续章节中看到的,在深度学习中,全连接层无处不在。 然而,顾名思义,全连接层是“完全”连接的,可能有很多可学习的参数。 具体来说,对于任何具有ddd个输入和qqq个输出的全连接层, 参数开销为O(dq)O(dq)O(dq),这个数字在实践中可能高得令人望而却步。 幸运的是,将ddd个输入转换为qqq个输出的成本可以减少到O(dqn)O(\frac{dq}{n})O(ndq), 其中超参数nnn可以由我们灵活指定,以在实际应用中平衡参数节约和模型有效性。

softmax运算

在这里插入图片描述

Huber’s Robust Loss

在这里插入图片描述

3.7 softmax回归的简洁实现

重新审视Softmax的实现

在这里插入图片描述

相关文章:

动手学深度学习(第二版)学习笔记 第三章

第三章 线性神经网络 代码:d2l-zh/pytorch/chapter_linear-networks 3.1 线性回归 3.1. 线性回归 — 动手学深度学习 2.0.0 documentation 解析解 线性回归的解可以用一个公式简单地表达出来,这类解叫作解析解(analytical solution&…...

冯诺依曼体系结构与操作系统的概念及理解

一、 冯诺依曼体系结构1、概念2、内存的作用3、硬件原理解释软件行为二、操作系统的概念及基本作用1、概念2、设计操作系统的目的3、操作系统的主要作用4、什么是管理5、管理的目的6、操作系统如何为我们服务一、 冯诺依曼体系结构 我们常见的计算机,如笔记本。我们…...

【深度探讨】如何利用区块链改善公共服务

发表时间:2022年5月4日 信息来源:bsvblockchain.org BSV区块链协会全力支持符合企业和政府对于节能降耗和合法合规等相关要求的区块链生态系统。 然而,虽然监管机构负责其监管范围内的技术服务的性质、目的和影响,但他们并不是全…...

【打卡】图分析与节点嵌入

背景介绍 图(Graphs)是一种对物体(objects)和他们之间的关系(relationships)建模的数据结构,物体以结点(nodes)表示,关系以边(edges)…...

python元编程详解

什么是元编程 软件开发中很重要的一条原则就是“不要重复自己的工作(Don’t repeat youself)”,也就是说当我们需要复制粘贴代码时候,通常都需要寻找一个更加优雅的解决方案,在python中,这类问题常常会归类…...

为什么文档对 SaaS 公司至关重要?

在过去十年左右的时间里,SaaS的兴起使全球数百家公司成为家喻户晓的公司。但他们并不是仅仅依靠产品的力量到达那里的。客户服务和支持是使一切在幕后顺利进行的原因——其中很大一部分是文档。以正确的风格和正确的位置在您的网站上找到适当的用户文档对于将浏览器…...

Echarts 实现电池效果的柱状图

第022个点击查看专栏目录本示例是解决显示电池电量状态的柱状图,具体的核心代码请参考源代码。 文章目录示例效果示例源代码(共102行)相关资料参考专栏介绍示例效果 示例源代码(共102行) /* * Author: 还是大剑师兰特…...

计算机网络高频知识点(一)

目录 一、http状态码 二、浏览器怎么数据缓存 三、强缓存与协商缓存 1、强缓存 2、协商缓存 四、简单请求与复杂请求 五、PUT 请求类型 六、GET请求类型 七、GET 和 POST 的区别 八、跨域 1、什么时候会跨域 2、解决方式 九、计算机网络的七层协议与五层协议分别指…...

JavaScript split()方法

JavaScript split()方法 目录JavaScript split()方法一、定义和用法二、语法三、参数值四、返回值五、更多实例5.1 省略分割参数5.2 使用limit参数5.3 使用一个字符作为分割符一、定义和用法 split() 方法用于把一个字符串分割成字符串数组。 二、语法 string.split(separat…...

前端面试题 —— 性能优化

目录 一、CDN的作用 二、CDN的使用场景 三、懒加载的概念 四、懒加载与预加载的区别 五、documentFragment 是什么?用它跟直接操作 DOM 的区别是什么? 六、常见的图片格式及使用场景 七、懒加载的特点 八、如何优化动画? 九、如何提⾼…...

我的周刊(第080期)

我的信息周刊,记录这周我看到的有价值的信息,主要针对计算机领域,内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。🎯 项目stable-diffusion-webui-docker[1]基于 Docker 的一…...

操作系统——7.进程的定义,组成,组成方式和特征

目录 1.概述 ​编辑2.定义 2.1单道程序 2.2多道程序 2.3进程定义 3.进程的组成 3.1进程的组成内容 3.2 PCB中的内容 4.进程的组织 4.1进程的两种组织方式 4.2链接方式 4.3索引方式 5.进程的特征 6.小结 这篇文章,我们主要来学习一下进程的定义&#xff0…...

CRI-O, Containerd, Docker, Postman等概念介绍

参考:Docker,containerd,CRI,CRI-O,OCI,runc 分不清?看这一篇就够了Docker, containerd, CRI-O and runc之间的区别? Docker、Podman、Containerd 谁才是真正王者?CRI-O …...

【原创】java+swing+mysql设备预约管理系统设计与实现

我们在办公室或者学校实验室的,经常需要使用一些设备,因此需要提前租借。今天我们主要介绍如何使用javaswing和mysql数据库去完成一个设备预约管理系统,方便用户进行设备管理和预约。 功能分析: 设备预约管理系统主要是为了方便…...

7、kubernetes(k8s)Dashboard 安装

本文内容以语雀为准 说明 Kubernetes Dashboard 是一个通用的、基于Web的UI,用于Kubernetes集群管理。 它允许用户管理群集中运行的应用程序并对其进行故障排除,以及管理群集本身。 不同 Kubernetes Dashboard 支持的 Kubernetes 版本不同,…...

数学小课堂:虚数的媒介工具作用(虚构一个现实中不存在的概念,来解决现实问题)

文章目录 引言I 预备知识1.1 平方根1.2 三次方程1.3 极坐标II 虚数2.1 虚数的来源2.2 理解虚数存在的必要性2.3 虚数的影响III 复数3.1 人类认知升级的过程3.2 数字的扩展历史3.3 复数的用途引言 虚数的来源和存在的必要性:三次方程是一定有实数解的,因此根号里面负数的问题…...

3.抽象工厂模式(Abstract Factory)

与工厂模式对比 工厂模式 工厂模式是类创建模式。在工厂模式中,只需要生产同一种产品,只不过是生产厂家不同。 所以产品类的设计: 抽象的产品类Product具体的产品类Product_A,Product_B, Product_C, Product_D…… 工厂的设计…...

synchronized底层如何实现?什么是锁的升级、降级?

第16讲 | synchronized底层如何实现?什么是锁的升级、降级? 我在上一讲对比和分析了 synchronized 和 ReentrantLock,算是专栏进入并发编程阶段的热身,相信你已经对线程安全,以及如何使用基本的同步机制有了基础&#…...

node环境搭建以及接口的封装

node环境搭建 文章目录node环境搭建1.在cmd中输入命令安装express(全局)2.在自己的项目下安装serve3.测试接口4.连接mysql4.1 创建数据表4.2 在serve目录下建db下的sql.js4.3 sql.js4.4 在serve路径下安装mysql4.5 在routes 中引入并发送请求4.6 请求到数…...

跟着我从零开始入门FPGA(一周入门系列)第七天

7、设计一个只有4条指令的CPU我们要设计一个简单的CPU既然做CPU,我们要做流水线的,要简单,做2级流水线就够了。为了实例的简单,我们选择设计一个8bit的MCU的内核仍然我们要简单,所以选择RISC的内核,类似PIC…...

学习复盘:SQL 注入原理、类型、手工注入及绕过防御

一、前言今天系统继续学习了 Web 安全核心漏洞 SQL 注入,主要的内容就是手动注入SQL 注入是Web 渗透最基础也最重要的漏洞,几乎所有动态网站都曾出现过,是学习网安很重要的一部分二、理解SQL注入1. 简单理解 SQLSQL 是操作关系型数据库的语言…...

从AD到嘉立创:一个嵌入式工程师的紫色PCB打样与SMT贴片全记录

从AD到嘉立创:一个嵌入式工程师的紫色PCB打样与SMT贴片全记录 作为一名嵌入式开发者,我们往往更熟悉代码和算法,但当需要将设计转化为实体电路板时,硬件生产流程却可能让人望而生畏。本文将分享我使用Altium Designer设计电路并通…...

OpenClaw从入门到应用——工具(Tools):LLM Task

通过OpenClaw实现副业收入:《OpenClaw赚钱实录:从“养龙虾“到可持续变现的实践指南》 llm-task 是一个可选插件工具,用于运行纯 JSON 格式的 LLM 任务,并返回结构化输出(可选择是否依据 JSON Schema 进行验证&#x…...

AI智能体集中管控平台:基于TUI的Cursor多智能体协同管理方案

1. 项目概述:一个为开发者设计的AI智能体集中管控平台如果你和我一样,在日常开发中重度依赖Cursor这样的AI编程助手,那你肯定遇到过这个痛点:当项目复杂起来,需要同时运行多个不同职责的AI智能体(Agent&…...

告别串口助手:用匿名上位机V7自定义协议,打造你的多通道数据可视化仪表盘

匿名上位机V7实战:构建多通道工业级数据监测系统的完整指南 在嵌入式开发领域,数据可视化一直是调试过程中的关键环节。传统串口助手虽然简单易用,但当面对电机控制、环境监测等需要同时观察多个动态参数的场景时,其局限性就暴露无…...

RK3568开发板AMP双系统烧写实战:从原理到调试全解析

1. 项目概述:从单核到异构,解锁开发板的并行处理潜能最近在折腾一块瑞芯微RK3568的开发板,具体型号是迅为的iTOP-3568。这块板子性能不错,四核A55的架构,在嵌入式领域算是中坚力量了。但玩着玩着,我发现了一…...

SAP策略50实战:手把手教你配置M+M模式,搞定按订单装配的物料需求计划

SAP策略50实战:MM模式下的按订单装配物料需求计划精解 当客户需要一台定制化电脑时,制造商面临两难:提前备货可能造成库存积压,临时采购又无法满足交付周期。SAP的策略50(MM模式)正是为解决这一矛盾而生——…...

NotebookLM播客化SOP泄露:内部团队禁用但高管强推的5层语义分段法

更多请点击: https://intelliparadigm.com 第一章:NotebookLM播客化转型的底层逻辑与风险警示 NotebookLM 的播客化转型并非简单地将文本摘要转为语音输出,而是依托其语义锚点(Semantic Anchoring)机制,重…...

Godot游戏解包终极指南:3步提取.pck文件所有资源

Godot游戏解包终极指南:3步提取.pck文件所有资源 【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker 你是否下载过Godot引擎开发的游戏,想要研究其中的美术资源、脚本代码或音效素…...

红日靶场(vulnstack)实战复盘:从外网突破到域控的完整攻击链剖析

1. 红日靶场环境搭建与拓扑解析 红日靶场(vulnstack)是国内知名的渗透测试实战平台,模拟了真实企业网络环境中常见的漏洞场景。这个靶场特别适合想要系统学习内网渗透技术的新手,我自己第一次接触时就被它贴近实战的设计惊艳到了。…...