当前位置：首页 > news >正文

李沐动手学习深度学习——4.2练习

news 2025/7/18 7:18:03

1. 在所有其他参数保持不变的情况下，更改超参数num_hiddens的值，并查看此超参数的变化对结果有何影响。确定此超参数的最佳值。

通过改变隐藏层的数量，导致就是函数拟合复杂度下降，隐藏层过多可能导致过拟合，而过少导致欠拟合。
我们将层数改为128可得：
在这里插入图片描述

2. 尝试添加更多的隐藏层，并查看它对结果有何影响。

过拟合，导致测试机精确度下降。

3. 改变学习速率会如何影响结果？保持模型架构和其他超参数（包括轮数）不变，学习率设置为多少会带来最好的结果？

过高的学习率导致，梯度跨度过大，使得降低不到对应的驻点。
过低的学习率导致训练缓慢，需要增加epoch。
在训练轮数不变的情况下，我们可以通过for 设置不同的学习率找出最合适的学习率。一般来说设置为0.01或者0.1足以

4. 通过对所有超参数（学习率、轮数、隐藏层数、每层的隐藏单元数）进行联合优化，可以得到的最佳结果是什么？

跑了一次学习率lr=0.01的情况：
在这里插入图片描述

需要大量的训练，但是目前我训练结果是学习率lr=0.1、轮数是num_epochs=10，隐藏层数为1，隐藏层数单元num_hiddens=128。

5. 描述为什么涉及多个超参数更具挑战性。

因为组合的情况更多，当层数越多时，训练时间也更多，这玩意就是炼丹了，看你自己的GPU还有时间、运气。

6. 如果想要构建多个超参数的搜索方法，请想出一个聪明的策略。

套用for 循环暴力破解，时间上肯定慢的要死，我们可以先固定其他变量，挑选一个变量寻找最优解，以此类推对所有的超参数这样使用，但是这种做法肯定不是最优的，只是能够较好的找出比较好的超参数。

由于学校穷逼所以没有闲置GPU服务器，所有的模型只能在colab上进行运行，其中遇到了d2l的版本对应问题，所以对于d2l.train_ch3跑不起来，只能使用自写进行替代如下：

import torch.nn
from d2l import torch as d2l
from IPython import displayclass Accumulator:"""在n个变量上累加"""def __init__(self, n):self.data = [0.0] * n       # 创建一个长度为 n 的列表，初始化所有元素为0.0。def add(self, *args):           # 累加self.data = [a + float(b) for a, b in zip(self.data, args)]def reset(self):                # 重置累加器的状态，将所有元素重置为0.0self.data = [0.0] * len(self.data)def __getitem__(self, idx):     # 获取所有数据return self.data[idx]def accuracy(y_hat, y):"""计算正确的数量:param y_hat::param y::return:"""if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:y_hat = y_hat.argmax(axis=1)            # 在每行中找到最大值的索引，以确定每个样本的预测类别cmp = y_hat.type(y.dtype) == yreturn float(cmp.type(y.dtype).sum())def evaluate_accuracy(net, data_iter):"""计算指定数据集的精度:param net::param data_iter::return:"""if isinstance(net, torch.nn.Module):net.eval()                  # 通常会关闭一些在训练时启用的行为metric = Accumulator(2)with torch.no_grad():for X, y in data_iter:metric.add(accuracy(net(X), y), y.numel())return metric[0] / metric[1]class Animator:"""在动画中绘制数据"""def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,ylim=None, xscale='linear', yscale='linear',fmts=('-', 'm--', 'g-', 'r:'), nrows=1, ncols=1,figsize=(3.5, 2.5)):# 增量的绘制多条线if legend is None:legend = []d2l.use_svg_display()self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)if nrows * ncols == 1:self.axes = [self.axes, ]# 使用lambda函数捕获参数self.config_axes = lambda: d2l.set_axes(self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)self.X, self.Y, self.fmts = None, None, fmtsdef add(self, x, y):"""向图表中添加多个数据点:param x::param y::return:"""if not hasattr(y, "__len__"):y = [y]n = len(y)if not hasattr(x, "__len__"):x = [x] * nif not self.X:self.X = [[] for _ in range(n)]if not self.Y:self.Y = [[] for _ in range(n)]for i, (a, b) in enumerate(zip(x, y)):if a is not None and b is not None:self.X[i].append(a)self.Y[i].append(b)self.axes[0].cla()for x, y, fmt in zip(self.X, self.Y, self.fmts):self.axes[0].plot(x, y, fmt)self.config_axes()display.display(self.fig)display.clear_output(wait=True)def train_epoch_ch3(net, train_iter, loss, updater):"""训练模型一轮:param net:是要训练的神经网络模型:param train_iter:是训练数据的数据迭代器，用于遍历训练数据集:param loss:是用于计算损失的损失函数:param updater:是用于更新模型参数的优化器:return:"""if isinstance(net, torch.nn.Module):  # 用于检查一个对象是否属于指定的类（或类的子类）或数据类型。net.train()# 训练损失总和， 训练准确总和， 样本数metric = Accumulator(3)for X, y in train_iter:  # 计算梯度并更新参数y_hat = net(X)l = loss(y_hat, y)if isinstance(updater, torch.optim.Optimizer):  # 用于检查一个对象是否属于指定的类（或类的子类）或数据类型。# 使用pytorch内置的优化器和损失函数updater.zero_grad()l.mean().backward()  # 方法用于计算损失的平均值updater.step()else:# 使用定制（自定义）的优化器和损失函数l.sum().backward()updater(X.shape())metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())# 返回训练损失和训练精度return metric[0] / metric[2], metric[1] / metric[2]def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):"""训练模型（）:param net::param train_iter::param test_iter::param loss::param num_epochs::param updater::return:"""animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],legend=['train loss', 'train acc', 'test acc'])for epoch in range(num_epochs):trans_metrics = train_epoch_ch3(net, train_iter, loss, updater)test_acc = evaluate_accuracy(net, test_iter)animator.add(epoch + 1, trans_metrics + (test_acc,))train_loss, train_acc = trans_metricsprint(trans_metrics)def predict_ch3(net, test_iter, n=6):"""进行预测:param net::param test_iter::param n::return:"""global X, yfor X, y in test_iter:breaktrues = d2l.get_fashion_mnist_labels(y)preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))titles = [true + "\n" + pred for true, pred in zip(trues, preds)]d2l.show_images(X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])d2l.plt.show()

李沐动手学习深度学习——4.2练习

1. 在所有其他参数保持不变的情况下，更改超参数num_hiddens的值，并查看此超参数的变化对结果有何影响。确定此超参数的最佳值。通过改变隐藏层的数量，导致就是函数拟合复杂度下降，隐藏层过多可能导致过拟合，而过少导…...

编程日记 2024/3/6 23:49:46

CYQ.Data 支持 DaMeng 达梦数据库

DaMeng 达梦数据库介绍：达梦数据库（DMDB）是中国自主研发的关系型数据库管理系统，由达梦科技股份有限公司开发。达梦数据库提供了企业级的数据库解决方案，广泛应用于金融、电信、政府、制造等行业领域。达梦数据库具有以下特点和优势：高性能：具备高性能的并发处理…...

编程日记 2024/3/6 23:47:45

计网面试题整理上

1. 计算机网络的各层协议及作用？ 计算机网络体系可以大致分为一下三种，OSI七层模型、TCP/IP四层模型和五层模型。 OSI七层模型：大而全，但是比较复杂、而且是先有了理论模型，没有实际应用。TCP/IP四层模型&#xff1a…...

编程日记 2024/3/6 23:46:44

code: 500 ] This subject is anonymous - it does not have any identifying

项目场景： 相关背景： 使用idea 开发java 项目，前端页面请求页面中相关的接口时，idea 控制台有报错信息出现，前端请求失败。问题描述问题： 使用idea 开发java 项目，前端页面请求页面中相…...

编程日记 2024/3/6 23:45:43

FC-AE-1553 协议

FC-AE-1553 协议 MIL-STD-1553B总线协议总线结构字格式消息传输方式 FC协议FC协议栈拓扑结构服务类型帧/序列/交换FC帧格式 FC-AE-1553网络构成帧类型命令帧状态帧数据帧 Information UnitsNC1NC2NC3-4NC5-7NT1-7 传输模式1. NC-NT2. NT-NC3. NT-NT4. 无数据字的模式命令5. 带数…...

编程日记 2024/3/6 23:41:39

代码随想录算法训练营day38|理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

理论基础代码随想录视频：从此再也不怕动态规划了，动态规划解题方法论大曝光 ！| 理论基础 |力扣刷题总结| 动态规划入门_哔哩哔哩_bilibili 动态规划：如果某一问题有很多重叠子问题，使用动态规划是最有效的。所以动态…...

编程日记 2024/3/6 23:38:36

夫妻一方名下股权到底归谁？

生效判决摘要：1.夫妻一方在婚姻关系存续期间投资的收益，为夫妻的共同财产，归夫妻共同所有，但是并不能据此否定股权本身可能成为夫妻共同财产。婚姻关系存续期间登记在配偶一方名下的股权能否成为夫妻共同财产，可由司法…...

编程日记 2024/3/6 23:34:32

git根据文件改动将文件自动添加到缓冲区

你需要修改以下脚本中的 use_cca: false 部分 #!/bin/bash# 获取所有已修改但未暂存的文件 files$(git diff --name-only)for file in $files; do# 检查文件中是否存在"use_cca: false"if grep -q "use_cca: false" "$file"; thenecho "Ad…...

编程日记 2024/3/6 23:31:29

SystemVerilog Constants、Processes

SystemVerilog提供了三种类型的精化时间常数： •参数：与最初的Verilog标准相同，可以以相同的方式使用。 •localparameter：与参数类似，但不能被上层覆盖模块。 •specparam：用于指定延迟和定时值&#x…...

编程日记 2024/3/6 23:29:28

交易平台开发：构建安全/高效/用户友好的在线交易生态圈

在数字化浪潮的推动下，农产品现货大宗商品撮合交易平台已成为连接全球买家与卖家的核心枢纽。随着电子商务的飞速发展，一个安全、高效、用户友好的交易平台对于促进交易、提升用户体验和增加用户黏性至关重要。本文将深入探讨交易平台开发的关键要素&…...

编程日记 2024/3/6 23:27:26

Linux系统之部署复古游戏平台

Linux系统之部署复古游戏平台前言一、项目介绍1.1 项目简介1.2 项目特点1.3 游戏平台介绍二、本次实践介绍二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍三、本地环境检查3.1 安装Docker环境3.2 检查Docker服务状态3.3 检查Docker版本3.4 检查docker compose 版本四、构建…...

编程日记 2024/3/6 23:26:25

开源计算机视觉库opencv-python详解

开源计算机视觉库opencv-python详解 OpenCV-Python的核心功能：安装OpenCV-Python：使用OpenCV-Python的基本步骤：OpenCV-Python的高级应用：注意事项：OpenCV-Python的高级应用示例：1. 人脸识别2. 目标跟踪3. …...

编程日记 2024/3/6 23:25:24

Vue开发实例（十）Tabs标签页打开、关闭与路由之间的关系

创建标签页一、创建标签页二、点击菜单展示新标签页1、将标签数据作为全局使用2、菜单点击增加标签页3、处理重复标签4、关闭标签页三、点击标签页操作问题1：点击标签页选中菜单进行高亮展示问题2：点击标签页路由也要跳转四、解决bug 先展示最终效果 …...

编程日记 2024/3/6 23:24:23

基于51单片机的智能火灾报警系统

基于51单片机的智能火灾报警系统摘要： 本文提出了一种基于51单片机的智能火灾报警系统。该系统采用烟雾传感器和温度传感器来检测火灾的发生，并通过单片机进行数据处理和报警控制。此外，该系统还具有无线通信功能，可以实时将火灾…...

编程日记 2024/3/6 23:23:22

【数据结构】堆的TopK问题

大家好，我是苏貝，本篇博客带大家了解堆的TopK问题，如果你觉得我写的还不错的话，可以给我一个赞👍吗，感谢❤️ 目录一. 前言二. TopK三. 代码一. 前言 TOP-K问题：即求数据结合中前K个最大的元…...

编程日记 2024/3/6 23:22:21

Vue后台管理系统笔记-01

npm（Node Package Manager）和 yarn 是两个常用的包管理工具，用于在 Node.js 项目中安装、管理和更新依赖项。它们有以下几个区别： 性能和速度：在包的安装和下载方面，yarn 通常比 npm 更快速。yarn 使用了并…...

编程日记 2024/3/6 23:18:16

文章目录构建带maven环境的jenkins 镜像安装jenkinsjenkins yaml 文件安装插件jenkins 配置k8s创建用户凭证构建带maven环境的jenkins 镜像 # 构建带 maven 环境的 jenkins 镜像 docker build -t 192.168.113.122:8858/library/jenkins-maven:jdk-11 .# 登录 harbor docker …...

编程日记 2024/3/6 23:17:15

08、MongoDB -- MongoDB 的集合关联（$lookup 和 DBRef 实现集合关联）

目录 MongoDB 的集合关联演示前提：登录单机模式的 mongodb 服务器命令登录【test】数据库的 mongodb 客户端命令登录【admin】数据库的 mongodb 客户端命令 SQL 术语与 Mongodb 的对应关系使用 $lookup 实现集合关联语法格式添加测试数据1、查询出订单数量大于6&a…...

编程日记 2024/3/6 23:15:13

前方高能，又一波Smartbi签约喜报来袭

近期，交通银行、厦门国际银行、中原农业保险、江苏中天科技等多家知名企业签约Smartbi，携手Smartbi实现数据驱动业务新增长。 Smartbi数10年专注于商业智能BI与大数据分析软件与服务，为各行各业提供提供一站式商业智能平台（PaaS&a…...

编程日记 2024/3/6 23:14:12

蓝桥杯倒计时 41天 - 二分答案-最大通过数-妮妮的月饼工厂

最大通过数思路：假设左边能通过 x 关，右边能通过 y 关，x∈[0,n]，通过二分，在前缀和中枚举右边通过的关卡数，保存 xy 的最大值。 #include<bits/stdc.h> using namespace std; typedef long long ll…...

编程日记 2024/3/6 23:13:09

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 （1）连接查询（JOIN） 内连接（INNER JOIN）：返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

编程新知 2025/7/12 7:16:15

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

五年级数学知识边界总结思考-下册

目录一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解：由来、作用与意义**一、知识点核心内容****二、知识点的由来：从生活实践到数学抽象****三、知识的作用：解决实际问题的工具****四、学习的意义：培养核心素养…...

编程新知 2025/6/20 13:47:44

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

一、引言在数据驱动的背景下，知识图谱凭借其高效的信息组织能力，正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合，探讨知识图谱开发的实现细节，帮助读者掌握该技术栈在实际项目中的落地方法。 …...

编程新知 2025/6/21 5:44:18

爬虫基础学习day2

# 爬虫设计领域工商：企查查、天眼查短视频：抖音、快手、西瓜 ---> 飞瓜电商：京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空：抓取所有航空公司价格 ---> 去哪儿自媒体：采集自媒体数据进…...

编程新知 2025/7/6 13:55:34

云原生玩法三问：构建自定义开发环境

云原生玩法三问：构建自定义开发环境引言临时运维一个古董项目，无文档，无环境，无交接人，俗称三无。运行设备的环境老，本地环境版本高，ssh不过去。正好最近对腾讯出品的云原生 cnb 感兴趣&…...

编程新知 2025/7/17 2:41:18

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径卸载应用 adb uninstall 应用包名查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

编程新知 2025/6/16 12:37:53

C++--string的模拟实现

一,引言 string的模拟实现是只对string对象中给的主要功能经行模拟实现，其目的是加强对string的底层了解，以便于在以后的学习或者工作中更加熟练的使用string。本文中的代码仅供参考并不唯一。二,默认成员函数 string主要有三个成员变量，…...

编程新知 2025/7/16 1:40:26

CSS 工具对比：UnoCSS vs Tailwind CSS，谁是你的菜？

在现代前端开发中，Utility-First (功能优先) CSS 框架已经成为主流。其中，Tailwind CSS 无疑是市场的领导者和标杆。然而，一个名为 UnoCSS 的新星正以其惊人的性能和极致的灵活性迅速崛起。这篇文章将深入探讨这两款工具的核心理念、技术差…...

编程新知 2025/7/18 5:26:54

接口 RESTful 中的超媒体：REST 架构的灵魂驱动

在 RESTful 架构中，** 超媒体（Hypermedia）** 是一个核心概念，它体现了 REST 的 “表述性状态转移（Representational State Transfer）” 的本质，也是区分 “真 RESTful API” 与 “伪 RESTful AP…...

编程新知 2025/7/18 3:13:29

李沐动手学习深度学习——4.2练习

1. 在所有其他参数保持不变的情况下，更改超参数num_hiddens的值，并查看此超参数的变化对结果有何影响。确定此超参数的最佳值。

2. 尝试添加更多的隐藏层，并查看它对结果有何影响。

3. 改变学习速率会如何影响结果？保持模型架构和其他超参数（包括轮数）不变，学习率设置为多少会带来最好的结果？

4. 通过对所有超参数（学习率、轮数、隐藏层数、每层的隐藏单元数）进行联合优化，可以得到的最佳结果是什么？

5. 描述为什么涉及多个超参数更具挑战性。

6. 如果想要构建多个超参数的搜索方法，请想出一个聪明的策略。

相关文章：

李沐动手学习深度学习——4.2练习

CYQ.Data 支持 DaMeng 达梦数据库

计网面试题整理上

code: 500 ] This subject is anonymous - it does not have any identifying

FC-AE-1553 协议

代码随想录算法训练营day38|理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

夫妻一方名下股权到底归谁？

git根据文件改动将文件自动添加到缓冲区

SystemVerilog Constants、Processes

交易平台开发：构建安全/高效/用户友好的在线交易生态圈

Linux系统之部署复古游戏平台

开源计算机视觉库opencv-python详解

Vue开发实例（十）Tabs标签页打开、关闭与路由之间的关系

基于51单片机的智能火灾报警系统

【数据结构】堆的TopK问题

Vue后台管理系统笔记-01

飞天使-学以致用-devops知识点3-安装jenkins

08、MongoDB -- MongoDB 的集合关联（$lookup 和 DBRef 实现集合关联）

前方高能，又一波Smartbi签约喜报来袭

蓝桥杯倒计时 41天 - 二分答案-最大通过数-妮妮的月饼工厂

Java 语言特性(面试系列2)

React hook之useRef

五年级数学知识边界总结思考-下册

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

爬虫基础学习day2

云原生玩法三问：构建自定义开发环境

【Android】Android 开发 ADB 常用指令

C++--string的模拟实现

CSS 工具对比：UnoCSS vs Tailwind CSS，谁是你的菜？

接口 RESTful 中的超媒体：REST 架构的灵魂驱动