当前位置：首页 > news >正文

【深度学习笔记】3_10 多层感知机的PyTorch实现

news 2026/2/9 7:02:13

注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图

3.10 多层感知机的简洁实现

下面我们使用PyTorch来实现上一节中的多层感知机。首先导入所需的包或模块。

import torch
from torch import nn
from torch.nn import init
import numpy as np
import sys
sys.path.append("..") 
import d2lzh_pytorch as d2l

3.10.1 定义模型

和softmax回归唯一的不同在于，我们多加了一个全连接层作为隐藏层。它的隐藏单元个数为256，并使用ReLU函数作为激活函数。

num_inputs, num_outputs, num_hiddens = 784, 10, 256#定义了神经网络的结构    
net = nn.Sequential(d2l.FlattenLayer(), #即把多维的输入一维化，常用在从卷积层到全连接层的过渡nn.Linear(num_inputs, num_hiddens), #这是一个全连接层（也叫线性层或密集层），它接受 num_inputs 个输入，并输出 num_hiddens 个结果。nn.ReLU(),  #这是一个激活函数层，它使用 ReLU（Rectified Linear Unit）函数作为激活函数。ReLU 函数将所有负值置为 0，而正值则保持不变。这有助于网络学习非线性关系。nn.Linear(num_hiddens, num_outputs),  #这是另一个全连接层，它接受 num_hiddens 个输入（即上一个隐藏层的输出），并输出 num_outputs 个结果。这个输出层通常不包含激活函数，因为最后的输出将被解释为每个类别的概率（通过 softmax 函数）。)#初始化网络中所有参数的值
for params in net.parameters():init.normal_(params, mean=0, std=0.01)

net.parameters() 返回一个包含网络中所有参数（权重和偏置）的迭代器。

init.normal_ 是一个就地（in-place）操作，它会直接修改传入的参数张量（params），而不是创建一个新的张量。

mean=0, std=0.01 指定了正态分布（高斯分布）的均值和标准差，用于生成初始化值。这里使用了较小的标准差（0.01），意味着初始化值将接近于 0，但会有一定的随机性。这种初始化方法有助于网络更快地收敛，但也可能导致训练过程中的一些不稳定性。

3.10.2 读取数据并训练模型

我们使用与3.7节中训练softmax回归几乎相同的步骤来读取数据并训练模型。

注：由于这里使用的是PyTorch的SGD而不是d2lzh_pytorch里面的sgd，所以就不存在3.9节那样学习率看起来很大的问题了。

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
loss = torch.nn.CrossEntropyLoss()optimizer = torch.optim.SGD(net.parameters(), lr=0.5)num_epochs = 5
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

输出：

epoch 1, loss 0.0030, train acc 0.712, test acc 0.744
epoch 2, loss 0.0019, train acc 0.823, test acc 0.821
epoch 3, loss 0.0017, train acc 0.844, test acc 0.842
epoch 4, loss 0.0015, train acc 0.856, test acc 0.842
epoch 5, loss 0.0014, train acc 0.864, test acc 0.818

小结

通过PyTorch可以更简洁地实现多层感知机。

注：本节除了代码之外与原书基本相同，原书传送门

【深度学习笔记】3_10 多层感知机的PyTorch实现

注：本文为《动手学深度学习》开源内容，仅为个人学习记录，无抄袭搬运意图 3.10 多层感知机的简洁实现下面我们使用PyTorch来实现上一节中的多层感知机。首先导入所需的包或模块。 import torch from torch import nn from torch.nn import …...

编程日记 2024/2/26 6:26:53

输入法在 Android13上候选词候选区域不显示的问题

背景自研的输入法发现在 Android13 平台上不显示候选区域，在之前平台上以及需求是输入英文时不显示，中文需要显示。最终解决办法：setExtractViewShown(false) Override public View onCreateCandidatesView() {...setExtractViewShown(f…...

编程日记 2024/2/26 6:25:51

Java 面向对象进阶 18 JDK8、9开始新增的方法；接口的应用；适配器设计模式；内部类（黑马）

一、JDK8开始新增的方法默认方法不是抽象方法，所以不强制被重写： 但是如果被重写，就要去掉default关键字： public可以省略，但是default不可以省略： public是灰色的，代表可以省略但是default是…...

编程日记 2024/2/26 6:24:50

数据结构-二分搜索树（Binary Search Tree）

一,简单了解二分搜索树树结构: 问题:为什么要创造这种数据结构 1,树结构本身是一种天然的组织结构,就好像我们的文件夹一样,一层一层的. 2,树结构可以更高效的处理问题二,二分搜索树的基础 1、二叉树 2,二叉树的重要特性满二叉树总结: 1. 叶子结点出现在二叉树的最…...

编程日记 2024/2/26 6:22:48

YOLO如何训练自己的模型

目录步骤一、打标签二、数据集三、跑train代码出模型四、跑detect代码出结果五、详细操作步骤一、打标签 （1）在终端 pip install labelimg （2）在终端输入labelimg打开如何打标签： 推荐文章&#xf…...

编程日记 2024/2/26 6:21:47

05 EXTI外部中断

一、中断系统中断系统：管理和执行中断的逻辑结构。中断：在主程序运行过程中，出现了特定的中断触发条件——中断源，使得CPU暂停当前正在运行的程序，转而去处理中断程序，处理完成后又返回原来被暂停的位置继…...

编程日记 2024/2/26 6:20:46

1.1.1 信号默认、捕获、忽略处理(普通信号) #include <myhead.h> void handler(int signo) {if(signoSIGINT){printf("用户键入 ctrlc\n");} } int main(int argc, const char *argv[]) {//忽略信号if(signal(SIGINT,SIG_IGN)SIG_ERR){perror("signal er…...

编程日记 2024/2/26 6:19:45

PHP实现分离金额和其他内容便于统计计算

得到的结果可以粘贴到excel计算 <?php if($_GET["x"] "cha"){ $tips isset($_POST[tips]) ? $_POST[tips] : ; $pattern /(\d\.\d|\d)/; $result preg_replace($pattern, "\t\${1}\t", $tips); echo "<h2><strong>数…...

编程日记 2024/2/26 6:14:40

基础数据结构和算法《》

递归 1.递归应该一种比较常见的实现一些特殊代码逻辑时需要做的，但常常也是最绕的一种方式，在解释递归之前，我们用循环和递归来做个比较1.1.如果你打开一扇门后，同样发现前方也有一扇们，紧接着你又打开下一扇门...直…...

编程日记 2024/2/26 6:12:38

[设计模式Java实现附plantuml源码~行为型]对象间的联动～观察者模式

前言： 为什么之前写过Golang 版的设计模式，还在重新写Java 版？ 答：因为对于我而言，当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言，更适合用于学习设计模式。为什么类图要附上uml 因为很…...

编程日记 2024/2/26 6:11:37

vue3+js 实现记住密码功能

常见的几种实现方式 1 基于spring security 的remember me 功能 localStorage 除非主动清除localStorage 里的信息 ，不然永远存在，关闭浏览器之后下次启动仍然存在存放数据大小一般为5M 不与服务器进行交互通信 cookies 可以…...

编程日记 2024/2/26 6:07:33

基于单片机的太阳能电池板自动跟踪系统的研究

摘要伴随着人类社会的发展，人口基数越来越大，电量消耗巨大，传统发电原料污染环境的同时，可用量日益减少，给人类未来生产生活带来了一定的威胁，因而解决日益剧增的用电量，寻求一种新能源显得极其重要。论文正是基于此背景下，针对当前太阳能电池板采光率低、自动化水…...

编程日记 2024/2/26 6:04:30

React 模态框的设计（二）

自定义组件是每个前端开发者必备的技能。我们在使用现有框架时难免有一些超乎框架以处的特别的需求，比如关于弹窗，每个应用都会用到，但是有时我们使用的框架中提供的弹窗功能也是功能有限，无法满足我们的应用需求，今天…...

编程日记 2024/2/26 6:03:29

操作符详解3

✨✨ 欢迎大家来到莉莉的博文✨✨ 🎈🎈养成好习惯，先赞后看哦~🎈🎈 前面我们已经讲过算术操作符、赋值操作符、逻辑操作符、条件操作符和部分的单目操作符，今天继续介绍一部分。目录 1.操作符的分类 2…...

编程日记 2024/2/26 6:00:27

【C语言基础】：操作符详解(一)

文章目录操作符详解1. 操作符的分类2. 二进制和进制转换2.1 什么是二进制、八进制、十进制、十六进制2.1.1 二进制和进制转换2.1.2 二进制转十进制2.2.3 二进制转八进制2.2.4 二进制转十六进制 3. 源码、反码、补码4. 移位操作符4.1 左移操作符4.2 右移操作符 5. 位操作符&…...

编程日记 2024/2/26 5:59:26

通俗易懂分析：Vite和Webpack的区别

1、对项目构建的理解先从浏览器出发， 浏览器是由浏览器内核和JS引擎组成；浏览器内核编译解析html代码和css代码，js引擎编译解析JavaScript代码；所以从本质上，浏览器只能识别运行JavaScript、CSS、HTML代码。而我们在…...

编程日记 2024/2/26 5:58:25

OpenCart程序结构与业务逻辑

一、程序业务逻辑说明在 OpenCart 中，index.php 文件是整个应用程序的入口文件，它负责初始化应用程序并调度请求。以下是 index.php 文件加载执行的流程： 1. **设置路径常量：** - index.php 首先定义了一些重要的路径常量&…...

编程日记 2024/2/26 5:57:25

软件License授权原理

软件License授权原理你知道License是如何防止别人破解的吗？本文将介绍License的生成原理，理解了License的授权原理你不但可以防止别人破解你的License，你甚至可以研究别人的License找到它们的漏洞。喜欢本文的朋友建议收藏+关注，方便以后复习查阅。什么是License？在…...

编程日记 2024/2/26 5:55:22

C/C++实现老鼠走迷宫

老鼠形象可以辨认，可以用上下左右操纵老鼠;正确检测结果，若老鼠在规定的时间内走到粮仓，提示成功，否则提示失败。代码分为3个文件：main.cpp、play.h、play.cpp。 main.cpp: #include <iostream> #include <…...

编程日记 2024/2/26 5:54:21

[Linux]文件基础-如何管理文件

回顾C语言之 - 文件如何被写入 fopen fwrite fread fclose fseek … 这一系列函数都是C语言中对文件进行的操作： int main() {FILE* fpfopen("text","w");char str[20]"write into text";fputs(str,fp);fclose(fp);return 0; }而上…...

编程日记 2024/2/26 5:53:21

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2026/2/5 4:17:42

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

【Java学习笔记】Arrays类

Arrays 类 1. 导入包：import java.util.Arrays 2. 常用方法一览表方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序（自然排序和定制排序）Arrays.binarySearch()通过二分搜索法进行查找（前提：数组是…...

编程新知 2025/12/3 9:38:15

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/12/6 22:50:48

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/12/5 20:57:13

自然语言处理——循环神经网络

自然语言处理——循环神经网络循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式参数学习和长程依赖问题基于门控的循环神经网络门控循环单元（GRU）长短期记忆神经网络（LSTM&#xff09…...

编程新知 2026/2/4 11:21:40

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象，只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意：它移动的位置必须是相连的有内容的单元格…...

编程新知 2026/1/20 19:15:45

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

【深度学习笔记】3_10 多层感知机的PyTorch实现

3.10 多层感知机的简洁实现

3.10.1 定义模型

3.10.2 读取数据并训练模型

小结

相关文章：

【深度学习笔记】3_10 多层感知机的PyTorch实现

输入法在 Android13上候选词候选区域不显示的问题

Java 面向对象进阶 18 JDK8、9开始新增的方法；接口的应用；适配器设计模式；内部类（黑马）

数据结构-二分搜索树（Binary Search Tree）

YOLO如何训练自己的模型

05 EXTI外部中断

2024.2.23

PHP实现分离金额和其他内容便于统计计算

基础数据结构和算法《》

[设计模式Java实现附plantuml源码~行为型]对象间的联动～观察者模式

vue3+js 实现记住密码功能

基于单片机的太阳能电池板自动跟踪系统的研究

React 模态框的设计（二）

操作符详解3

【C语言基础】：操作符详解(一)

通俗易懂分析：Vite和Webpack的区别

OpenCart程序结构与业务逻辑

软件License授权原理

C/C++实现老鼠走迷宫

[Linux]文件基础-如何管理文件

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

R语言AI模型部署方案：精准离线运行详解

【Java学习笔记】Arrays类

条件运算符

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

自然语言处理——循环神经网络

Element Plus 表单(el-form)中关于正整数输入的校验规则

3-11单元格区域边界定位(End属性)学习笔记

Spring是如何解决Bean的循环依赖：三级缓存机制