当前位置：首页 > article >正文

【动手学深度学习】第五课 softmax回归

article 2026/3/17 5:42:37

目录一、softmax回归1. 独热编码2. 网络架构3. softmax运算4. 损失函数5. 模型预测与评估二、图像分类数据集1. 读取数据集2. 读取小批量3. 整合组件三、softmax的从0开始实现1. 初始化参数2. 定义softmax操作3. 定义模型4. 定义损失函数5. 验证精度6. 训练7. 预测回归预测“多少”分类预测“类别”。1. 我们只对样本的“硬性”类别感兴趣即属于哪个类别2. 我们希望得到“软性”类别即得到属于每个类别的概率。在模型训练的过程中我们根据模型输出的“软类别”来推导出硬类别。一、softmax回归1. 独热编码假设每次输入是一个2*2的灰度图像假设每个图像属于类别“猫”“鸡”和“狗”中的一个。我们可以用一个标量表示每个像素值每个图像对应四个特征。独热编码是一个向量它的分量和类别一样多。类别对应的分量设置为1其他所有分量设置为0。在我们的例子中标签将是一个三维向量其中100对应于“猫”、010对应于“鸡”、001对应于“狗”。2. 网络架构与回归不同的是softmax有多个输出即每个类别对应一个输出。由于我们有4个特征和3个输出所以需要12个标量表示权重3个标量表示偏置。下面为每个输入计算预测与线性回归一样softmax也是单层神经网络且由于每个输出由所有输入决定所以它的输出层也是全连接层。3. softmax运算未规范化的预测o不能直接作为输出因为它们的总和不是1且可能是负数。softmax函数能将其转化为非负数且总和为1。首先对每个预测求幂再将每个结果除以总和来保证最终输出的概率总和为1。4. 损失函数不好意思李沐老师截到了你的头5. 模型预测与评估在训练softmax回归模型后给出任何样本特征我们可以预测每个输出类别的概率。通常我们使用预测概率最高的类别作为输出类别。如果预测与实际类别标签一致则预测是正确的。在接下来的实验中我们将使用精度来评估模型的性能。精度等于正确预测数与预测总数之间的比率。二、图像分类数据集我们将使用Fashion-MNIST数据集。1. 读取数据集用pytorch的内置函数将数据集下载并读取到内存。做了两件事情通过ToTensor实例将图像数据从PIL类型变成32bit的浮点数格式除以255使得所有像素的数值在01之间Fashion-MNIST由10个类别的图像组成训练集和测试集分别包含60000和10000张图像。测试数据集不会用于训练只用于评估模型性能。每个输入图像的高度和宽度均为28像素。数据集由灰度图像组成其通道数为110个类别如下以下函数用于在数字标签索引及其文本名称之间进行转换可视化样本2. 读取小批量在每次迭代中数据加载器每次都会读取一小批量数据大小为batch_size。通过内置数据迭代器我们可以随机打乱了所有样本从而无偏见地读取小批量。3. 整合组件现在我们定义load_data_fashion_mnist函数用于获取和读取Fashion-MNIST数据集。这个函数返回训练集和验证集的数据迭代器。此外这个函数还接受一个可选参数resize用来将图像大小调整为另一种形状。三、softmax的从0开始实现softmax回归也是重要的基础我们有必要了解其实现的细节。我们使用Fashion-MNIST数据集并设置数据迭代器的批量大小为256。1. 初始化参数1输入和输出softmax需要的输入是一个向量所以我们需要将图像拉长将每个28*28的图像看成长度为784的“直直”的向量。其实这种拉伸会损失很多空间信息但这个我们留给卷积神经网络解决了模型输入维度是784输出维度是10因为有十个类别。2参数w依旧初始化成一个符合高斯分布的向量shape78410b初始化为0shape1102. 定义softmax操作首先我们来回顾一下矩阵相加的操作然后定义softmax操作3. 定义模型定义softmax操作后我们可以实现softmax回归模型。下面的代码定义了输入如何通过网络映射到输出。注意将数据传递到模型之前我们使用reshape函数将每张原始图像展平为向量。4. 定义损失函数还是拿一个例子y_hat是一个数据样本包含2个样本在3个类别的预测概率。只需一行代码就可以实现交叉熵损失函数我们用上面的例子验证一下5. 验证精度同样对于任意数据迭代器data_iter可访问的数据集我们可以评估在任意模型net的精度。这里定义一个实用程序类Accumulator用于对多个变量进行累加。在上面的evaluate_accuracy函数中我们在Accumulator实例中创建了2个变量分别用于存储正确预测的数量和预测的总数量。当我们遍历数据集时两者都将随着时间的推移而累加。6. 训练1首先我们定义一个函数来训练一个迭代周期。请注意updater是更新模型参数的常用函数它接受批量大小作为参数。它可以是d2l.sgd函数也可以是框架的内置优化函数。2接下来我们实现一个训练函数它会在train_iter访问到的训练数据集上训练一个模型net。该训练函数将会运行多个迭代周期由num_epochs指定。在每个迭代周期结束时利用test_iter访问到的测试数据集对模型进行评估。我们将利用Animator类来可视化训练进度。3使用中定义的小批量随机梯度下降来优化模型的损失函数设置学习率为0.1。4现在我们训练模型10个迭代周期。请注意迭代周期num_epochs和学习率lr都是可调节的超参数。通过更改它们的值我们可以提高模型的分类精度。7. 预测现在训练已经完成我们的模型已经准备好对图像进行分类预测。给定一系列图像我们比较实际标签文本输出的第一行和模型预测文本输出的第二行四、softmax的简单实现跟线性回归差不多不写了

【动手学深度学习】第五课 softmax回归

相关文章：

【动手学深度学习】第五课 softmax回归

Kimi LeetCode 552.学生出勒记录|| public int checkRecord(int n)

如何解决 CAS 的 ABA 问题：从版本号机制到 AtomicStampedReference 深度解析

...........

Linux基础操作——学习记录

AI 时代的程序员生存指南：我是如何用 AI 提升 10 倍开发效率的

vim使用verible插件进行verilog语法检查

2025_NIPS_Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning

OpenClaw 超级 AI 实战专栏【模型推理与实战】（五）推理参数调优：精度、速度、显存平衡

2025_NIPS_IR-OptSet: An Optimization-Sensitive Dataset for Advancing LLM-Based IR Optimizer

Java对象头：深入理解对象存储的核心机制

Swift构造过程介绍

Pytorch之torch.nn.Conv2d详解

ROS2 -03-工作空间与功能包

MTP管理培训

OBS怎么调美颜？OBS怎么打开美颜功能？

计算机毕业设计springboot中药材仓储管理系统的分析与实现基于SpringBoot框架的中药饮片智能库存与质量追溯平台中医药材冷链物流与数字化仓储运营管理系统

LeetCode 11：盛最多水的容器（C语言实现）

Unreal Engine5 笔记（持续更新）

基于航空影像的道路异常状态识别无人机道路阻断巡检道路减速带识别无人机道路施工巡检无人机斑马线监测道路场景计算机视觉数据集Yolo第10552期

计算机毕业设计springboot社区便民服务平台基于SpringBoot框架的智慧社区综合服务运营平台城市社区数字化生活与多元服务集成管理系统

基于STC8H8K64U的光学仪器协同采集平台设计

ROS2功能包构建与文件结构解析：从colcon编译到项目部署

Nacos 3.0新特性解析：为什么控制台端口独立为8080？

新媒体内容创作：使用DeOldify为历史题材短视频生成彩色素材

WuliArt Qwen-Image Turbo避坑指南：解决黑图、显存不足等常见问题

C语言文件操作实战：读写二进制图片数据调用DeOldify服务

AI论文投稿指南：如何选择最适合你的CCF-A/B/C类期刊（附审稿周期对比）

ESP32开发新篇——VSCode插件助力ESP-IDF环境一键配置与实战

Phi-4-reasoning-vision-15B企业级部署：supervisor托管+健康检查全链路