当前位置：首页 > news >正文

PyTorch 深度学习实战 |用 TensorFlow 训练神经网络

news 2026/5/16 4:54:31

为了更好地理解神经网络如何解决现实世界中的问题，同时也为了熟悉 TensorFlow 的 API，本篇我们将会做一个有关如何训练神经网络的练习，并以此为例，训练一个类似的神经网络。

我们即将看到的神经网络，是一个预训练好的用于对手写体数字（整数）图像进行识别的神经网络，它使用了 MNIST 数据集(http://yann.lecun.com/exdb/mnist/)，这是一个经常被用于研究模式识别任务的经典的数据集。

01、MNIST 数据集

Modifiled National Institute of Standards and Technology（MNIST）数据集包含 6 万张图像的训练集和 1 万张图像的测试集。每个图像是一个手写体的数字。来自美国政府所提供数据的 MNIST 数据集，最初是用来测试计算机系统识别手写字体方法的。如果计算机能成功识别手写体，这将对提高邮政服务和税收系统以及政府服务的效率，具有重大意义。在当前的研究中，也有一些不同的、更新的数据集（如 CIFAR 数据集）。但是，用 MNIST 数据集来理解神经网络的工作原理仍然是非常有用的，因为使用它，已知模型可达到很高的精确度和效率。

▍CIFAR 数据集是一个机器学习数据集，包含不同类别的图像。与 MNIST 数据集不同的是，CIFAR 数据集包含许多不同领域的类，比如动物、活动和对象。CIFAR 数据集可在https://www.cs.toronto.edu/~kriz/cifar.html下载。

▍摘自 MNIST 数据集的训练集图像。每个图像是一个单独的 20×20 像素的手写数字图像，原始数据集可以在http://yann.lecun.com/exdb/mnist/找到

02、用 TensorFlow 训练神经网络

现在，让我们用 MNIST 数据集训练一个神经网络，并识别新的数字。

在这个手写体识别的问题上，我们用一个特殊的神经网络——“卷积神经网络”——来解决。我们的神经网络包含三个隐藏层：两个全连接层和一个卷积层。卷积层被以下基于 Python 语言的 TensorFlow 代码段所定义，详见代码段 1。

W = tf.Variable(tf.truncated_normal([5, 5, size_in, size_out],stddev=0.1),name="Weights")
B = tf.Variable(tf.constant(0.1, shape=[size_out]),name="Biases")convolution = tf.nn.conv2d(input, W, strides=[1, 1, 1, 1],
padding="SAME")
activation = tf.nn.relu(convolution + B)tf.nn.max_pool(
activation,
ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1],

在神经网络训练期间，只需执行一次代码段。

变量 W 和 B 代表权重（weights）和偏差（biases）。这些变量是在隐藏层节点中使用的，用于在数据通过神经网络时，更改神经网络对数据的解释。神经网络中还包含其他变量，但是现在暂时不用考虑这些。

全连接层被以下 Python 代码段所定义，详见代码段 2。

W = tf.Variable(tf.truncated_normal([size_in, size_out], stddev=0.1),name="Weights")
B = tf.Variable(tf.constant(0.1, shape=[size_out]),name="Biases")activation = tf.matmul(input, W) + B

这里依然有 TensorFlow 的两个变量：权重 W 和偏移量 B。可注意到，这些变量的初始化非常简单：权重 W 被初始化为随机值，这个初始化是被来自标准差（standard deviation）为 0.1 的被剪枝的高斯分布（使用 size_in 和 size_out 进行剪枝）来完成的；而偏移量 B 则被初始化为常数 0.1。这两个值会随着每次运行而被更改。该代码片段被执行了两次，产生两个全连接层——其中的一个将数据传递给另一个。

这 11 行 Python 代码代表了一个完整的神经网络。我们将使用 Keras 来对每个组件的模型架构进行详细讨论。现在，重点是了解神经网络在每次运行时每个层中的 W 和 B 的值是如何改变的，以及这些代码段如何形成不同的神经层。这 11 行的代码也是几十年神经网络研究成果的积累。

让我们来开始训练这个网络，并且来评估它再 MNIST 手写体数据集中的表现如何。

03、训练神经网络

按照以下步骤来搭建该练习的相关环境：

1.打开两个终端实例（instance）。

2.分别进入到 chapter_4/activity_2[1]目录。

3.在这两个 instance 中，确保您的 Python 3 虚拟环境处于激活状态，并确认已经安装 requirements.txt 中所列举的所有安装包。

4.在其中一个 instance 中，使用如下命令启动 TensorBoard：

$ tensorboard--logdir=mnist_example/

5.在另一个 instance 中，从相应路径下，运行 mnist.py 脚本。

6.打开服务。打开浏览器，在 TensorBoard 提供的 URL（及端口）中，打开页面。

在运行脚本 mnist.py 的终端中，您将看到一个进度条，其中包含了模型在不同时期的训练情况。打开浏览器页面时，您将看到一些图表，点击读取 Accuracy（准确率）的那个，放大它，让页面刷新（或者点击 refresh 按钮刷新）。随着训练次数的增加，您会看到随着迭代次数的增加，这个模型的准确率会越来越高。

这可以解释神经网络在训练过程中能够很早达到高准确度的能力。

我们可以看到，在大约第 200 个 epochs（或迭代步数 steps）时，神经网络的准确率超过了 90%。也就是说，网络可以正确地预测测试集中 90%的手写数字。在训练到第 2000 步的时候，该网络的准确率不断提高，在这一阶段结束时达到了 97%的准确率。

现在让我们来测试一下这个网络在对于从未使用过的数据表现如何。我们使用 Shafeen Tejani 创建的开源网络应用程序来测试一下这个神经网络是否能够正确识别出我们自己写的手写数字。

04、用未见数据测试神经网络的性能

在浏览器中访问http://mnist-demo.herokuapp.com/，然后我们可以在指定的白色方格中画一个 0 到 9 之间的数字（如下图所示）。

▍可以手绘数字并可测试神经网络准确性的 Web 应用程序

▍上述应用程序：https://github.com/ShafeenTejani/mnist-demo .

在该应用程序中，您可以看到两个神经网络的实验结果。我们训练的那个神经网络（称为卷积神经网络 CNN）位于左侧。看看它能否识别您手写的数字？试着在指定区域的边缘画出数字。例如，试着把数字 1 画在那个区域的右边，如下图所示。

▍两个神经网络都很难估计区域边缘的值

▍在本例中，我们看到数字 1 绘制在绘图区域的右侧。这个绘在边缘的数字，两个网络都没识别出来它应该是 1。

MNIST 数据集中不包含写在边缘的数字图像。由于没有包含处于区域边缘的训练数据，因此这两个神经网络都无法正确识别边缘处的数字。如果我们把手写数字写到更靠近指定区域的中心，那么这两个神经网络的识别效果能够得到一定的改善，这说明神经网络的性能依赖于训练数据。如果用于训练的数据与用于测试的数据差异很大，那么神经网络很可能会出现令人失望的结果。

05、实例：探索一个训练好的神经网络

下面将探索刚才在练习中训练的神经网络。我们还会通过改变超参数来训练一些其他的神经网络。那么就让我们从练习中训练的神经网络开始吧。

让我们用 TensorBoard 打开神经网络，来了解神经网络的组成。

打开终端，chapter_4/activity_2 目录下，执行以下指令

$ tensorboard --logdir=mnist_examle/

启动 TensorBoard（如下图所示）：

▍启动 TensorBoard 实例后的终端显示

现在，在浏览器中打开 TensorBoard 提供的 URL。您应该能够看到 TensorBoard 标量页面。

通过 TensorBoard 命令提供的 URL，打开对应的页面，可以看到如下图所示的 TensorBoard 界面：

▍TensorBoard 登录页面

现在让我们来深入了解这个已经训练好的神经网络，看看它是如何工作的。

在 TensorBoard 页面上，点击 Scalars 页，将 Accuracy 图放大。然后把 Smoothing 进度条移动到 0.9。

准确率图（accuracy graph）衡量了神经网络对测试集标签的预测准确率。起初，神经网络对于数据的预测几乎全部错误。这是因为我们只是用随机值初始化了神经网络的权值和偏差，所以其预测尝试只是大致的猜测。然后，神经网络在第二次运行时，会更新其神经层的权重（weights）和偏差（biases）；神经网络将继续通过改变其权重和偏差来使每个节点能更好地预测数据，而对于那些对预测造成损失的节点，则会通过惩罚项[1]逐渐减少其对神经网络的影响（最终达到 0）。通过这种方式来一步一步地降低损失，提升神经网络的准确率。正如您所看到的，这是一种非常有效的技术，可以迅速产生非常好的预测结果。

现在，让我们把注意力集中在准确率（Accuracy）的图上，来看看这个算法是如何在 1000 步（epoches）之后达到很高的准确率(>95%)的。在 1000 步到 2000 步之间，又会发生什么呢？

如果我们继续用更多的训练步数（epochs）来训练，神经网络的预测会变得更精确吗?当训练步数在 1000 到 2000 之间时，神经网络的准确率会继续提高，但提高的幅度在下降。如果用更多的训练步数（epochs）进行训练，神经网络的精准度可能还会略有改善，但在目前的网络架构下，它不会达到 100%的准确率。

该脚本是谷歌官方脚本的修改版本，它是为了展示 TensorFlow 的工作方式。我们将脚本划分为易于理解的函数，并添加了许多注释来帮助您的学习。您可以通过修改以下变量来运行该脚本：

LEARNING_RATE=0.0001EPOCHS=2000

现在，您可以通过修改这些变量的值来运行该脚本。例如，尝试将学习率（learning rate）修改为 0.1，将步数（epochs）修改为 100。您觉得神经网络的效果如何?

▍在神经网络中还有许多其他参数可以修改。现在，尝试修改网络的训练次数（epochs）和学习速度（learning rate）。您将会注意到，这两种改动都能极大地影响神经网络的输出。通过改变这两个参数，观察是否可以用当前的体系结构来更快地训练这个神经网络。

可使用 TensorBoard 来（可视化）验证一下训练的神经网络。可将初始值乘以 10，将这些参数再修改几次，直到注意到神经网络性能有提升时为止。这种对神经网络进行调优并找到提升精度的过程，与当今工业应用中用于改进现有神经网络模型的过程是类似的。

PyTorch 深度学习实战 |用 TensorFlow 训练神经网络

为了更好地理解神经网络如何解决现实世界中的问题，同时也为了熟悉 TensorFlow 的 API，本篇我们将会做一个有关如何训练神经网络的练习，并以此为例，训练一个类似的神经网络。我们即将看到的神经网络，是一个预训练好的用…...

编程日记 2023/4/16 13:01:41

【进阶C语言】静态版通讯录的实现（详细讲解+全部源码）

前言 📕作者简介：热爱跑步的恒川，正在学习C/C、Java、Python等。 📗本文收录于C语言进阶系列，本专栏主要内容为数据的存储、指针的进阶、字符串和内存函数的介绍、自定义类型结构、动态内存管理、文件操作等&#xff0…...

编程日记 2023/4/16 12:56:40

【JavaWeb】后端(Maven+SpringBoot+HTTP+Tomcat)

目录一、Maven1.什么是Maven?2.Maven的作用?3.介绍4.安装5.IDEA集成Maven6.IDEA创建Maven项目7.IDEA导入Maven项目8.依赖配置9.依赖传递10.依赖范围11.生命周期二、SpringBoot1.Spring2.SpringBoot3.SpringBootWeb快速入门二、HTTP1.HTTP-概述2.HTTP-请求协议3.HTTP-响应协议…...

编程日记 2023/5/31 21:16:48

面试官：准备了一些springboot相关的面试题，快来看看吧

文章目录摘要Spring Boot 中的注解 RestController 和 Controller 有什么区别？Spring Boot 中如何处理异常？使用 ExceptionHandler 注解处理特定类型的异常：使用 ExceptionHandler 注解可以将特定类型的异常映射到一个处理方法上，…...

编程日记 2023/4/16 12:46:37

$L_n=m_ev_nr_n=\sqrt{\frac{Z e^2 m_e r_n}{4 \pi \varepsilon_0}}=n \hbar ;(n=1,2,3, \cdots)$

原子的波尔模型、能量量子化、光电效应、光谱实验、量子态、角动量

一. 卢瑟福模型 1908年，卢瑟福用α粒子继续轰击金箔，发现有极少数粒子，发生了非常大的偏移。而这对于当时主流的葡萄干面包模型理论分析是相悖的。原子可看成由带正电的原子核和围绕核运动的一些电子组成，原子中心的原子核带正…...

编程日记 2023/4/16 12:41:36

【如何使用Arduino控制WS2812B可单独寻址的LED】

【如何使用Arduino控制WS2812B可单独寻址的LED】 1. 概述2. WS2812B 发光二极管的工作原理3. Arduino 和 WS2812B LED 示例3.1 例 13.2 例 24. 使用 WS2812B LED 的交互式 LED 咖啡桌4.1 原理图4.2 源代码在本教程中，我们将学习如何使用 Arduino 控制可单独寻址的 RGB LED 或 …...

编程日记 2023/4/16 12:36:35

计算机基本知识扫盲（持续更）

计算机基本知识扫盲Q：硬盘和磁盘有什么区别？A：硬盘和磁盘都是存储数据的设备。磁盘指的是存储数据的圆形或者是方形的光盘，但是硬盘则是指机械式硬盘和固态硬盘。磁盘一般用于存储少量数据，例如软件安装文件、音乐和电…...

编程日记 2023/5/31 21:16:57

学习大数据需要什么语言基础

Python易学，人人都可以掌握，如果零基础入门数据开发行业的小伙伴，可以从Python语言入手。 Python语言简单易懂，适合零基础入门，在编程语言排名上升最快，能完成数据挖掘、机器学习、实时计算在内的各种大数…...

编程日记 2023/4/16 12:26:33

ElasticSearch——详细看看ES集群的启动流程

参考：一起看看ES集群的启动流程本文主要从流程上介绍整个集群是如何启动的，集群状态如何从Red变成Green，然后分析其他模块的流程。这里的集群启动过程指集群完全重启时的启动过程，期间要经历选举主节点、主分片、数据恢复等重…...

编程日记 2023/4/16 12:21:31

【教学类-30-01】5以内加法题不重复（一页两份）（包含1以内、2以内、3以内、4以内、5以内加法，抽取最大不重复数量）

作品样式： 背景需求： 虽然学前阶段就对幼儿训练加减法列式题遭到诟病，但是从不少幼儿（特别是二胎）在家中已经开始适应加减法题型了。结合中班年龄特点，我从5以内的不重复加法题开始实验（雪花…...

编程日记 2023/4/16 12:16:30

写博客8年与人生第一个502万

题记：我们并非生来强大，但依然可以不负青春。原本想好好写一下如何制定一个目标并通过一点一滴的努力去实现，这三年反思发现其实写自己的经历并不重要。很多人都听过一句话：榜样的力量是无穷的。更现实和实际的情况是&#x…...

编程日记 2023/5/30 6:54:43

【华为OD机试真题】日志采集系统（javapython）

日志采集系统时间限制：1s空间限制：256MB限定语言：不限题目描述：日志采集是运维系统的的核心组件。日志是按行生成，每行记做一条，由采集系统分批上报。如果上报太频繁，会对服务端造成压力；如果上报太晚，会降低用户的体验；如果一次上报的条数太多，会导致超时…...

编程日记 2023/4/16 12:06:28

epoll源码剖析

文章目录1.前言2.应用层的体现3.两个重要结构(1)eventpoll(2)epitem4.四个函数(1)epoll_create源码(2)epoll_ctl源码(3)epoll_wait的源码(4)epoll_event_callback()5.水平触发和边缘触发1.状态变化2.LT模式3.ET模式1.前言好久好久没有更新博客了，最近一直在实习&a…...

编程日记 2023/6/1 5:50:38

Linux驱动开发——高级I/O操作（一）

一个设备除了能通过读写操作来收发数据或返回、保存数据，还应该有很多其他的操作。比如一个串口设备还应该具备波特率获取和设置、帧格式获取和设置的操作;一个LED设备甚至不应该有读写操作，而应该具备点灯和灭灯的操作。硬件设备是如此众多，…...

编程日记 2023/4/16 11:56:25

适配器模式：C++设计模式中的瑞士军刀

适配器模式揭秘：C设计模式中的瑞士军刀引言设计模式的重要性适配器模式简介与应用场景适配器模式在现代软件设计中的地位与价值适配器模式基本概念适配器模式的定义与核心思想类适配器与对象适配器的比较设计原则与适配器模式的关系类适配器实现类适配器模式的UML图…...

编程日记 2023/4/16 11:51:24

【三十天精通Vue 3】第三天 Vue 3的组件详解

✅创作者：陈书予 🎉个人主页：陈书予的个人主页 🍁陈书予的个人社区，欢迎你的加入: 陈书予的社区 🌟专栏地址: 三十天精通 Vue 3 文章目录引言一、Vue 3 组件的概述1. Vue 3 的组件系统2. Vue 3 组件的特点…...

编程日记 2023/4/16 11:46:23

SqlServer实用系统视图，你了解多少？

SqlServer实用系统视图，你了解多少？前言master..spt_valuessysdatabasessysprocesses一套组合拳sysobjectssys.all_objectssyscolumnssystypessyscommentssysindexes结束语前言在使用任何数据库软件的时候，该软件都会提供一些可能不是那么公…...

编程日记 2023/4/16 11:41:22

NodeJS Cluster模块基础教程

Cluster简介默认情况下，Node.js不会利用所有的CPU，即使机器有多个CPU。一旦这个进程崩掉，那么整个 web 服务就崩掉了。应用部署到多核服务器时，为了充分利用多核 CPU 资源一般启动多个 NodeJS 进程提供服务，这时就…...

编程日记 2023/4/16 11:36:20

[C++笔记]vector

vector vector的说明文档 vector是表示可变大小数组的序列容器(动态顺序表)。就像数组一样，vector也采用连续的存储空间来储存元素。这就意味着可以用下标对vector的元素进行访问，和数组一样高效。与数组不同的是，它的大小可以动态改变——…...

编程日记 2023/5/29 21:58:19

Python 迁移学习实用指南：1~5

原文：Hands-On Transfer Learning with Python 协议：CC BY-NC-SA 4.0 译者：飞龙本文来自【ApacheCN 深度学习译文集】，采用译后编辑（MTPE）流程来尽可能提升效率。不要担心自己的形象，只关心如…...

编程日记 2023/4/16 11:26:18

Botty：暗黑2重制版自动化助手，告别重复刷图的终极方案

Botty：暗黑2重制版自动化助手，告别重复刷图的终极方案【免费下载链接】botty D2R Pixel Bot 项目地址: https://gitcode.com/gh_mirrors/bo/botty 你是否厌倦了在《暗黑破坏神2：重制版》中反复刷图、手动拾取、机械操作？每…...

编程新知 2026/5/16 4:15:10

超长上下文时代来临：百万Token窗口实测，我的工作流彻底变了

前言：一个让我彻底改变工作方式的实验 2026年初，我做了一件以前根本不敢想的事：把一份长达800页的技术规范文档，直接塞进了一个大模型的上下文窗口，然后让它帮我找出其中所有与安全性相关的条款，并逐条解释…...

编程新知 2026/5/16 3:51:37

OpenFold实战指南：在Linux系统部署蛋白质结构预测模型

1. 从仰望到上手：OpenFold如何让蛋白质结构预测走进寻常实验室去年AlphaFold2横空出世，几乎以一己之力解决了困扰生物学界半个世纪的“蛋白质折叠问题”，其意义不亚于在生命科学领域投下了一颗重磅炸弹。一时间，无论是结构生物学家…...

编程新知 2026/5/16 2:20:16

AM335x嵌入式开发实战：从硬件设计到软件调试的避坑指南

1. 项目概述：为什么AM335x值得深挖，又为何“坑”多？如果你正在嵌入式领域，尤其是工业控制、人机交互或者物联网网关这些方向选型，TI的AM335x系列处理器大概率会进入你的视野。这颗基于ARM Cortex-A8内核的芯片&#xf…...

编程新知 2026/5/16 1:30:09

为什么你的民族志写作总卡在“分析乏力”？NotebookLM三步穿透文本深层文化逻辑

更多请点击： https://intelliparadigm.com 第一章：为什么你的民族志写作总卡在“分析乏力”？NotebookLM三步穿透文本深层文化逻辑民族志写作常陷入“描述丰富、解释单薄”的困境——田野笔记堆叠如山，却难以提炼出文化实践背后的…...

编程新知 2026/5/16 0:32:50

VR-Reversal终极指南：免费将3D VR视频转换为2D播放的完整方案

VR-Reversal终极指南：免费将3D VR视频转换为2D播放的完整方案【免费下载链接】VR-reversal VR-Reversal - Player for conversion of 3D video to 2D with optional saving of head tracking data and rendering out of 2D copies. 项目地址: https://gitcode.co…...

编程新知 2026/5/16 0:14:22

跟着 MDN 学 HTML day_51：（深入理解 XPathEvaluator 接口）

在前端开发中，我们经常需要对 DOM 树进行复杂的节点查询。虽然 querySelector 和 querySelectorAll 已经能够满足大部分 CSS 选择器需求，但在某些场景下，我们需要更强大的查询能力，比如根据节点的文本内容查找、根据属性是否存在进…...

编程新知 2026/5/15 23:55:02

如何用Matplotlib打造faceai人脸识别可视化分析工具：10个实用技巧

如何用Matplotlib打造faceai人脸识别可视化分析工具：10个实用技巧【免费下载链接】faceai 一款入门级的人脸、视频、文字检测以及识别的项目. 项目地址: https://gitcode.com/gh_mirrors/fa/faceai faceai是一款功能强大的入门级人脸识别与视觉分析开源工具…...

编程新知 2026/5/15 23:06:05

Task人工智能：如何用Go语言工具构建高效的ML模型训练流水线

Task人工智能：如何用Go语言工具构建高效的ML模型训练流水线【免费下载链接】task A fast, cross-platform build tool inspired by Make, designed for modern workflows. 项目地址: https://gitcode.com/gh_mirrors/ta/task 在当今的机器学习开发中&#x…...

编程新知 2026/5/15 22:34:12

面试鸭：一站式面试题库解决方案，助你轻松备战技术面试

面试鸭：一站式面试题库解决方案，助你轻松备战技术面试【免费下载链接】mianshiya-public 持续维护的企业面试题库网站，帮你拿到满意 offer！⭐️ 2026年最新Java面试题、前端面试题、AI大模型面试题、AI Agent面试题、RAG面试题、…...

编程新知 2026/5/15 21:00:42

01、MNIST 数据集

02、用 TensorFlow 训练神经网络

03、训练神经网络

04、用未见数据测试神经网络的性能

05、实例：探索一个训练好的神经网络

相关文章：