当前位置：首页 > article >正文

深度学习总结（8）

article 2026/2/7 5:32:59

模型工作流程

模型由许多层链接在一起组成，并将输入数据映射为预测值。随后，损失函数将这些预测值与目标值进行比较，得到一个损失值，用于衡量模型预测值与预期结果之间的匹配程度。优化器将利用这个损失值来更新模型权重。

在这里插入图片描述

下面是输入数据。

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype("float32") / 255
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype("float32") / 255

输入图像保存在float32类型的NumPy张量中，其形状分别为(60000,784)（训练数据）和(10000, 784)（测试数据）。
下面是模型。

model = keras.Sequential([layers.Dense(512, activation="relu"),layers.Dense(10, activation="softmax")
])

这个模型包含两个链接在一起的Dense层，每层都对输入数据做一些简单的张量运算，这些运算都涉及权重张量。权重张量是该层的属性，里面保存了模型所学到的知识。
下面是模型编译。

model.compile(optimizer="rmsprop",loss="sparse_categorical_crossentropy",metrics=["accuracy"])

sparse_categorical_crossentropy是损失函数，是用于学习权重张量的反馈信号，在训练过程中应使其最小化。降低损失值是通过小批量随机梯度下降来实现的。梯度下降的具体方法由第一个参数给定，即rmsprop优化器。

下面是训练循环。

model.fit(train_images, train_labels, epochs=5, batch_size=128)

在调用fit时：模型开始在**训练数据(共60000个样本)**上进行迭代（每个小批量包含128个样本），共迭代5轮［在所有训练数据上迭代一次叫作一轮（epoch）］。对于每批数据，模型会计算损失相对于权重的梯度（利用反向传播算法，这一算法源自微积分的链式法则），并将权重沿着减小该批量对应损失值的方向移动。5轮之后，模型共执行2345次梯度更新（每轮469次），模型损失值将变得足够小，使得模型能够以很高的精度对手写数字进行分类。

用TensorFlow从头开始重新实现模型

简单的Dense类

Dense层实现了下列输入变换，其中W和b是模型参数，activation是一个逐元素的函数（通常是relu，但最后一层是softmax）。

output = activation(dot(W, input) + b)

我们实现一个简单的Python类NaiveDense，它创建了两个TensorFlow变量W和b，并定义了一个__call__()方法供外部调用，以实现上述变换。

import tensorflow as tfclass NaiveDense:#构造函数def __init__(self, input_size, output_size, activation):#模拟keras的dense层可以设置激活函数self.activation = activationw_shape = (input_size, output_size)#创建一个形状为(input_size, output_size)的矩阵W，并将其随机初始化w_initial_value = tf.random.uniform(w_shape, minval=0, maxval=1e-1)self.W = tf.Variable(w_initial_value)b_shape = (output_size,)#创建一个形状为(output_size,)的零向量bb_initial_value = tf.zeros(b_shape)self.b = tf.Variable(b_initial_value)#前向传播def __call__(self, inputs):return self.activation(tf.matmul(inputs, self.W) + self.b)#获取该层权重的便捷方法@propertydef weights(self):#以列表的形式返回本层的权重return [self.W, self.b]

我们总结一下NaiveDense实现了哪些步骤：
1.根据输入输出的形状初始化权重（kernel和bias）以实现仿射变换
2.初始化激活函数
3.实现前向传播函数（反向传播可以通过tensorflow的梯度带实现）
4.提供获取权重的方式

简单的Sequential类

我们创建一个NaiveSequential类来实现模型，将这些层链接起来。它封装了一个层列表（正如我们前面提到的模型由一系列层构成），并定义了一个__call__()方法供外部调用。这个方法将按顺序调用输入的层。它还有一个weights属性，用于记录所有层的权重。

class NaiveSequential:def __init__(self, layers):self.layers = layersdef __call__(self, inputs):x = inputsfor layer in self.layers:x = layer(x)return x@propertydef weights(self):weights = []for layer in self.layers:weights += layer.weightsreturn weights

按照惯例，总结一下这个Sequential实现了哪些行为：
1.封装层列表
2.一次调用层列表中的层进行前向传播

实例化模型

利用NaiveSequential来实例化模型

model = NaiveSequential([NaiveDense(input_size=28 * 28, output_size=512, activation=tf.nn.relu),NaiveDense(input_size=512, output_size=10, activation=tf.nn.softmax)
])
assert len(model.weights) == 4

批量生成器（batch）

对MNIST数据进行小批量迭代。

import mathclass BatchGenerator:def __init__(self, images, labels, batch_size=128):assert len(images) == len(labels)self.index = 0self.images = imagesself.labels = labelsself.batch_size = batch_sizeself.num_batches = math.ceil(len(images) / batch_size)def next(self):images = self.images[self.index : self.index + self.batch_size]labels = self.labels[self.index : self.index + self.batch_size]self.index += self.batch_sizereturn images, labels

批量生成器很简单，就是将训练数据保存下来，每次迭代产生批量大小的数据。

本文所有的代码汇总如下：

import tensorflow as tfclass NaiveDense:#构造函数def __init__(self, input_size, output_size, activation):#模拟keras的dense层可以设置激活函数self.activation = activationw_shape = (input_size, output_size)#创建一个形状为(input_size, output_size)的矩阵W，并将其随机初始化w_initial_value = tf.random.uniform(w_shape, minval=0, maxval=1e-1)self.W = tf.Variable(w_initial_value)b_shape = (output_size,)#创建一个形状为(output_size,)的零向量bb_initial_value = tf.zeros(b_shape)self.b = tf.Variable(b_initial_value)#前向传播def __call__(self, inputs):return self.activation(tf.matmul(inputs, self.W) + self.b)#获取该层权重的便捷方法@propertydef weights(self):#以列表的形式返回本层的权重return [self.W, self.b]class NaiveSequential:def __init__(self, layers):self.layers = layersdef __call__(self, inputs):x = inputsfor layer in self.layers:x = layer(x)return x@propertydef weights(self):weights = []for layer in self.layers:weights += layer.weightsreturn weightsmodel = NaiveSequential([NaiveDense(input_size=28 * 28, output_size=512, activation=tf.nn.relu),NaiveDense(input_size=512, output_size=10, activation=tf.nn.softmax)
])
assert len(model.weights) == 4import mathclass BatchGenerator:def __init__(self, images, labels, batch_size=128):assert len(images) == len(labels)self.index = 0self.images = imagesself.labels = labelsself.batch_size = batch_sizeself.num_batches = math.ceil(len(images) / batch_size)def next(self):images = self.images[self.index : self.index + self.batch_size]labels = self.labels[self.index : self.index + self.batch_size]self.index += self.batch_sizereturn images, labels

深度学习总结（8）

模型工作流程

用TensorFlow从头开始重新实现模型

简单的Dense类

简单的Sequential类

实例化模型

批量生成器（batch）

相关文章：

深度学习总结（8）

基于docker搭建redis集群环境

OpenHarmony 5.0版本视频硬件编解码适配

deepseek热度已过？

分治-归并系列一＞翻转对

FFMPEG大文件视频分割传输教程，微信不支持1G文件以上

从数据海洋中“淘金”——数据挖掘的魔法与实践

elestio memos SSRF漏洞复现（CVE-2025-22952）（附脚本）

MySQL5.7数据库部署和安装

力扣第272场周赛

Java学习手册：JVM、JRE和JDK的关系

C++中作用域（public，private，protected

如何用 esProc 实现 Oracle 和 MySQL 的混合运算

题目 2701: 蓝桥杯2022年第十三届决赛真题-取模（C/C++/Java组）

FreeRTOS 中 SVC与SysTick以及PendSV 优先级配置

Linux 第二讲 --- 基础指令（二）

Python中的数值运算函数及math库详解

P8627 [蓝桥杯 2015 省 A] 饮料换购

《Vue Router实战教程》12.不同的历史记录模式

第十五届蓝桥杯大赛软件赛省赛Python 大学 B 组试做（下）【本期题单：缴纳过路费，纯职业小组】

数字政府网络架构建设方案

Dynamics 365 Business Central AL Code 公司间物料同步的Code参考

vue+uniapp 获取上一页直接传递的参数

[UEC++]UE5C++各类变量相关知识及其API（更新中）

RK3588 android12 适配 ilitek i2c接口TP

安装vllm

利用安固软件实现电脑屏幕录像：四种实用方法分享

[Effective C++]条款30:透彻了解inlining的里里外外

CExercise_10_2动态内存分配_1从键盘输入输入中读取一个整数n，动态分配一个长度为n的整型数组。

这种情况是应为VScode的版本太新了，更新到1.86版本后要求远程连接服务器的内核版本不符合条件