当前位置：首页 > news >正文

神经网络训练时只对指定的边更新参数

news 2025/7/9 4:31:56

在神经网络中，通常采用反向传播算法来计算网络中各个参数的梯度，从而进行参数更新。在反向传播过程中，所有的参数都会被更新。因此，如果想要只更新指定的边，需要采用特殊的方法。

一种可能的方法是使用掩码（masking）技术，将不需要更新的参数的梯度设置为0。在这种方法中，可以通过创建一个掩码张量来指定哪些参数需要更新，哪些参数不需要更新。将不需要更新的参数对应的掩码设置为0，将需要更新的参数对应的掩码设置为1，然后将掩码张量与梯度张量相乘，就可以得到只包含需要更新的参数的梯度张量。最后，将这个梯度张量用于参数更新即可。

另一种方法是使用稀疏矩阵（sparse matrix）技术。在这种方法中，将网络中的所有参数看作一个大的稀疏矩阵，其中只有需要更新的参数对应的元素有非零值。可以使用专门的稀疏矩阵运算库来进行矩阵乘法和梯度计算，从而只更新需要更新的参数。

这两种方法都需要在网络的实现上进行一定的改动，但可以实现只对指定的边进行参数更新的目的。

以下是一个使用掩码（masking）技术的例子，演示如何只对指定的边进行参数更新：

import torch# 创建一个大小为 (2, 2) 的参数张量
weights = torch.randn(2, 2, requires_grad=True)# 创建一个大小与参数张量相同的掩码张量
mask = torch.tensor([[1, 0], [1, 1]])# 对参数进行一次前向传播和反向传播
input = torch.randn(2)
output = torch.matmul(weights, input)
loss = output.sum()
loss.backward()# 将不需要更新的参数的梯度张量设置为0
weights.grad *= mask# 使用得到的梯度张量更新参数
learning_rate = 0.1
weights.data -= learning_rate * weights.grad# 打印更新后的参数张量
print(weights)

在这个例子中，我们创建了一个大小为 (2, 2) 的参数张量 weights，同时创建了一个大小与参数张量相同的掩码张量 mask，其中掩码值为0的位置对应的参数不会被更新。在进行一次前向传播和反向传播后，我们将不需要更新的参数的梯度张量设置为0，然后使用得到的梯度张量更新参数。最后，我们打印更新后的参数张量。

注意，这个例子只演示了如何使用掩码技术对指定的边进行参数更新，实际上掩码技术的应用还需要考虑一些细节，例如如何处理掩码对梯度张量的影响，如何更新多个参数张量等等。实际应用中需要根据具体情况进行调整。

以下是一个使用稀疏矩阵（sparse matrix）技术的例子，演示如何只对指定的边进行参数更新：

import torch# 创建一个大小为 (2, 2) 的稀疏矩阵
indices = torch.tensor([[0, 0], [1, 0], [1, 1]])
values = torch.randn(3)
weights = torch.sparse_coo_tensor(indices.t(), values, (2, 2), requires_grad=True)# 对参数进行一次前向传播和反向传播
input = torch.randn(2)
output = torch.sparse.mm(weights, input)
loss = output.sum()
loss.backward()# 使用得到的梯度张量更新参数
learning_rate = 0.1
weights.data -= learning_rate * weights.grad.to_dense()# 打印更新后的参数张量
print(weights.to_dense())

import torch# 定义网络参数和稀疏矩阵
W1 = torch.randn(2, 2, requires_grad=True)
W2 = torch.randn(1, 2, requires_grad=True)
indices = torch.tensor([[0, 0], [1, 1], [1, 0]])
values = torch.randn(3)
mask = torch.sparse_coo_tensor(indices.t(), values, (2, 2), requires_grad=True)# 定义输入和目标输出
X = torch.tensor([[0.5, 0.2]])
target_output = torch.tensor([[0.7]])# 前向传播
z1 = torch.matmul(X, W1.t())
h1 = torch.sigmoid(z1)
z2 = torch.matmul(h1, W2.t())
output = torch.sigmoid(z2)# 计算损失函数并进行反向传播
loss = torch.nn.functional.binary_cross_entropy(output, target_output)
loss.backward()# 对需要更新的参数进行梯度更新
learning_rate = 0.1
with torch.no_grad():W1.grad *= mask.to_dense()W1 -= learning_rate * W1.gradW2 -= learning_rate * W2.grad# 打印更新后的 W1
print(W1)

在这个例子中，我们定义了一个两层神经网络，其中第一层权重参数为 W1，第二层权重参数为 W2。我们还创建了一个稀疏矩阵 mask，用于指定第一层权重参数中哪些边需要更新。然后我们进行了一次前向传播和反向传播，并使用 mask 对需要更新的参数进行梯度更新，最后打印更新后的 W1。

需要注意的是，在稀疏矩阵的梯度更新中，需要将稀疏矩阵转换为稠密矩阵进行更新，因为 PyTorch 目前不支持对稀疏矩阵进行原位更新。因此，在更新 W1 时，我们使用了 mask.to_dense() 将稀疏矩阵转换为稠密矩阵，然后再与 W1.grad 相乘。

神经网络对指定的边进行l1正则化

import torch# 定义网络参数和稀疏矩阵
W1 = torch.randn(2, 2, requires_grad=True)
W2 = torch.randn(1, 2, requires_grad=True)
indices = torch.tensor([[0, 0], [1, 1], [1, 0]])
values = torch.randn(3)
mask = torch.sparse_coo_tensor(indices.t(), values, (2, 2), requires_grad=False)# 定义输入和目标输出
X = torch.tensor([[0.5, 0.2]])
target_output = torch.tensor([[0.7]])# 定义 L1 正则化系数和学习率
lambda_l1 = 0.1
learning_rate = 0.1# 计算正则化项并添加到损失函数中
reg_loss = lambda_l1 * torch.sum(torch.abs(W1 * mask.to_dense()))
loss = torch.nn.functional.binary_cross_entropy(torch.sigmoid(torch.matmul(torch.sigmoid(torch.matmul(X, W1.t())), W2.t())), target_output)
loss += reg_loss# 进行反向传播并对需要更新的参数进行梯度更新
loss.backward()
with torch.no_grad():W1.grad *= mask.to_dense()W1 -= learning_rate * (W1.grad + lambda_l1 * torch.sign(W1) * mask.to_dense())W2 -= learning_rate * W2.grad# 打印更新后的 W1
print(W1)

对神经网络的边（即权重）进行 L1 正则化的方法通常是在损失函数中添加一个 L1 正则项，其目的是鼓励网络学习稀疏权重，从而减少过拟合。

对于只对指定的边进行 L1 正则化的问题，可以使用稀疏矩阵技术。具体来说，可以使用与前面提到的相同的稀疏矩阵 mask，其中非零元素表示需要正则化的权重。在计算 L1 正则化项时，我们只需将非零元素的绝对值相加即可。最终，将这个正则化项添加到损失函数中，以鼓励模型学习稀疏的权重。

以下是一个使用稀疏矩阵技术对神经网络的指定边进行 L1 正则化的示例：

import torch# 定义网络参数和稀疏矩阵
W1 = torch.randn(2, 2, requires_grad=True)
W2 = torch.randn(1, 2, requires_grad=True)
indices = torch.tensor([[0, 0], [1, 1], [1, 0]])
values = torch.randn(3)
mask = torch.sparse_coo_tensor(indices.t(), values, (2, 2), requires_grad=False)# 定义输入和目标输出
X = torch.tensor([[0.5, 0.2]])
target_output = torch.tensor([[0.7]])# 定义 L1 正则化的权重系数
l1_weight = 0.01# 前向传播
z1 = torch.matmul(X, W1.t())
h1 = torch.sigmoid(z1)
z2 = torch.matmul(h1, W2.t())
output = torch.sigmoid(z2)# 计算损失函数
loss = torch.nn.functional.binary_cross_entropy(output, target_output)
l1_loss = l1_weight * torch.sum(torch.abs(mask * W1))
total_loss = loss + l1_loss# 进行反向传播
total_loss.backward()# 对所有参数进行梯度更新
learning_rate = 0.1
with torch.no_grad():W1 -= learning_rate * W1.gradW2 -= learning_rate * W2.grad# 打印更新后的 W1
print(W1)

在这个例子中，我们将稀疏矩阵 mask 中的非零元素与 W1 相乘，得到需要正则化的权重矩阵。然后，我们计算 L1 正则化项，并将其乘以一个权重系数 l1_weight。最后，将 L1 正则化项和交叉熵损失项相加，得到总的损失函数 total_loss。最终，我们对所有参数进行梯度更新，而不仅仅是对需要正则化的权重进行更新。

神经网络训练时只对指定的边更新参数

相关文章：

神经网络训练时只对指定的边更新参数

Python列表list操作-遍历、查找、增加、删除、修改、排序

Python开发-学生管理系统

大数据处理 - Trie树/数据库/倒排索引

jjava企业级开发-01

「事务一致性」事务afterCommit

【深度学习编译器系列】2. 深度学习编译器的通用设计架构

图解操作系统

【发版或上线项目保姆级心得】

Python数据分析-pandas库入门

MacBook Pro 恢复出厂设置

googletest 笔记

MySQL修改密码的几种方式？

关于画一个句号--基于2022年终总结的反思与分享

学习Flask之三、模板

2023-02-20干活小计：

LeetCode_动态规划_困难_1326.灌溉花园的最少水龙头数目

mac tcpdump学习

【跟我一起读《视觉惯性SLAM理论与源码解析》】第二章编程及编译工具

广东望京卡牌科技有限公司，2023年团建活动圆满举行

系统设计 --- MongoDB亿级数据查询优化策略

全球首个30米分辨率湿地数据集(2000—2022)

Qt Http Server模块功能及架构

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

代理篇12|深入理解 Vite中的Proxy接口代理配置

Unsafe Fileupload篇补充-木马的详细教程与木马分享（中国蚁剑方式）

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

R语言速释制剂QBD解决方案之三

[ACTF2020 新生赛]Include 1(php://filter伪协议)