当前位置：首页 > news >正文

李沐深度学习记录4：12.权重衰减/L2正则化

news 2026/2/9 15:27:08

权重衰减从零开始实现

#高维线性回归
%matplotlib inline
import torch
from torch import nn
from d2l import torch as d2l#整个流程是，1.生成标准数据集，包括训练数据和测试数据
#          2.定义线性模型训练
#           模型初始化（函数）、包含惩罚项的损失（函数）
#           定义epochs进行训练，每训练5轮评估一次模型在训练集和测试集的损失，画图显示
#           训练结束后分别查看并比较是否添加范数惩罚项损失对应的训练结果w的L2范数
#生成数据集
n_train, n_test, num_inputs, batch_size = 20, 100, 200, 5  #训练数据样本数20，测试样本数100，数据维度200，批量大小5
true_w, true_b = torch.ones((num_inputs, 1)) * 0.01, 0.05  #生成w矩阵(200,1),w值0.01，偏置b为0.05
train_data = d2l.synthetic_data(true_w, true_b, n_train) #生成训练数据集X(20,200)，y(20,1),y=Xw+b+噪声，train_data接收返回的X,y
train_iter = d2l.load_array(train_data, batch_size)  #传入数据集和批量大小，构造训练数据迭代器
test_data = d2l.synthetic_data(true_w, true_b, n_test) #生成测试数据集
test_iter = d2l.load_array(test_data, batch_size, is_train=False)  #构造测试数据迭代器#初始化模型参数
def init_params():w = torch.normal(0, 1, size=(num_inputs, 1), requires_grad=True)b = torch.zeros(1, requires_grad=True)return [w, b]#定义L2范数惩罚项
def l2_penalty(w):return torch.sum(w.pow(2)) / 2  #L2范数公式需要开平方根，但这里L2范数惩罚项是L2范数的平方，所以不需要开平方根了#训练代码
def train(lambd):  #输入λ超参数w, b = init_params()  #初始化模型参数net, loss = lambda X: d2l.linreg(X, w, b), d2l.squared_loss  #net线性模型torch.matmul(X, w) + b;loss是均方误差num_epochs, lr = 100, 0.003animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',xlim=[5, num_epochs], legend=['train', 'test'])for epoch in range(num_epochs):  #进行多次迭代训练for X, y in train_iter:  #每个epoch，取训练数据# 增加了L2范数惩罚项，# 广播机制使l2_penalty(w)成为一个长度为batch_size的向量l = loss(net(X), y) + lambd * l2_penalty(w)  #loss计算加上了λ×范数惩罚项l.sum().backward()  #这里计算损失和，下面参数更新时会对梯度求平均再更新参数d2l.sgd([w, b], lr, batch_size)  #进行参数更新操作if (epoch + 1) % 5 == 0:  #每5次epoch训练，评估一次模型的训练损失和测试损失animator.add(epoch + 1, (d2l.evaluate_loss(net, train_iter, loss),d2l.evaluate_loss(net, test_iter, loss)))print('w的L2范数是：', torch.norm(w).item())  #训练结束后，计算w的L2范数（没有平方）

#λ为0，无正则化项，训练
train(lambd=0)
d2l.plt.show()

在这里插入图片描述

#λ为10，有正则化项，训练
train(lambd=5)
d2l.plt.show()

在这里插入图片描述

权重衰减的简洁实现

#权重衰减的简洁实现
def train_concise(wd):net = nn.Sequential(nn.Linear(num_inputs, 1))   #定义模型for param in net.parameters():   #初始化参数param.data.normal_()loss = nn.MSELoss(reduction='none')  #计算loss，这里不包含正则项num_epochs, lr = 100, 0.003# 偏置参数没有衰减#在参数优化部分，计算梯度时加入了权重衰减#所以是计算loss时没计算正则项，只是在计算梯度时加入了权重衰减吗？trainer = torch.optim.SGD([{"params":net[0].weight,'weight_decay': wd},{"params":net[0].bias}], lr=lr)animator = d2l.Animator(xlabel='epochs', ylabel='loss', yscale='log',xlim=[5, num_epochs], legend=['train', 'test'])for epoch in range(num_epochs):   #训练100轮for X, y in train_iter:  #对于每轮，取数据训练trainer.zero_grad()   #梯度清零l = loss(net(X), y)  #计算lossl.mean().backward() #反向传播trainer.step()  #更新梯度if (epoch + 1) % 5 == 0:   #每5轮评估一次模型在测试集和训练集的损失animator.add(epoch + 1,(d2l.evaluate_loss(net, train_iter, loss),d2l.evaluate_loss(net, test_iter, loss)))print('w的L2范数：', net[0].weight.norm().item())

#没有进行权重衰减
train_concise(0)

在这里插入图片描述

#进行权重衰减
train_concise(5)

在这里插入图片描述

李沐深度学习记录4：12.权重衰减/L2正则化

权重衰减从零开始实现 #高维线性回归 %matplotlib inline import torch from torch import nn from d2l import torch as d2l#整个流程是，1.生成标准数据集，包括训练数据和测试数据 # 2.定义线性模型训练 # 模型初始化（函…...

编程日记 2023/10/5 18:48:35

堆--数组中第K大元素

如果对于堆不是太认识，请点击：堆的初步认识-CSDN博客解题思路： /*** <h3>求数组中第 K 大的元素</h3>* <p>* 解体思路* <ol>* 1.向小顶堆放入前k个元素* 2.剩余元素* 若 < 堆顶元素, 则略过* …...

编程日记 2023/10/5 18:47:34

ipad使用技巧

1、goodnotes中批量导入pdf文件法一： 直接参考视频： 【目前为止所知iPad上goodnotes批量导入网盘文件最快的方法】大致步骤：pdf文件传到百度网盘，然后ES软件登录百度网盘，在goodnotes中导入，选择ES&a…...

编程日记 2023/10/5 18:44:31

Windows系统上使用CLion远程开发Linux程序

CLion远程开发Linux程序情景说明Ubuntu配置CLion配置同步情景说明在Windows系统上使用CLion开发Linux程序，安装CLion集成化开发环境时会自动安装cmake、mingw，代码提示功能也比较友好。但是在socket开发时，包含sys/socket.h头文件时&am…...

编程日记 2023/10/5 18:43:30

github搜索技巧

指定语言 language:java 比如我要找用java写的含有blog的内容搜索项目名称包含关键词的内容 vue in:name 其他如项目描述跟项目文档，如下组合使用 vue in:name,description,readme 根据Star 或者fork的数量来查找总结 springboot vue stars:>1000 p…...

编程日记 2023/10/5 18:40:28

Python生成器

生成器 Generators 要理解生成器，首先要理解迭代器，迭代器由以下三个部分组成： 可迭代对象（iterable）迭代器（iterator）迭代（iteration） 1. 可迭代对象只要定义了可以…...

编程日记 2023/10/5 18:37:25

flutter开发实战-使用FutureBuilder异步数据更新Widget

flutter开发实战-使用FutureBuilder异步数据更新Widget 在开发过程中，经常遇到需要依赖异步数据更新Widget的情况，如下载图片后显示Widget，获取到某个数据时候，显示在对应的UI界面上，都可以使用FutureBuilder异步数据…...

编程日记 2023/10/5 18:35:24

1.2 数据模型

思维导图： 前言： **1.2.1 什么是模型** - **定义**：模型是对现实世界中某个对象特征的模拟和抽象。例如，一张地图、建筑设计沙盘或精致的航模飞机都可以视为具体的模型。 - **具体模型与现实生活**：具体模型可以很容…...

编程日记 2023/10/5 18:33:22

【实用工具】谷歌浏览器插件开发指南

谷歌浏览器插件开发指南涉及以下几个方面： 1. 开发环境准备：首先需要安装Chrome浏览器和开发者工具。进入Chrome应用商店，搜索“Extensions Reloader”和“Manifest Viewer”两个插件进行安装，这两个插件可以方便开发和调试。 2…...

编程日记 2023/10/5 18:32:20

应用层协议——DNS、DHCP、HTTP、FTP

目录 1、DNS 协议 1-1）Hosts 文件 1-2）DNS 系统 1-3）域名的组成、分类和树状结构 1-4）DNS 域名服务器类型 1-5）DNS 查询方式 1-6）DNS 域名解析的一般步骤 1-7）对象类型与资源记录 2、D…...

编程日记 2023/10/5 18:31:19

0、.pro文件添加依赖 QT xml1、使用 QDomDocument 方式 #include <QtXml/QDomDocument> #include <QtXml/QDomProcessingInstruction> #include <QtXml/QDomElement> #include <QFile> #include <QTextStream> #include <QDebug>bo…...

编程日记 2023/10/5 18:29:18

Win11 安装 Vim

安装包： 链接：https://pan.baidu.com/s/1Ru7HhTSotz9mteHug-Yhpw?pwd6666 提取码：6666 双击安装包，一直下一步。配置环境变量： 先配置系统变量中的path： 接着配置用户变量： 在 cmd 中输入…...

编程日记 2023/10/5 18:27:16

Mac电脑BIM建模软件 Archicad 26 for Mac最新

ARCHICAD 软件特色智能化在2D CAD中，所有的建筑构件都由线条构成和表现，仅仅是一些线条的组合而已，当我们阅读图纸的时候是按照制图规范来读取这些信息。我们用一组线条表示平面中的窗，再用另一组不同的线条在立面中表示同一个…...

编程日记 2023/10/5 18:26:15

JavaEE-网络编程套接字（UDP/TCP）

下面写一个简单的UDP客户端服务器流程思路： 对于服务器端：读取请求，并解析–> 根据解析出的请求，做出响应(这里是一个回显，)–>把响应写回客户端对于客户端：从控制台读取用户输入的内容–>从控制…...

编程日记 2023/10/5 18:24:14

微服务技术栈-Gateway服务网关

文章目录前言一、为什么需要网关二、Spring Cloud Gateway三、断言工厂和过滤器1.断言工厂2.过滤器3.全局过滤器4.过滤器执行顺序四、跨域问题总结前言在之前的文章中我们已经介绍了微服务技术中eureka、nacos、ribbon、Feign这几个组件，接下来将介绍另外一个组…...

编程日记 2023/10/5 18:23:13

函数形状有几种定义方式；操作符infer的作用

在 TypeScript 中，函数形状可以用多种方式进行定义。下面介绍了几种常用的函数形状定义方式： 函数声明： function add(a: number, b: number): number {return a b; }在函数声明中，我们直接使用 function 关键字来声明函数&…...

编程日记 2023/10/5 18:21:11

Java / MybatisPlus：JSON处理器的应用，在实体对象中设置对象属性，对象嵌套对象

1、数据库设计 2、定义内部的实体类 /*** Author lgz* Description* Date 2023/9/30.*/ Data // 静态构造staticName，方便构造对象并赋予属性 AllArgsConstructor(staticName "of") NoArgsConstructor ApiModel(value "亲友", description …...

编程日记 2023/10/5 18:20:10

力扣 -- 1027. 最长等差数列

解题步骤： 参考代码： class Solution { public:int longestArithSeqLength(vector<int>& nums) {int nnums.size();int ret2;unordered_map<int,int> hash;//这里可以先把nums[0]存进哈希表中，方便后面i从1开始遍历hash[num…...

编程日记 2023/10/5 18:16:07

正则验证用户名和跨域postmessage

正则验证用户名字母数字符号大小写8-14匹配用户名的 <!DOCTYPE html> <html> <head><meta charset"utf-8"><meta name"viewport" content"widthdevice-width, initial-scale1"><title>form</title> …...

编程日记 2023/10/5 18:12:01

jsbridge实战1：xcode swift 构建iOS app

[[toc]] 环境安装 macOs: 10.15.5 xcode: 11.6 demo:app 创建 hello world iOS app 创建工程步骤选择：Create a new Xcode project选择：iOS-> single View App填写： project name: swift-app-helloidentifer: smile 包名language: s…...

编程日记 2023/10/5 18:11:00

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2026/2/9 13:51:46

手游刚开服就被攻击怎么办？如何防御DDoS？

开服初期是手游最脆弱的阶段，极易成为DDoS攻击的目标。一旦遭遇攻击，可能导致服务器瘫痪、玩家流失，甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案，帮助快速应对并构建长期防护体系。一、遭遇攻击的紧急应…...

编程新知 2026/2/8 4:37:03

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/3 22:50:07

华硕a豆14 Air香氛版，美学与科技的馨香融合

在快节奏的现代生活中，我们渴望一个能激发创想、愉悦感官的工作与生活伙伴，它不仅是冰冷的科技工具，更能触动我们内心深处的细腻情感。正是在这样的期许下，华硕a豆14 Air香氛版翩然而至，它以一种前所未有的方式&#x…...

编程新知 2026/1/29 14:27:00

力扣热题100 k个一组反转链表题解

题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...

编程新知 2026/1/31 8:25:07

并发编程 - go版

1.并发编程基础概念进程和线程 A. 进程是程序在操作系统中的一次执行过程，系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...

编程新知 2026/1/31 6:50:52

C# 表达式和运算符(求值顺序)

求值顺序表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生变化。例如，已知表达式3*52，依照子表达式的求值顺序，有两种可能的结果，如图9-3所示。如果乘法先执行，结果是17。如果5…...

编程新知 2026/1/31 13:13:28

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2026/1/30 6:20:08

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能

1. 开发环境准备安装DevEco Studio 3.1： 从华为开发者官网下载最新版DevEco Studio安装HarmonyOS 5.0 SDK 项目配置： // module.json5 {"module": {"requestPermissions": [{"name": "ohos.permis…...

编程新知 2025/12/29 15:43:26

李沐深度学习记录4：12.权重衰减/L2正则化

权重衰减从零开始实现

权重衰减的简洁实现

相关文章：

李沐深度学习记录4：12.权重衰减/L2正则化

堆--数组中第K大元素

ipad使用技巧

Windows系统上使用CLion远程开发Linux程序

github搜索技巧

Python生成器

flutter开发实战-使用FutureBuilder异步数据更新Widget

1.2 数据模型

【实用工具】谷歌浏览器插件开发指南

应用层协议——DNS、DHCP、HTTP、FTP

XML文件读写

Win11 安装 Vim

Mac电脑BIM建模软件 Archicad 26 for Mac最新

JavaEE-网络编程套接字（UDP/TCP）

微服务技术栈-Gateway服务网关

函数形状有几种定义方式；操作符infer的作用

Java / MybatisPlus：JSON处理器的应用，在实体对象中设置对象属性，对象嵌套对象

力扣 -- 1027. 最长等差数列

正则验证用户名和跨域postmessage

jsbridge实战1：xcode swift 构建iOS app

XML Group端口详解

手游刚开服就被攻击怎么办？如何防御DDoS？

R语言AI模型部署方案：精准离线运行详解

【项目实战】通过多模态+LangGraph实现PPT生成助手

华硕a豆14 Air香氛版，美学与科技的馨香融合

力扣热题100 k个一组反转链表题解

并发编程 - go版

C# 表达式和运算符(求值顺序)

Golang——9、反射和文件操作

在鸿蒙HarmonyOS 5中使用DevEco Studio实现企业微信功能