当前位置：首页 > article >正文

[训练和优化] 3. 模型优化

article 2026/2/7 20:42:21

👋 你好！这里有实用干货与深度分享✨✨ 若有帮助，欢迎：
👍 点赞 | ⭐ 收藏 | 💬 评论 | ➕ 关注，解锁更多精彩！
📁 收藏专栏即可第一时间获取最新推送🔔。
📖后续我将持续带来更多优质内容，期待与你一同探索知识，携手前行，共同进步🚀。

人工智能

模型优化

本文详细介绍深度学习模型的优化技术，包括正则化、梯度裁剪、早停、模型集成等方法，帮助提升模型性能和泛化能力。

1. 正则化方法

1.1 权重正则化

通过L1/L2正则化抑制模型复杂度，防止过拟合。

import torchclass L1L2Regularizer:def __init__(self, l1_lambda=0.0, l2_lambda=0.0):self.l1_lambda = l1_lambdaself.l2_lambda = l2_lambdadef __call__(self, model):reg_loss = 0for param in model.parameters():if param.requires_grad:# L1正则化reg_loss += self.l1_lambda * torch.sum(torch.abs(param))# L2正则化reg_loss += self.l2_lambda * torch.sum(param ** 2)return reg_loss# 使用示例
regularizer = L1L2Regularizer(l1_lambda=1e-5, l2_lambda=1e-4)
reg_loss = regularizer(model)
total_loss = task_loss + reg_loss

1.2 Dropout实现

Dropout可有效缓解过拟合，提升模型泛化能力。

import torch
import torch.nn as nnclass CustomDropout(nn.Module):def __init__(self, p=0.5, training=True):super().__init__()self.p = pself.training = trainingdef forward(self, x):if not self.training or self.p == 0:return xmask = torch.bernoulli(torch.ones_like(x) * (1 - self.p))return x * mask / (1 - self.p)# 在模型中使用
self.dropout = CustomDropout(p=0.5)

2. 梯度处理

2.1 梯度裁剪

防止梯度爆炸，提升训练稳定性。

import torchdef clip_gradients(model, clip_value=1.0, clip_norm=None):if clip_norm is not None:torch.nn.utils.clip_grad_norm_(model.parameters(), clip_norm)else:torch.nn.utils.clip_grad_value_(model.parameters(), clip_value)def train_with_gradient_clipping(model, train_loader, criterion,optimizer, device, clip_value=1.0):model.train()for data, target in train_loader:data, target = data.to(device), target.to(device)optimizer.zero_grad()output = model(data)loss = criterion(output, target)loss.backward()# 应用梯度裁剪clip_gradients(model, clip_value)optimizer.step()

2.2 梯度累积

节省显存，模拟大批量训练。

class GradientAccumulator:def __init__(self, model, accumulation_steps):self.model = modelself.accumulation_steps = accumulation_stepsself.current_step = 0def step(self, loss):# 缩放损失loss = loss / self.accumulation_stepsloss.backward()self.current_step += 1return self.current_step % self.accumulation_steps == 0def reset(self):self.current_step = 0

3. 早停策略

3.1 验证集早停

防止过拟合，自动停止训练并保存最佳模型。

class EarlyStopping:def __init__(self, patience=7, min_delta=0):self.patience = patienceself.min_delta = min_deltaself.counter = 0self.best_loss = Noneself.early_stop = Falsedef __call__(self, val_loss):if self.best_loss is None:self.best_loss = val_losselif val_loss > self.best_loss - self.min_delta:self.counter += 1if self.counter >= self.patience:self.early_stop = Trueelse:self.best_loss = val_lossself.counter = 0return self.early_stop# 使用示例
early_stopping = EarlyStopping(patience=10)
for epoch in range(num_epochs):train_loss = train_epoch(model, train_loader, criterion, optimizer)val_loss = validate(model, val_loader, criterion)if early_stopping(val_loss):print('Early stopping triggered')break

4. 模型集成

4.1 模型平均

集成多个模型预测结果，提升鲁棒性和准确率。

import torchclass ModelEnsemble:def __init__(self, models):self.models = modelsdef predict(self, x):predictions = []for model in self.models:model.eval()with torch.no_grad():pred = model(x)predictions.append(pred)# 对预测结果取平均return torch.mean(torch.stack(predictions), dim=0)# 使用示例
models = [train_model() for _ in range(5)]  # 训练多个模型
ensemble = ModelEnsemble(models)
prediction = ensemble.predict(test_data)

4.2 权重平均

直接对模型参数加权平均，获得更稳健的模型。

import copydef average_model_weights(models):"""平均多个模型的权重"""avg_model = copy.deepcopy(models[0])avg_dict = avg_model.state_dict()for key in avg_dict.keys():# 初始化为第一个模型的权重avg_dict[key] = avg_dict[key].clone()# 累加其他模型的权重for model in models[1:]:avg_dict[key] += model.state_dict()[key]# 计算平均值avg_dict[key] = avg_dict[key] / len(models)avg_model.load_state_dict(avg_dict)return avg_model

5. 实践建议

正则化选择
- 根据数据规模选择合适的正则化强度
- 在不同层使用不同的Dropout比例
- 可组合多种正则化方法
梯度处理
- 设置合适的梯度裁剪阈值
- 监控梯度范数变化
- 使用梯度累积处理大模型
早停策略
- 选择合适的耐心参数
- 可同时监控多个指标
- 保存最佳模型检查点
模型集成
- 使用不同初始化训练多个模型
- 考虑模型多样性
- 权衡计算成本和性能提升

📌 感谢阅读！若文章对你有用，别吝啬互动～
👍 点个赞 | ⭐ 收藏备用 | 💬 留下你的想法，关注我，更多干货持续更新！

[训练和优化] 3. 模型优化

👋 你好！这里有实用干货与深度分享✨✨ 若有帮助，欢迎： 👍 点赞 | ⭐ 收藏 | 💬 评论 | ➕ 关注 ，解锁更多精彩！ 📁 收藏专栏即可第一时间获取最新推送🔔…...

编程日记 2026/2/7 20:42:21

基于FPGA的车速检测系统仿真设计与实现

标题:基于FPGA的车速检测系统仿真设计与实现内容:1.摘要本文旨在设计并实现基于FPGA的车速检测系统仿真。随着汽车行业的快速发展，精确的车速检测对于车辆的安全性和性能评估至关重要。本研究采用FPGA作为核心处理单元，结合传感器数据采集与处理技术进…...

编程日记 2026/1/26 19:16:45

无人设备遥控器之无线通讯技术篇

无人设备遥控器的无线通讯技术是确保遥控操作准确、稳定、高效进行的关键。以下是对无人设备遥控器无线通讯技术的详细解析： 一、主要无线通讯技术类型 Wi-Fi通讯技术原理：基于IEEE 802.11标准，通过无线接入点（AP）…...

编程日记 2026/2/3 6:49:56

Redis（2）：Redis + Lua为什么可以实现原子性

Redis 作为一款高性能的键值对存储数据库，与 Lua 脚本相结合，为实现原子性操作提供了强大的解决方案，本文将深入探讨 Redis Lua 实现原子性的相关知识原子性概念的厘清在探讨 Redis Lua 的原子性之前，我们需要明确原子性的概念…...

编程日记 2025/7/7 15:20:37

PyTorch LSTM练习案例：股票成交量趋势预测

文章目录案例介绍源码地址代码实现导入相关库数据获取和处理搭建LSTM模型训练模型测试模型绘制折线图主函数绘制结果案例介绍本例使用长短期记忆网络模型对上海证券交易所工商银行的股票成交量做一个趋势预测，这样可以更好地掌握股票买卖点，从而提高…...

编程日记 2026/2/3 3:25:59

CK3588下安装linuxdeployqt qt6 arm64

参考资料： Linux —— linuxdeployqt源码编译与打包（含出错解决） linux cp指令报错：cp: -r not specified； cp: omitting directory ‘xxx‘（需要加-r递归拷贝） CMake Error at /usr/lib/x86_64…...

编程日记 2026/2/3 7:48:13

木马查杀引擎—关键流程图

记录下近日研究的木马查杀引擎，将关键的实现流程图画下来 PHP AST通道实现木马查杀调用逻辑模型训练流程...

编程日记 2026/2/3 4:35:47

二程运输的干散货船路径优化

在二程运输中，干散货船需要将货物从一个港口运输到多个不同的目的地港口。路径优化的目标是在满足货物运输需求、船舶航行限制等条件下，确定船舶的最佳航行路线，以最小化运输成本、运输时间或其他相关的优化目标。影响因素港口布局与距离：各个港口之间的地理位置和距离…...

编程日记 2026/2/3 7:50:29

华为数字政府与数字城市售前高级专家认证介绍

华为数字政府与数字城市售前高级专家认证面向华为合作伙伴售前高级解决方案专家、华为数字政府与数字城市行业解决方案经理（VSE）。通过认证验证的能力您将了解数字政府、数字城市行业基础知识，了解该领域内的重点场景；将对华…...

编程日记 2026/2/3 6:00:22

在VSCode中接入DeepSeek的指南

本文将介绍三种主流接入方式，涵盖本地模型调用和云端API接入方案。一、环境准备 1.1 基础要求 VSCode 1.80+Node.js 16.x+Python 3.8+（本地部署场景）已部署的DeepSeek服务（本地或云端）1.2 安装必备插件 # 打开VSCode插件面板(Ctrl+Shift+X) 搜索并安装： - DeepSeek Of…...

编程日记 2026/1/25 11:57:16

【docker】--容器管理

文章目录容器重启--restart 参数选项及作用**对比 always 和 unless-stopped****如何查看容器的重启策略？** 容器重启 –restart 参数选项及作用重启策略 no：不重启（默认）。on-failure：失败时重启（可限…...

编程日记 2026/2/3 5:25:18

基于OpenCV的人脸微笑检测实现

文章目录引言一、技术原理二、代码实现2.1 关键代码解析2.1.1 模型加载2.1.2 图像翻转2.1.3 人脸检测微笑检测 2.2 显示效果三、参数调优建议四、总结引言在计算机视觉领域，人脸检测和表情识别一直是热门的研究方向。今天我将分享一个使用Python和OpenCV实现…...

编程日记 2026/2/3 5:03:43

使用PEFT库将原始模型与LoRA权重合并

使用PEFT库将原始模型与LoRA权重合并步骤如下： 基础模型加载：需保持与LoRA训练时相同的模型配置merge_and_unload()：该方法会执行权重合并并移除LoRA层保存格式：合并后的模型保存为标准HuggingFace格式，可直接用于推…...

编程日记 2026/1/28 8:14:49

2025-5-15Vue3快速上手

1、setup和选项式API之间的关系 (1)vue2中的data,methods可以与vue3的setup共存 （2）vue2中的data可以用this读取setup中的数据，但是反过来不行，因为setup中的this是undefined （3）不建议vue2和vue3的语法混用…...

编程日记 2026/2/3 6:33:13

【金仓数据库征文】从生产车间到数据中枢：金仓数据库助力MES系统国产化升级之路

目录前言一、金仓数据库：国产数据库的中坚力量二、制造业MES系统：数据驱动的生产智能MES系统的核心价值MES系统关键模块与数据库的关系1. BOM管理2. 生产工单与订单管理3. 生产排产与资源调度4. 生产报工与实时数据采集 5. 采购与销售管理三、从MySQL到…...

编程日记 2026/2/4 5:36:32

HTML17：表单初级验证

表单初级验证常用方式 placeholder 提示信息 <p>名字:<input type"text" name"username" maxlength"8" size"30" placeholder"请输入用户名"></p>required 非空判断 <p>名字:<input type"…...

编程日记 2026/2/4 6:50:17

从卡顿到丝滑：JavaScript性能优化实战秘籍

引言在当今的 Web 开发领域，JavaScript 作为前端开发的核心语言，其性能表现对网页的加载速度、交互响应以及用户体验有着举足轻重的影响。随着 Web 应用的复杂度不断攀升，功能日益丰富，用户对于网页性能的期望也越来越高。从电商…...

编程日记 2026/2/4 7:16:18

How Sam‘s Club nudge customers into buying more

Here’s how Sam’s Club (or similar warehouse memberships) nudge customers into buying more: It’s a classic psychological strategy rooted in sunk cost fallacy and loss aversion. 1. Prepaid Membership Creates a “Sunk Cost” Once you’ve paid the annual …...

编程日记 2026/1/29 4:32:36