当前位置：首页 > news >正文

深度学习Save Best、Early Stop

news 2025/7/9 0:46:01

一、Save Best

今天的大模型，在训练过程中可能会终止，但是模型其实是可以接着练的，假设GPU挂了，可以接着训练，在原有的权重上，训练其实就是更新w，如果前面对w进行了存档，那么可以从存档的比较优秀的地方进行训练。

下面代码默认每500步保存权重，第二个参数是选择保存最佳权重

class SaveCheckpointsCallback:def __init__(self, save_dir, save_step=500, save_best_only=True):"""Save checkpoints each save_epoch epoch. We save checkpoint by epoch in this implementation.Usually, training scripts with pytorch evaluating model and save checkpoint by step.Args:save_dir (str): dir to save checkpointsave_epoch (int, optional): the frequency to save checkpoint. Defaults to 1.save_best_only (bool, optional): If True, only save the best model or save each model at every epoch."""self.save_dir = save_dir # 保存路径self.save_step = save_step # 保存步数self.save_best_only = save_best_only # 是否只保存最好的模型self.best_metrics = -1 # 最好的指标，指标不可能为负数，所以初始化为-1# mkdirif not os.path.exists(self.save_dir): # 如果不存在保存路径，则创建os.mkdir(self.save_dir)def __call__(self, step, state_dict, metric=None):if step % self.save_step > 0: #每隔save_step步保存一次returnif self.save_best_only:assert metric is not None # 必须传入metricif metric >= self.best_metrics:# save checkpointstorch.save(state_dict, os.path.join(self.save_dir, "best.ckpt")) # 保存最好的模型，覆盖之前的模型，不保存step，只保存state_dict，即模型参数，不保存优化器参数# update best metricsself.best_metrics = metricelse:torch.save(state_dict, os.path.join(self.save_dir, f"{step}.ckpt")) # 保存每个step的模型，不覆盖之前的模型，保存step，保存state_dict，即模型参数，不保存优化器参数

二、Early Stop

如果训练着验证集的准确率开始下降或者损失上升，就需要用到早停：

class EarlyStopCallback:def __init__(self, patience=5, min_delta=0.01):"""Args:patience (int, optional): Number of epochs with no improvement after which training will be stopped.. Defaults to 5.min_delta (float, optional): Minimum change in the monitored quantity to qualify as an improvement, i.e. an absolute change of less than min_delta, will count as no improvement. Defaults to 0.01."""self.patience = patience # 多少个step没有提升就停止训练self.min_delta = min_delta # 最小的提升幅度self.best_metric = -1self.counter = 0 # 计数器，记录多少个step没有提升def __call__(self, metric):if metric >= self.best_metric + self.min_delta:#用准确率# update best metricself.best_metric = metric# reset counter self.counter = 0else: self.counter += 1 # 计数器加1，下面的patience判断用到@property #使用@property装饰器，使得 对象.early_stop可以调用，不需要()def early_stop(self):return self.counter >= self.patience

三、Tensorboard

# TensorBoard 可视化pip install tensorboard
训练过程中可以使用如下命令启动tensorboard服务。注意使用绝对路径，否则会报错```shelltensorboard  --logdir="D:\PycharmProjects\pythondl\chapter_2_torch\runs" --host 0.0.0.0 --port 8848
```

深度学习Save Best、Early Stop

一、Save Best 今天的大模型，在训练过程中可能会终止，但是模型其实是可以接着练的，假设GPU挂了，可以接着训练，在原有的权重上，训练其实就是更新w，如果前面对w进行了存档，那么可以从…...

编程日记 2025/3/7 17:18:54

数据库与存储优化

一、MySQL深度优化索引优化 B树索引结构结构特点： 平衡多路搜索树，所有数据存储在叶子节点，非叶子节点仅存键值和指针。叶子节点通过双向链表连接，支持范围查询高效遍历。优势： 减少磁盘IO（高扇出&#…...

编程日记 2025/3/7 17:14:48

效果： 1.修改AndroidManifest.xml增加如下内容: <uses-permission android:name="android.permission.MANAGE_EXTERNAL_STORAGE" /><uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE" /><uses-perm...

编程日记 2025/3/7 17:11:44

C/C++蓝桥杯算法真题打卡（Day3）

一、P8598 [蓝桥杯 2013 省 AB] 错误票据 - 洛谷算法代码： #include<bits/stdc.h> using namespace std;int main() {int N;cin >> N; // 读取数据行数unordered_map<int, int> idCount; // 用于统计每个ID出现的次数vector<int> ids; …...

编程日记 2025/3/7 17:10:43

【数据结构与算法】Java描述：第二节：LinkedList 链表

一、链表的概念与结构 1.1 概念： 通俗的来说，链表是由一个个结点连接起来的就叫链表。 1.2 结构： 链表存储的数据在物理上是不一定连续的，它是由前面链接后面，一个个连起来的。二、Java底层的 LinkedList 2.1…...

编程日记 2025/3/7 17:02:34

LLM run

lmstudio lmstudio ollama ollama N 卡使用自带UI gpu加速推理 ,选择满足条件的， ds模型选择列表 https://ollama.com/library/deepseek-r1 a卡当前支持的显卡型号 I卡 gpu加速配置 2025.3 intel Official project optimization https://www.modelscope.cn/m…...

编程日记 2025/3/7 16:58:29

k8s面试题总结（十）

1.为什么HDFS不适合存储小文件？ 元数据存储在NameNode内存中，一个节点的内存是有限的。存储大量的小文件会消耗过多的寻道时间同等大小一个大文件的访问速度一定比多个小文件访问速度快 3.NameNode存储block的数量是有限的比如你一个block元数据需要消…...

编程日记 2025/3/7 16:57:28

android中activity1和activity2中接收定时消息

android中activity1和activity2中接收定时消息业务类 import java.util.Timer; import java.util.TimerTask;public class MyAnager {private MyAnager() {}private static MyAnager instance;//回调接口onRecvTaskpublic interface OnMsgListener {void onRecvTask(String a…...

编程日记 2025/3/7 16:53:23

Non-Homophilic Graph Pre-Training and Prompt Learning

Non-Homophilic Graph Pre-Training and Prompt Learning KDD25 #paper/⭐# 目的：对异配图进行prompt ‍ 方法邻居节点的综合嵌入 s v 1 ∣ V ( S v ) ∣ ∑ u ∈ V ( S v ) h u ⋅ s i m ( h u , h v ) , \mathbf{s}_{v}\frac{1}{|V(S_{v})|}\su…...

编程日记 2025/3/7 16:52:22

Ollama 框架本地部署教程：开源定制，为AI 项目打造专属解决方案！

Ollama 是一款开源的本地大语言模型（LLM）运行框架，用于管理和运行语言模型。具有以下核心特点： 开源可定制：采用 MIT 开源协议，开发者能自由使用、阅读源码并定制，可根据自身需求进行功能扩展和…...

编程日记 2025/3/7 16:49:18

unittest框架核心知识的系统复习及与pytest的对比

1. unittest 介绍是什么：Python 标准库自带的单元测试框架，遵循 xUnit 架构（类似Java的JUnit）。核心概念： TestCase：测试用例的基类，所有测试类需继承它。 TestSuite：测试套件&a…...

编程日记 2025/3/7 16:47:16

vue面试宝典之二

39.vue2和vue3中源码是如何解析模版的 new vue（）的时候实例化了类之后根据传进去的option进行模版的类型div还是text还是啥进行匹配，同时拿到节点的值进行绑定，比如正则匹配{{}}将匹配到的变量拿去跟option中的data查找到具体的值…...

编程日记 2025/3/7 16:36:02

ESLint 深度解析：原理、规则与插件开发实践

在前端开发的复杂生态中，保障代码质量与规范性是构建稳健、可维护项目的基石。ESLint 作为一款强大的代码检查工具，其默认规则与插件能满足多数常见需求，但面对特定团队规范或项目独特要求，自定义 ESLint 插件便成为有力的扩展手段…...

编程日记 2025/3/7 16:31:56

洛谷P1091

题目如下思路谢谢观看...

编程日记 2025/3/7 16:30:55

随机树算法自动驾驶汽车的路径规划静态障碍物（Matlab）

随着自动驾驶技术的蓬勃发展，安全、高效的路径规划成为核心挑战之一。快速探索随机树（RRT）算法作为一种强大的路径搜索策略，为自动驾驶汽车在复杂环境下绕过静态障碍物规划合理路径提供了有效解决方案。 RRT 算法基于随机采样思想…...

编程日记 2025/3/7 16:29:54

江科大51单片机笔记【9】DS1302时钟可调时钟（下）

在写代码前，记得把上一节的跳线帽给插回去，不然LCD无法显示一.DS1302时钟 1.编写DS1302.c文件 （1）重新对端口定义名字 sbit DS1302_SCLKP3^6; sbit DS1302_IOP3^4; sbit DS1302_CEP3^5;（2）初始化因为…...

编程日记 2025/3/7 16:28:52

ssm_mysql_暖心家装平台

收藏关注不迷路！！ 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多…...

编程日记 2025/3/7 16:24:46

一周学会Flask3 Python Web开发-SQLAlchemy简介及安装

锋哥原创的Flask3 Python Web开发 Flask3视频教程： 2025版 Flask3 Python web开发视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili SQLAlchemy是Python编程语言下的一款开源软件。提供了SQL工具包及对象关系映射（ORM）工具，…...

编程日记 2025/3/7 16:23:44

＜自用文儿＞ DELETED 设置速读 in Ubuntu24

systemctl 和 DELETED： 配置文件： vi /etc/systemd/system/ DELETED.service [Unit] DescriptionV2Ray Service Documentation DELETED Afternetwork.target nss-lookup.target[Service] #Usernobody CapabilityBoundingSetCAP_NET_ADMIN CAP_NET_BIN…...

编程日记 2025/3/7 16:20:41

自动化同步多服务器数据库表结构

当项目每次进行版本升级的时候，如果在这次迭代中涉及表结构变更，需要将不同的生产环境下，都需要同步表结构的DDL语句，比较麻烦，而且还有可能忘记同步脚本，导致生产环境报错.... 该方案采用SpringBootMybat…...

编程日记 2025/3/7 16:14:34

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2025/7/5 10:32:33

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/7/6 9:38:37

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2025/7/7 9:09:17

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2025/7/5 0:21:39

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2025/7/8 19:00:25

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/6/26 20:21:28

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2025/7/8 21:07:33

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/6/25 3:04:08

linux 下常用变更-8

1、删除普通用户查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行，YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID： YW3…...

编程新知 2025/7/5 18:42:22

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章？AI自动生成，效率提升10倍！ 支持多语言、自动配图、定时发布，让内容创作更轻松！ AI内容生成 → 不想每天写文章？AI一键生成高质量内容！多语言支持 → 跨境电商必备&am…...

编程新知 2025/7/8 20:48:32

深度学习Save Best、Early Stop

一、Save Best

二、Early Stop

三、Tensorboard

相关文章：

深度学习Save Best、Early Stop

数据库与存储优化

Android15请求动态申请存储权限完整示例

C/C++蓝桥杯算法真题打卡（Day3）

【数据结构与算法】Java描述：第二节：LinkedList 链表

LLM run

k8s面试题总结（十）

android中activity1和activity2中接收定时消息

Non-Homophilic Graph Pre-Training and Prompt Learning

Ollama 框架本地部署教程：开源定制，为AI 项目打造专属解决方案！

unittest框架核心知识的系统复习及与pytest的对比

vue面试宝典之二

ESLint 深度解析：原理、规则与插件开发实践

洛谷P1091

随机树算法自动驾驶汽车的路径规划静态障碍物（Matlab）

江科大51单片机笔记【9】DS1302时钟可调时钟（下）

ssm_mysql_暖心家装平台

一周学会Flask3 Python Web开发-SQLAlchemy简介及安装

＜自用文儿＞ DELETED 设置速读 in Ubuntu24

自动化同步多服务器数据库表结构

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Java 8 Stream API 入门到实践详解

通过Wrangler CLI在worker中创建数据库和表

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

【算法训练营Day07】字符串part1

linux 下常用变更-8

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成