当前位置: 首页 > news >正文

深度学习中的Checkpoint是什么?

诸神缄默不语-个人CSDN博文目录

文章目录

  • 引言
  • 1. 什么是Checkpoint?
  • 2. 为什么需要Checkpoint?
  • 3. 如何使用Checkpoint?
    • 3.1 TensorFlow 中的 Checkpoint
    • 3.2 PyTorch 中的 Checkpoint
    • 3.3 transformers中的Checkpoint
  • 4. 在 NLP 任务中的应用
  • 5. 总结
  • 6. 参考资料

引言

在深度学习训练过程中,模型的训练往往需要较长的时间,并且计算资源昂贵。由于训练过程中可能遇到各种意外情况,比如断电、程序崩溃,甚至想要在不同阶段对比模型的表现,因此我们需要一种机制来保存训练进度,以便可以随时恢复。这就是**Checkpoint(检查点)**的作用。

对于刚入门深度学习的小伙伴,理解Checkpoint的概念并合理使用它,可以大大提高模型训练的稳定性和效率。本文将详细介绍Checkpoint的概念、用途以及如何在NLP任务中使用它。

1. 什么是Checkpoint?

Checkpoint(检查点)是指在训练过程中,定期保存模型的状态,包括模型的权重参数、优化器状态以及训练进度(如当前的epoch数)。这样,即使训练中断,我们也可以从最近的Checkpoint恢复训练,而不是从头开始。

简单来说,Checkpoint 就像一个存档点,让我们能够在不重头训练的情况下继续优化模型。

一个大模型的checkpoint可能以如下文件形式储存:
在这里插入图片描述

2. 为什么需要Checkpoint?

Checkpoint 的主要作用包括:

  1. 防止训练中断导致的损失:训练神经网络需要消耗大量计算资源,训练时间可能长达数小时甚至数天。如果训练因突发情况(如断电、程序崩溃)中断,Checkpoint 可以帮助我们恢复进度。

  2. 支持断点续训:当训练过程中需要调整超参数或遇到不可预见的问题时,我们可以从最近的Checkpoint继续训练,而不必重新训练整个模型。

  3. 保存最佳模型:在训练过程中,我们通常会评估模型在验证集上的表现。通过Checkpoint,我们可以保存最优表现的模型,而不是仅仅保存最后一次训练的结果。

  4. 支持迁移学习:在实际应用中,我们经常会使用预训练模型(如BERT、GPT等),然后在特定任务上进行微调(fine-tuning)。这些预训练模型的Checkpoint可以用作新的任务的起点,而不必从零开始训练。

3. 如何使用Checkpoint?

在深度学习框架(如 TensorFlow 和 PyTorch)中,Checkpoint 的使用非常方便。下面分别介绍在 TensorFlow 和 PyTorch 中如何保存和加载 Checkpoint。

3.1 TensorFlow 中的 Checkpoint

保存Checkpoint:

在 TensorFlow(Keras)中,可以使用 ModelCheckpoint 回调函数来实现自动保存。

import tensorflow as tf
from tensorflow.keras.callbacks import ModelCheckpoint# 创建简单的模型
model = tf.keras.Sequential([tf.keras.layers.Dense(128, activation='relu', input_shape=(100,)),tf.keras.layers.Dense(10, activation='softmax')
])model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])# 设置Checkpoint,保存最优模型
checkpoint_callback = ModelCheckpoint(filepath='best_model.h5',  # 保存路径save_best_only=True,        # 仅保存最优模型monitor='val_loss',         # 监控的指标mode='min',                 # val_loss 越小越好verbose=1                   # 输出日志
)# 训练模型,并使用Checkpoint
model.fit(X_train, y_train, validation_data=(X_val, y_val), epochs=10, callbacks=[checkpoint_callback])

加载Checkpoint:

from tensorflow.keras.models import load_model# 加载已保存的模型
model = load_model('best_model.h5')

这样,我们就可以在训练过程中自动保存最优模型,并在需要时加载它。

3.2 PyTorch 中的 Checkpoint

在 PyTorch 中,我们可以使用 torch.savetorch.load 来手动保存和加载模型。

保存Checkpoint:

import torch# 假设 model 是我们的神经网络,optimizer 是优化器
checkpoint = {'epoch': epoch,'model_state_dict': model.state_dict(),'optimizer_state_dict': optimizer.state_dict()
}
torch.save(checkpoint, 'checkpoint.pth')

加载Checkpoint:

# 加载Checkpoint
checkpoint = torch.load('checkpoint.pth')
model.load_state_dict(checkpoint['model_state_dict'])
optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']

在 PyTorch 中,保存和加载 Checkpoint 需要手动指定模型和优化器的状态,而 TensorFlow 处理起来更为自动化。

3.3 transformers中的Checkpoint

如果直接用transformers的Trainer的话,就会自动根据TrainingArguments的参数来设置checkpoint保存策略。具体的参数有save_strategy、save_steps、save_total_limit、load_best_model_at_end等,可以看我之前写过的关于transformers包的博文。

epochs = 10
lr = 2e-5
train_bs = 8
eval_bs = train_bs * 2training_args = TrainingArguments(output_dir=output_dir,num_train_epochs=epochs,learning_rate=lr,per_device_train_batch_size=train_bs,per_device_eval_batch_size=eval_bs,evaluation_strategy="epoch",logging_steps=logging_steps
)

断点续训:

# Trainer 的定义
trainer = Trainer(model=model,args=training_args,train_dataset=train_dataset,eval_dataset=eval_dataset
)# 从最近的检查点恢复训练
trainer.train(resume_from_checkpoint=True)

4. 在 NLP 任务中的应用

在自然语言处理任务中,Checkpoint 主要用于:

  1. 训练 Transformer 模型(如 BERT、GPT)时,保存和恢复训练进度。
  2. 微调预训练模型时,从预训练权重(如 bert-base-uncased)加载 Checkpoint 进行继续训练。
  3. 文本生成任务(如 Seq2Seq 模型),确保中断时可以从最近的 Checkpoint 继续训练。

5. 总结

  • Checkpoint 是深度学习训练过程中保存模型状态的机制,可以防止训练中断带来的损失。
  • 它有助于断点续训、保存最佳模型以及进行迁移学习
  • 在 TensorFlow 和 PyTorch 中都有方便的方式来保存和加载 Checkpoint
  • 在 NLP 任务中,Checkpoint 被广泛用于 Transformer 训练、预训练模型微调等任务

6. 参考资料

  1. 模型训练当中 checkpoint 作用是什么 - 简书

在这里插入图片描述

相关文章:

深度学习中的Checkpoint是什么?

诸神缄默不语-个人CSDN博文目录 文章目录 引言1. 什么是Checkpoint?2. 为什么需要Checkpoint?3. 如何使用Checkpoint?3.1 TensorFlow 中的 Checkpoint3.2 PyTorch 中的 Checkpoint3.3 transformers中的Checkpoint 4. 在 NLP 任务中的应用5. 总…...

STM32开发笔记,编译与烧录

1. Keil开发环境 【Project】》【Manager】》【Pack Installer】选择相应的芯片,Unpack安装。 2. 编译 3. 烧录 烧录时,Boot0 为 1,Boot1 为 0。烧录后启动,Boot0 为 0 ,Boot 1 为 0。 3.1 ST-LINK烧录 测试连接&a…...

【CXX-Qt】1 CXX-Qt入门

与其他Qt-Rust绑定相比,CXX-Qt的目标不仅仅是将Qt功能暴露给Rust,而是完全将Rust集成到Qt生态系统中。我们将通过一个最小示例,展示如何使用CXX-Qt在Rust中创建自己的QObject,并将其与基于QML的小型GUI集成。 一、阅读前准备知识…...

JS宏进阶:XMLHttpRequest对象

一、概述 XMLHttpRequest简称XHR,它是一个可以在JavaScript中使用的对象,用于在后台与服务器交换数据,实现页面的局部更新,而无需重新加载整个页面,也是Ajax(Asynchronous JavaScript and XML)…...

物联网智能语音控制灯光系统设计与实现

背景 随着物联网技术的蓬勃发展,智能家居逐渐成为现代生活的一部分。在众多智能家居应用中,智能灯光控制系统尤为重要。通过语音控制和自动调节灯光,用户可以更便捷地操作家中的照明设备,提高生活的舒适度与便利性。本文将介绍一…...

hyperf知识问题汇总

1、简单说下 hyperf(什么是 hyperf) 答:hyperf 是一个依赖swoole扩展的 php 开源开发框架,它由黄朝辉团队设计创建维护,具备简洁而强大的组件和超强的并发性能,而且还支持微服务架构,例如&…...

制药行业 BI 可视化数据分析方案

一、行业背景 随着医药行业数字化转型的深入,企业积累了海量的数据,包括销售数据、生产数据、研发数据、市场数据等。如何利用这些数据,挖掘其价值,为企业决策提供支持,成为医药企业面临的重大挑战。在当今竞争激烈的…...

【SVN基础】

软件:ToritoiseSVN 代码版本回退:回退到上一个版本 问题:SVN版本已经提交了版本1和版本2,现在发现不需要版本2的内容,需要回退到版本1然后继续开发。 如图SVN版本已经提交到了107版本,那么本地仓库也已经…...

多项式插值(数值计算方法)Matlab实现

多项式插值(数值计算方法)Matlab实现 一. 原理介绍二. 程序设计1. 构建矩阵2. 求解矩阵方程3. 作出多项式函数4. 绘制插值曲线5. 完整代码 三. 图例 一. 原理介绍 关于插值的定义及基本原理可以参照如下索引 插值原理(数值计算方法&#xff…...

[AI]Mac本地部署Deepseek R1模型 — — 保姆级教程

[AI]Mac本地部署DeepSeek R1模型 — — 保姆级教程 DeepSeek R1是中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1。 作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MI…...

android手机本地部署deepseek1.5B

手机本地部署大模型需要一个开源软件 Release Release v1.6.7 a-ghorbani/pocketpal-ai GitHub 下载release版本apk 它也支持ios,并且是开源的,你可以编译修改它 安装完后是这样的 可以下载推荐的模型,也可以在pc上下载好,然后copy到手机里 点 + 号加载本地模型...

理解UML中的四种关系:依赖、关联、泛化和实现

在软件工程中,统一建模语言(UML)是一种广泛使用的工具,用于可视化、设计、构造和文档化软件系统。UML提供了多种图表类型,如类图、用例图、序列图等,帮助开发者和设计师更好地理解系统的结构和行为。在UML中…...

机器学习 - 词袋模型(Bag of Words)实现文本情感分类的详细示例

为了简单直观的理解模型训练,我这里搜集了两个简单的实现文本情感分类的例子,第一个例子基于朴素贝叶斯分类器,第二个例子基于逻辑回归,通过这两个例子,掌握词袋模型(Bag of Words)实现文本情感…...

Kimi k1.5: Scaling Reinforcement Learning with LLMs

TL;DR 2025 年 kimi 发表的 k1.5 模型技术报告,和 DeepSeek R1 同一天发布,虽然精度上和 R1 有微小差距,但是文章提出的 RL 路线也有很强的参考意义 Paper name Kimi k1.5: Scaling Reinforcement Learning with LLMs Paper Reading Note…...

如何评估云原生GenAI应用开发中的安全风险(下)

以上就是如何评估云原生GenAI应用开发中的安全风险系列中的上篇内容,在本篇中我们介绍了在云原生AI应用开发中不同层级的风险,并了解了如何定义AI系统的风险。在本系列下篇中我们会继续探索我们为我们的云原生AI应用评估风险的背景和意义,并且…...

ASP.NET Core程序的部署

发布 不能直接把bin/Debug部署到生产环境的服务器上,性能低。应该创建网站的发布版,用【发布】功能。两种部署模式:“框架依赖”和“独立”。独立模式选择目标操作系统和CPU类型。Windows、Linux、iOS;关于龙芯。 网站的运行 在…...

《深度LSTM vs 普通LSTM:训练与效果的深度剖析》

在深度学习领域,长短期记忆网络(LSTM)以其出色的处理序列数据能力而备受瞩目。而深度LSTM作为LSTM的扩展形式,与普通LSTM在训练和效果上存在着一些显著的不同。 训练方面 参数数量与计算量:普通LSTM通常只有一层或较少…...

Spring依赖注入方式

写在前面:大家好!我是晴空๓。如果博客中有不足或者的错误的地方欢迎在评论区或者私信我指正,感谢大家的不吝赐教。我的唯一博客更新地址是:https://ac-fun.blog.csdn.net/。非常感谢大家的支持。一起加油,冲鸭&#x…...

Photoshop自定义键盘快捷键

编辑 - 键盘快捷键 CtrlShiftAltK 把画笔工具改成Q , 橡皮擦改成W , 涂抹工具改成E , 增加和减小画笔大小A和S 偏好设置 - 透明度和色域 设置一样颜色 套索工具 可以自定义套选一片区域 Shiftf5 填充 CtrlU 可以改颜色/色相/饱和度 CtrlE 合并图层 CtrlShiftS 另存…...

解决VsCode的 Vetur 插件has no default export Vetur问题

文章目录 前言1.问题2. 原因3. 解决其他 前言 提示: 1.问题 Cannot find module ‘ant-design-vue’. Did you mean to set the ‘moduleResolution’ option to ‘node’, or to add aliases to the ‘paths’ option? Module ‘“/xxx/xxx/xxx/xxx/xxx/src/vie…...

关于浏览器缓存的思考

问题情境 开发中要实现一个非原生pdf预览功能,pdf链接放在一个固定的后台地址,当重新上传pdf后,预览pdf仍然是上一次的pdf内容,没有更新为最新的内容。 查看接口返回状态码为 200 OK(from disk cache), 表示此次pdf返回…...

Vue3+element-plus表单重置resetFields方法失效问题

遇到的其中一种情况: bug:在当前页面直接筛选重置,重置方法生效;但先筛选,再切换别的页面,再切回原页面重置,重置无效(keep-alive的页面无此bug) 原因: 1.Vue…...

解释和对比“application/octet-stream“与“application/x-protobuf“

介绍 在现代 Web 和分布式系统的开发中,数据的传输和交换格式扮演着关键角色。为了确保数据在不同系统之间的传输过程中保持一致性,MIME 类型(Multipurpose Internet Mail Extensions)被广泛应用于描述数据的格式和内容类型。在 …...

1158:求1+2+3+...

【题目描述】 用递归的方法求123……N123……N的值。 【输入】 输入N。 【输出】 输出和。 【输入样例】 5 【输出样例】 15 【解题思路】 递归 递归问题:求12…k的和递归关系:如果想求12…k的和,需要先求12…k-1的和,再加上…...

前端实现在PDF上添加标注(1)

前段时间接到一个需求,用户希望网页上预览PDF,同时能在PDF上添加文字,划线,箭头和用矩形框选的标注,另外还需要对已有的标注进行修改,删除。 期初在互联网上一通搜索,对这个需求来讲发现了两个问…...

螺旋矩阵 II

螺旋矩阵 II 一、题目描述 给定一个正整数 n,请你生成一个包含 1 到 n^2 所有元素的 n x n 正方形矩阵,元素顺序按顺时针的方式进行螺旋排列。 示例 1:输入:n 3 输出:[[1,2,3],[8,9,4],[7,6,5]]示例 2:…...

【愚公系列】《Python网络爬虫从入门到精通》001-初识网络爬虫

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主&…...

【linux学习指南】模拟线程封装与智能指针shared_ptr

文章目录 📝线程封装🌉 Thread.hpp🌉 Makefile 🌠线程封装第一版🌉 Makefile:🌉Main.cc🌉 Thread.hpp: 🌠线程封装第二版🌉 Thread.hpp:🌉 Main.cc &#x1f…...

10、Python面试题解析:解释reduce函数的工作原理

reduce 是 Python 中的一个高阶函数,位于 functools 模块中。它的作用是将一个可迭代对象(如列表、元组等)中的元素依次通过一个二元函数(即接受两个参数的函数)进行累积计算,最终返回一个单一的结果。 1.…...

【含开题报告+文档+PPT+源码】学术研究合作与科研项目管理应用的J2EE实施

开题报告 本研究构建了一套集注册登录、信息获取与科研项目管理于一体的综合型学术研究合作平台。系统用户通过注册登录后,能够便捷地接收到最新的系统公告和科研动态新闻,并能进一步点击查看详尽的新闻内容。在科研项目管理方面,系统提供强…...