当前位置：首页 > news >正文

深度学习中的知识蒸馏

news 2026/4/30 15:38:44

大家好，我是小青

今天给大家分享神经网络中的一个关键概念，知识蒸馏

知识蒸馏（Knowledge Distillation）是一种模型压缩技术，旨在将大型、复杂的模型（通常称为教师模型）的知识迁移到小型、简单的模型（学生模型）中。通过这种方式，学生模型可以在保持较高性能的同时，显著减少计算资源和存储需求。

知识蒸馏广泛用于深度学习领域，尤其在计算资源有限的场景（如移动端设备、嵌入式设备）中，用于加速推理、减少存储成本，同时尽可能保持模型性能。

核心思想

知识蒸馏的核心思想是利用教师模型的输出（通常是软标签，即概率分布）来指导学生模型的训练。与传统的监督学习不同，知识蒸馏不仅使用真实标签（硬标签），还利用教师模型生成的软标签来传递更多的信息。

通过这种方式，学生模型不仅学习到数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力。

关键技术与方法

知识蒸馏的核心在于让学生模型不仅仅学习真实标签，还学习教师模型提供的软标签，即教师模型输出的概率分布。这种方式可以让学生模型获得更丰富的信息。

传统神经网络的交叉熵损失

在传统的神经网络训练中，我们通常用交叉熵损失（Cross-Entropy Loss）来训练分类模型：

传统的交叉熵损失函数仅利用了数据的硬标签（hard labels），即仅在真实类别处为 1，其他类别为 0，导致模型无法学习类别之间的相似性信息。

知识蒸馏的损失函数

在知识蒸馏中，教师模型提供了一种软标签（soft targets），即对所有类别的预测分布，而不仅仅是单个类别。

这些软标签由温度化 Softmax 得到。

知识蒸馏的优势

模型压缩：学生模型通常比教师模型小得多，适合在资源受限的设备上部署。
性能保持：通过知识蒸馏，学生模型能够在保持较高性能的同时，显著减少计算资源和存储需求。
泛化能力：软标签提供了更多的信息，有助于学生模型更好地泛化。

知识蒸馏的变种

除了标准的知识蒸馏方法，研究人员还提出了多个改进版本。

自蒸馏（Self-Distillation）：模型自身作为教师，将深层网络的知识蒸馏到浅层部分。
多教师蒸馏（Multi-Teacher Distillation）：多个教师模型联合指导学生模型，融合不同教师的知识。
在线蒸馏（Online Distillation）：教师模型和学生模型同步训练，而不是先训练教师模型再训练学生模型。

案例分享

下面是一个完整的知识蒸馏的示例代码，使用 PyTorch 训练一个教师模型并将其知识蒸馏到学生模型。

这里，我们采用 MNIST 数据集，教师模型使用一个较大的神经网络，而学生模型是一个较小的神经网络。

首先，定义教师模型和学生模型。

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
# 教师模型（较大的神经网络）
class TeacherModel(nn.Module):def __init__(self):super(TeacherModel, self).__init__()self.fc1 = nn.Linear(28 * 28, 512)self.fc2 = nn.Linear(512, 256)self.fc3 = nn.Linear(256, 10)def forward(self, x):x = x.view(-1, 28 * 28)x = F.relu(self.fc1(x))x = F.relu(self.fc2(x))x = self.fc3(x)  # 注意这里没有 Softmaxreturn x# 学生模型（较小的神经网络）
class StudentModel(nn.Module):def __init__(self):super(StudentModel, self).__init__()self.fc1 = nn.Linear(28 * 28, 128)self.fc2 = nn.Linear(128, 10)def forward(self, x):x = x.view(-1, 28 * 28)x = F.relu(self.fc1(x))x = self.fc2(x)  # 注意这里没有 Softmaxreturn x

然后加载数据集。

# 数据预处理
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])# 加载 MNIST 数据集
train_dataset = datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root="./data", train=False, download=True, transform=transform)train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000, shuffle=False)

训练教师模型

def train_teacher(model, train_loader, epochs=5, lr=0.001):optimizer = optim.Adam(model.parameters(), lr=lr)criterion = nn.CrossEntropyLoss()for epoch in range(epochs):model.train()total_loss = 0for images, labels in train_loader:optimizer.zero_grad()output = model(images)loss = criterion(output, labels)loss.backward()optimizer.step()total_loss += loss.item()print(f"Epoch [{epoch+1}/{epochs}], Loss: {total_loss / len(train_loader):.4f}")# 初始化并训练教师模型
teacher_model = TeacherModel()
train_teacher(teacher_model, train_loader)

知识蒸馏训练学生模型

def distillation_loss(student_logits, teacher_logits, labels, T=3.0, alpha=0.5):"""计算蒸馏损失，结合知识蒸馏损失和交叉熵损失"""soft_targets = F.softmax(teacher_logits / T, dim=1)  # 教师模型的软标签soft_predictions = F.log_softmax(student_logits / T, dim=1)  # 学生模型的预测distillation_loss = F.kl_div(soft_predictions, soft_targets, reduction="batchmean") * (T ** 2)ce_loss = F.cross_entropy(student_logits, labels)return alpha * ce_loss + (1 - alpha) * distillation_lossdef train_student_with_distillation(student_model, teacher_model, train_loader, epochs=5, lr=0.001, T=3.0, alpha=0.5):optimizer = optim.Adam(student_model.parameters(), lr=lr)teacher_model.eval()  # 设定教师模型为评估模式for epoch in range(epochs):student_model.train()total_loss = 0for images, labels in train_loader:optimizer.zero_grad()student_logits = student_model(images)with torch.no_grad():teacher_logits = teacher_model(images)  # 获取教师模型输出loss = distillation_loss(student_logits, teacher_logits, labels, T=T, alpha=alpha)loss.backward()optimizer.step()total_loss += loss.item()print(f"Epoch [{epoch+1}/{epochs}], Loss: {total_loss / len(train_loader):.4f}")# 初始化学生模型
student_model = StudentModel()
train_student_with_distillation(student_model, teacher_model, train_loader)

评估模型

def evaluate(model, test_loader):model.eval()correct = 0total = 0with torch.no_grad():for images, labels in test_loader:outputs = model(images)_, predicted = torch.max(outputs, 1)correct += (predicted == labels).sum().item()total += labels.size(0)accuracy = 100 * correct / totalreturn accuracy# 评估教师模型
teacher_acc = evaluate(teacher_model, test_loader)
print(f"教师模型准确率: {teacher_acc:.2f}%")# 评估知识蒸馏训练的学生模型
student_acc_distilled = evaluate(student_model, test_loader)
print(f"知识蒸馏训练的学生模型准确率: {student_acc_distilled:.2f}%")

深度学习中的知识蒸馏

大家好，我是小青今天给大家分享神经网络中的一个关键概念，知识蒸馏知识蒸馏（Knowledge Distillation）是一种模型压缩技术，旨在将大型、复杂的模型（通常称为教师模型）的知识迁移到小型、简单…...

编程日记 2025/2/19 10:20:19

【Windows软件 - HeidiSQL】导出数据库

HeidSQL导出数据库软件信息具体操作示例文件选项分析选项（1） 结果（1） -- -------------------------------------------------------- -- 主机: 127.0.0.1 -- 服务器版本: …...

编程日记 2025/2/19 10:19:18

苏剑林“闭门造车”之多模态思路浅谈思考

原文来自科学空间苏剑林 “闭门造车”之多模态思路浅谈（一）：无损输入和“闭门造车”之多模态思路浅谈（二）：自回归，学习后总结。文章目录 “闭门造车”之多模态思路浅谈（一&#xff…...

编程日记 2025/2/19 10:14:12

绿联nas docker 安装 rocketmq 队列。亲测可用

首先拉取docker 镜像，所需镜像如下： 安装 nameserver docker run -d -p 9876:9876 \ -v ${HOME}/docker/software/rocketmq/data/namesrv/logs:/opt/logs \ -v ${HOME}/docker/software/rocketmq/data/namesrv/store:/opt/store \ --name rmqnamesrv \ …...

编程日记 2025/2/19 10:13:11

C++(23)：unreachable

C++23在头文件 "><utility>定义了std::unreachable()，用于指示编译器，该段代码不应该被允许，因此编译器可以对该位置进行优化，如果一旦允许了该位置的代码，行为未定义： #include <utility> #include <iostream>using namespace std;int func(…...

编程日记 2025/2/19 10:12:09

初等数论--欧几里得算法

1. 定义 u 0 u 1 ∈ Z , u 1 ≠ 0 , u 1 ∤ u 0 u_0\ u_1\in Z,u_1 \ne0,u_1 \nmid u_0 u0 u1∈Z,u10,u1∤u0 根据带余除法可得下面一系列等式 u 0 q 0 u 1 u 2 0 < u 2 < ∣ u 1 ∣ u 1 q 0 u 2 u 3 0 < u 3 < u 2 ⋯ u k − 1 q k − 1 u k …...

编程日记 2025/2/19 10:10:06

阿里云前端自动化部署流程指南

本文详细介绍从前端代码开发到阿里云 OSS/CDN 自动化部署的完整流程。一、流程概览 © ivwdcwso (ID: u012172506) 1.1 部署流程图 #mermaid-svg-H1LBBmwTHAAF3QTL {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermai…...

编程日记 2025/2/19 10:09:05

EXCEL解决IF函数“您已为此函数输入太多个参数”的报错

IF函数的基本结构是IF(条件, 值为真时的结果, 值为假时的结果)，所以标准的IF函数最多只能有三个参数。当用户输入的参数超过三个时，Excel就会报这个错误。比如多个IF语句叠加，但可能在嵌套的过程中没有正确关闭每个IF函数的括号，导…...

编程日记 2025/2/19 9:58:52

CAS单点登录（第7版）18.日志和审计

如有疑问，请看视频：CAS单点登录（第7版） 日志和审计 Logging 概述 Logging CAS 提供了一个日志记录工具，用于记录重要信息事件，如身份验证成功和失败;可以对其进行自定义以生成用于故障排除的其他信息。…...

编程日记 2025/2/19 9:56:50

2025年软件测试面试题大全(附答案+文档)

🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快一、测试基础 1、测试策略或测试包括哪些，测试要覆盖哪些方面 UI、功能、性能、可靠性、易用性、兼容性、安全性、安装卸载 2、设计测试用例的办法 …...

编程日记 2025/2/19 9:54:47

太空飞船任务，生成一个地球发射、火星着陆以及下一次发射窗口返回地球的动画3D代码

import numpy as np import matplotlib.pyplot as plt from matplotlib.animation import FuncAnimation from mpl_toolkits.mplot3d import Axes3D# 天体参数设置（简化模型） AU 1.5e8 # 天文单位（公里） earth_orbital_radius …...

编程日记 2025/2/19 9:52:45

IDEA——Mac版快捷键

目录按键含义常用组合代码生成快捷键：代码追踪快捷键：高效编辑快捷键：代码重构快捷键：工具类快捷键：常规文件操作快捷键： 按键含义 ⌘ command Command键（⌘）相当于Windows中的Con…...

编程日记 2025/2/19 9:51:43

智能体系统（AI Agent System）是什么？——从概念解析到企业数字化转型的全景落地及投资视角

文章目录一、前言1.1 背景介绍1.2 写作目的二、智能体系统及相关概念解析2.1 智能体系统定义2.2 关键概念区分2.2.1 自主代理（Autonomous Agent）2.2.2 多智能体系统（MAS）2.2.3 人工智能/机器学习（AI/ML&#xff09…...

编程日记 2025/2/19 9:50:41

Vue 前端开发中的路由知识：从入门到精通

文章目录引言1. Vue Router 简介1.1 安装 Vue Router1.2 配置 Vue Router1.3 在 Vue 实例中使用 Vue Router 2. 路由的基本用法2.1 路由映射2.2 路由视图2.3 路由链接 3. 动态路由3.1 动态路径参数3.2 访问动态参数3.3 响应路由参数的变化 4. 嵌套路由4.1 定义嵌套路由4.2 渲染…...

编程日记 2025/2/19 9:49:40

前端VUE+后端uwsgi 环境搭建

1整体架构请求流程the web clinet--the web server->the socket->uwsgi--django 第一级的nginx并不是必须的，uwsgi完全可以完成整个的和浏览器交互的流程；在nginx上加上安全性或其他的限制，可以达到保护程序的作用；uWSGI本…...

编程日记 2025/2/19 9:47:38

I2C实践开发 ---【STM32-I2C-HDC1080温湿度采集系统】

I2C实践开发 — STM32-I2C-HDC1080温湿度采集系统目录 I2C实践开发 --- STM32-I2C-HDC1080温湿度采集系统1. 引言2. 系统架构2.1 硬件架构2.2 软件架构 3. 代码分析3.1 I2C驱动文件 (i2c.h 和 i2c.c)3.2 HDC1080传感器驱动文件 (hdc1080.h 和 hdc1080.c) 4. 功能总结【HDC1080…...

编程日记 2025/2/19 9:45:36

【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调【完整教程】

文章目录 1.背景2.微调方式2.1 关键环境版本信息2.2 步骤2.2.1 下载llama-factory2.2.2 准备数据集2.2.3 微调模式2.2.3.1 zero-1微调2.2.3.2 zero-2微调2.2.3.3 zero-3微调2.2.3.4 单卡Lora微调 2.2.4 实验2.2.4.1 实验1：多GPU微调-zero12.2.4.2 实验2：…...

编程日记 2025/2/19 9:44:35

浏览器报错：无法访问此网站无法找到xxx.xxx.net的DNS地址。正在诊断该问题。尝试运行Windows网络诊断。DNS_PROBE_STARTED

🤟致敬读者 🟩感谢阅读🟦希望我的文章能帮到您🟪如有兴趣可点关注了解更多内容 📘博主信息点击标题👆有惊喜 📃文章前言 🔷文章均为学习和工作中整理的笔记，分享记录…...

编程日记 2025/2/19 9:43:33

【设计模式】代理模式（静态代理、动态代理{JDK动态代理、JDK动态代理与CGLIB动态代理的区别}）

代理模式代理模式是一种结构型设计模式，它提供了一种替代访问的方法，即通过代理对象来间接访问目标对象。代理模式可以在不改变原始类代码的情况下，增加额外的功能，如权限控制、日志记录等。静态代理静态代理是指创建的或特…...

编程日记 2025/2/19 9:42:32

网络安全-攻击流程-用户层

用户层攻击主要针对操作系统中的用户空间应用程序及用户权限，利用软件漏洞、配置错误或用户行为弱点进行攻击。以下是常见的用户层攻击类型及其流程，以及防御措施： 1. 缓冲区溢出攻击攻击流程： 目标识别：确定存在漏…...

编程日记 2025/2/19 9:40:30

ExplorerPatcher终极指南：深度定制Windows任务栏与开始菜单的完整解决方案

ExplorerPatcher终极指南：深度定制Windows任务栏与开始菜单的完整解决方案【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher Explore…...

编程新知 2026/4/30 15:10:25

基于Streamlit和OpenAI构建AI辅导助手的实践指南

1. 从零构建AI辅导助手的完整指南去年我在辅导表弟数学时萌生了一个想法：能否用AI技术打造一个24小时在线的全能辅导助手？经过三个月的迭代开发，终于完成了一个基于Streamlit和OpenAI的智能辅导系统。这个项目最让我惊喜的是，它不…...

编程新知 2026/4/30 12:29:57

从p值到Policy Impact：R语言驱动的LLM偏见归因分析——27个统计检验组合在医疗/招聘/司法场景中的实证效能排名

更多请点击： https://intelliparadigm.com 第一章：R语言在LLM偏见检测中的统计方法导论大型语言模型（LLM）的输出常隐含社会、性别或地域偏见，而R语言凭借其强大的统计建模能力与可复现性分析生态，正成为量…...

编程新知 2026/4/30 12:07:02

从晶体管到加法器：手把手用Cadence Virtuoso搭建1bit全加器（附180nm工艺库）

从晶体管到加法器：Cadence Virtuoso实战1bit全加器设计指南在数字集成电路设计的浩瀚宇宙中，全加器如同最基础的星辰，构成了复杂计算系统的根基。当我们谈论CPU的运算单元或AI加速器的矩阵乘法，其本质都是由无数个这样的1bit全加…...

编程新知 2026/4/30 10:59:38

AI开发者必抢的最后3套沙箱调试镜像！——基于Docker 25.0-rc1内核模块hook源码定制的4层隔离验证环境

更多请点击： https://intelliparadigm.com 第一章：AI开发者必抢的最后3套沙箱调试镜像！——基于Docker 25.0-rc1内核模块hook源码定制的4层隔离验证环境为应对大模型推理链路中不可控的系统调用污染与CUDA上下文泄漏问题，我们基…...

编程新知 2026/4/30 10:51:33

三步打造流畅动画：React Native Reanimated 链式构建神器

三步打造流畅动画：React Native Reanimated 链式构建神器【免费下载链接】react-native-reanimated React Natives Animated library reimplemented 项目地址: https://gitcode.com/GitHub_Trending/re/react-native-reanimated React Native Reanimated 是…...

编程新知 2026/4/30 10:43:22

Full Page Screen Capture：彻底解决长网页截图难题的终极工具

Full Page Screen Capture：彻底解决长网页截图难题的终极工具【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-chrom…...

编程新知 2026/4/30 9:05:48

技术赎罪券交易：软件测试从业者的专业实践与未来展望

在软件开发的复杂生态中，每一行代码都可能潜藏缺陷——这些“代码原罪”源于人为失误、需求漂移或技术债务积累。2026年，全球因代码错误导致的系统崩溃事件年增长率高达15%，尤其在金融和医疗领域，后果往往是灾难性的。作为软件测试…...

编程新知 2026/4/30 8:53:52

MCP服务器监控：协议追踪、工具执行与资源访问实践

1. MCP服务器监控的独特挑战在构建Model Context Protocol（MCP）服务器的生产实践中，我发现传统的监控方案很难满足这种特殊协议的需求。MCP不同于普通的REST或gRPC服务，它通过长连接（如stdio、HTTP/SSE）实现…...

编程新知 2026/4/30 8:31:35

2026年4月快结束了，这三大 Linux 发行版稳居前三

Linux 发行版不同于 Windows 或 macOS，它没有强制性的后台遥测数据，也没有一个中央数据库来统计确切的装机量。目前行业内公认的参考指标是 DistroWatch。这家自 2001 年以来就一直在追踪 Linux 动态的网站，通过 HPD（每日点击量）来衡量社区的关注度。虽然点击量并不完全…...

编程新知 2026/4/30 8:27:34