【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
阅读时间:2023-11-23
1 介绍
年份:2017
作者:Friedemann Zenke,巴塞尔大学弗里德里希·米歇尔研究所(FMI) Ben Poole,谷歌 DeepMind 研究科学家
期刊: International conference on machine learning. PMLR
引用量:2309
这篇论文介绍了受生物神经网络启发的智能突触,用于解决人工神经网络(ANNs)中的忘却灾难问题。当ANNs学习新任务时,会忘记之前学习的任务,这就是所谓的忘却灾难。智能突触通过累积与任务相关的信息来存储新记忆,而不会忘记旧记忆,从而减少忘却,同时保持计算效率。该方法通过为每个突触赋予一个本地的“重要性”度量,来衡量突触在过去训练任务中解决问题的能力。在训练新任务时,对于重要的参数变化进行惩罚,以避免旧的记忆被覆盖。该方法通过保留对过去任务重要参数的改变,同时只允许不重要的参数学习来避免灾难性遗忘。
2 创新点
- 引入了 intelligent synapses(智能突触)的概念,智能突触通过累积与任务相关的信息来存储新的记忆,同时不会忘记旧的记忆,从而降低遗忘,同时保持计算效率。通过单个突触估计其对过去任务的重要性,并对最重要突触的变化惩罚来解决灾难性遗忘。
- 这篇论文指出,ANNs的问题在于它们未能融入生物突触的复杂性,而生物突触使用复杂的分子机制来影响各种时间和空间尺度上的可塑性。因此,论文提出了三种缓解灾难性遗忘的方法:架构、功能和结构方法。而本文提出的方法是一种结构正则化器,可以在线计算和在每个突触局部实施。该方法保持了总损失函数关于所有任务的总和的全局损失,从而减少了在过去被认为是具有重要影响的权重的剧烈变化。
- 智能突触为ANNs引入了生物复杂性,并使其能够在数据分布可能随时间改变的新领域中实现持续学习。
3 相关研究
作者说分为三种研究方向,其实细分的话,可以分为四种:
(1)架构
架构方法通过改变网络的架构来减少任务之间的干扰,而不改变目标函数。最简单的架构正则化形式是冻结网络中的某些权重,使其保持完全相同(Razavian et al., 2014)。更灵活的方法是减少与原始任务共享的层的学习率,同时进行微调,以避免参数的剧烈变化(Donahue et al., 2014; Yosinski et al., 2014)。使用ReLU、MaxOut和局部取胜等不同非线性的方法已被证明可提高在排列的MNIST和情感分析任务上的性能(Srivastava et al., 2013; Goodfellow et al., 2013)。此外,注入噪声以稀疏梯度(使用dropout)也可以提高性能(Goodfellow et al., 2013)。Rusu等人(2016)最近的工作提出了更大胆的架构改变,其中先前任务的整个网络被复制并增加了新的特征,同时解决新任务。这样完全可以防止对前面任务的遗忘,但是随着任务数量的增加,架构复杂性也会增加。
(2)功能
功能方法对灾难性遗忘进行附加惩罚项,惩罚神经网络输入-输出函数的变化。在Li&Hoiem(2016)中,通过使用知识蒸馏的一种形式,鼓励先前任务网络和当前网络在应用于新任务的数据时的预测结果相似(Hinton et al., 2014)。类似地,Jung等人(2016)使用最终隐藏激活之间的L2距离进行正则化,而不是使用知识蒸馏惩罚项。这两种正则化方法旨在通过使用先前任务的参数存储或计算额外的激活来保留旧任务的输入-输出映射的某些方面。这使得功能方法变得计算上昂贵,因为它要求每个新数据点都要通过旧任务的网络进行前向传递。
(3)正则化
第三种技术是结构正则化,涉及对参数施加惩罚,以使其保持接近于旧任务的参数。最近,Kirkpatrick等人(2017)提出了弹性权重合并(EWC),对新任务的参数和旧任务的参数之间的差异施加二次惩罚。他们使用的对角线加权与旧任务上旧参数的Fisher信息度量的对角线成正比。准确计算Fisher的对角线需要对所有可能的输出标签求和,因此其复杂度与输出数量成线性关系。这限制了这种方法在低维输出空间中的应用。
4 算法
4.1 算法原理
在学习一个任务后,由于只能访问当前任务的损失函数,无法直接使用该任务的损失函数,所以作者构造一个代理损失函数(surrogate loss)来近似原始损失函数。这样在训练新任务时,对于重要的参数变化进行惩罚,以避免旧的记忆被覆盖。
图中展示了在学习完一个任务后,使用二次代理损失函数来匹配原始损失函数下降动态的情况。这个二次代理损失函数满足三个条件:总损失函数的下降量、参数空间的总运动量和在末态达到最小值。这个代理损失函数的构造能更好地总结原始损失函数的下降轨迹。
该方法中,作者目标是限制重要参数的改变,使用二次代理损失来近似对过去任务的损失函数,并将重要参数的改变量与参数距离相结合。通过调整二次代理损失的强度参数,可以权衡对新旧任务的记忆。
其中,c为强度参数,c = 1将对应于对旧记忆和新记忆的等权重分配, θ k \theta_{k} θk为网络权重参数, Ω k u \Omega_k^u Ωku为参数特定的正则化强度, ξ \xi ξ为额外的阻尼参数,用于在 Δ k v \Delta_k^v Δkv趋于0的情况下限制表达式, ω k u \omega_k^u ωku表示每个参数对总损失变化的贡献, ( Δ k v ) 2 (\Delta_k^v)^2 (Δkv)2确保正则化项具有与损失 L 相同的单位。
与现有的EWC方法相比,这种方法中的重要性计算(路径积分,path integral)是通过沿着整个学习轨迹进行信息积分来计算的,而不是在每个任务结束时计算Fisher信息矩阵的对角线,具体的如何根据学习轨迹计算参数的重要性,需要搞明白几个公式推导。
4.2 推导证明
换一种说法,首先要计算参数的重要性,然后对重要的参数进行限制改变。
(1)参数的重要性计算:
对于每个任务µ,根据以下公式计算每个参数的路径积分损失函数 ω k u \omega_k^u ωku。路径积分损失函数是参数在整个学习轨迹上的贡献的累加,表示参数的重要性。
ω k u = ∫ 0 ∞ θ k T Q d θ \omega_k^u = \int_0^{\infty} \theta_k^TQd\theta ωku=∫0∞θkTQdθ
其中, Q表示参数Hessian矩阵H的对角元素。具体按照以下步骤计算 :
- 计算参数Hessian矩阵H的特征值和特征向量,并将其表示为 λ α \lambda_{\alpha} λα 和 u α u_{\alpha} uα。
- 计算初始参数与最终参数之间的差异在特征向量 α \alpha α上的投影 d α = u α ⋅ ( θ ( 0 ) − θ ∗ ) d_{\alpha} = u_{\alpha}\cdot (\theta(0)-\theta^*) dα=uα⋅(θ(0)−θ∗)。
- 将公式(9)插入到公式(10)中,并进行基础变换以得到H的特征模式,然后进行积分计算,可以得到:
Q = ∫ 0 ∞ e − H τ t d t Q = \int_0^{\infty} e^{-H \tau t}dt Q=∫0∞e−Hτtdt
最终,通过计算路径积分损失函数 ω k u \omega_k^u ωku,可以获得参数 θ k \theta_k θk在整个学习轨迹中的重要性。
(2)以正则项加入损失函数
根据计算得到的路径积分损失函数,通过引入二次替代损失来近似参数的重要性,并保持与之前任务的损失函数相同的最小值和在参数距离上相同的下降量。
(3)更新梯度
在训练新任务时,通过惩罚对重要参数的变化来避免覆盖旧的记忆。
5 实验分析
采用的数据集有:split MNIST、permuted MNIST、split CIFAR-10、split CIFAR-100
5.1 Split MNIST
采用只有两层的MLP模型。在训练第一个任务时,两种情况下的惩罚都是零,。当在数字“2”和“3”上进行训练时(任务2),具有和没有整合的模型在任务2上的准确率都接近1。
5.2 permuted MNIST
- 当不使用突触巩固(不使用正则化项)时,神经网络在学习新任务时会迅速忘记之前的任务。相比之下,通过启用突触巩固,并选择合适的参数c > 0,同一个网络在学习9个附加任务时能够保持高的分类准确性。
- 该网络学习解决所有其他任务的准确性也很高,并且仅稍微比同时训练所有数据的网络差一点。
- 实验结果与EWC的结果接近
为了更好地理解训练过程中的突触动力学,我们可视化了不同任务之 ω k u \omega_k^u ωku的成对相关性。发现,当不进行巩固时,第二个隐藏层的 ω k u \omega_k^u ωku在不同任务之间是相关的,这可能是灾难性遗忘的原因。然而,通过巩固,这些有助于降低损失的突触集在不同任务之间基本上是不相关的,因此在更新权重以解决新任务时避免了干扰。
5.3 Split CIFAR-10/CIFAR-100
采用4个卷积层和2个带有dropout的全连接层的CNN模型,通过改变参数c的值(在1×10−3 < c < 0.1的范围内),来确定最佳c的值。研究结果发现,在训练了所有任务之后,使用巩固的网络在所有任务上的验证准确度相似,而未使用巩固的网络在老任务上的准确度明显降低。重要的是,使用巩固训练的网络性能总是优于未使用巩固的网络,除了最后一个任务。最后,对比使用巩固训练的网络在所有任务上的性能与从头(from stratch)开始训练的网络的性能,发现前者表现更好。
总之,这项研究表明在更复杂的数据集和更大的模型上,通过突触巩固动力学可以防止灾难性遗忘,并提高网络的泛化性能。
6 思考
(1)本文提出的方法在正则化惩罚方面与 EWC 类似,区别在于计算突触重要性的方式上有所不同。
- SI方法是在线计算和沿着整个学习轨迹计算重要性衡量,而EWC方法则是在每个任务结束时,依赖于参数最终值的点估计来计算重要性。
- SI方法通过结构化的正则化器来减少参数的突然改变,EWC方法需要在单独的阶段计算参数的Fisher信息矩阵的对角线 。
- SI方法可以在每个突触本地实施,并且可以在线计算,以便在以前的任务中引导学习 。
(2)代理损失函数中的常数c成为了一个超参数,需要对不同任务进行调参。c的值在1×10−3 < c < 0.1的范围内。
相关文章:

【博士每天一篇论文-算法】Continual Learning Through Synaptic Intelligence,SI算法
阅读时间:2023-11-23 1 介绍 年份:2017 作者:Friedemann Zenke,巴塞尔大学弗里德里希米歇尔研究所(FMI) Ben Poole,谷歌 DeepMind 研究科学家 期刊: International conference on machine learning. PMLR…...

【软件工程】建模工具之开发各阶段绘图——UML2.0常用图实践技巧(功能用例图、静态类图、动态序列图状态图活动图)
更多示例图片可以参考:(除了常见的流程图,其他都有) 概念:类图 静态:用例图 动态:顺序图&状态图&活动图 1、【面向对象】UML类图、用例图、顺序图、活动图、状态图、通信图、构件图、部…...

Typora导出word
Typora导出word Typora是一款简洁易用的Markdown编辑器, Pandoc是一个文档转换工具,可以将Markdown格式的文档转换为其他格式,如HTML、PDF等. linux下安装 Pandoc : sudo apt install -y pandoc安装成功后,typora 会自动监测到. 然后 点击文件->…...

CSS 星空按钮
<template><button class="btn" type="button"><strong>星空按钮</strong><div id="container-stars"><div id="stars"></div></div><div id="glow"><div class=…...

Kotlin快速入门系列10
Kotlin的委托 委托模式是常见的设计模式之一。在委托模式中,有两个对象参与处理同一个请求,接受请求的对象将请求委托给另一个对象来处理。与Java一样,Kotlin也支持委托模式,通过关键字by。 类委托 类的委托即一个类中定义的方…...

Docker中配置MySql环境
目录 一、简单安装 1. 首先从Docker Hub中拉取镜像 2. 启动尝试创建MySQL容器,并设置挂载卷。 3. 查看mysql8这个容器是否启动成功 4. 如果已经成功启动,进入容器中简单测试 4.1 进入容器 4.2 登录mysql中 4.3 进行简单添加查找测试 二、主从复…...

智慧文旅:驱动文化与旅游融合发展的新动力
随着科技的快速发展和人们生活水平的提高,文化和旅游的融合成为了时代发展的必然趋势。智慧文旅作为这一趋势的引领者,通过先进的信息技术手段,推动文化与旅游的深度融合,为产业的发展注入新的活力。本文将深入探讨智慧文旅如何成…...

wordpress怎么做产品展示站?推荐使用MOK主题和ent主题
大多数WordPress站点都是个人博客网站,主要以文章性质的图文为主。不过部分站长想要用WordPress搭建一个产品展示站,应该怎么做呢? 其实,WordPress可以用来建立各种各样的博客网站,包括个人博客、企业网站、商城、影视…...

8、应急响应-战前溯源反制主机蜜罐系统HFishHIDSElkeidWazuh
用途:个人学习笔记,欢迎指正 目录 背景: 一、潮源反制-平台部署-蜜罐-Hfish 二、溯源反制-平台部署-HIDS-Wazuh 三、溯源反制-平台部署-HlDS-Elkeid-hub 背景: 攻击者对服务器存在着各种威胁行为,作为安全人员&am…...

LeetCode:283. 移动零
283. 移动零 1)题目2)代码方法一:两层for循环方法二:使用双指针 3)结果方法一结果方法二结果 1)题目 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的…...

游戏开发丨基于Panda3D的迷宫小球游戏
文章目录 写在前面Panda3D程序设计程序分析运行结果系列文章写在后面 写在前面 本期内容 基于panda3d的迷宫中的小球游戏 所需环境 pythonpycharm或anacondapanda3d 下载地址 https://download.csdn.net/download/m0_68111267/88792121 Panda3D Panda3D是一种开放源代码…...

微信小程序 安卓/IOS兼容问题
一、背景 在开发微信小程序时,不同的手机型号会出现兼容问题,特此记录一下 二、安卓/IOS兼容问题总结 2.1、new Date()时间转换格式时,IOS不兼容 问题:在安卓中时间格式2024-1-31 10:10:10,但是在iOS中是不支持 &q…...

结构体--共用体--枚举 之难点——链表 奋力学习嵌入式的第十六天
结构体 注意: 1.结构体类型 可以定义在 函数里里面 但是此时作用域就被限定在该函数中 2.结构体定义形式 //形式一 限定一类型 后定义变量 struct stu { ... }; struct stu s; //形式二 定义类型的同时 定义变量 struct stu { ... }s1,s2,*s3,s4[10]; struc…...

猜凶手
日本某地发生了一件谋杀案,警察通过排查确定杀人凶手必为4个嫌疑犯的一个。 以下为4个嫌疑犯的供词: A说:不是我。 B说:是C。 C说:是D。 D说:C在胡说 已知3个人说了真话,1个人说的是假话。 现在请根据这…...

python-自动化篇-运维-实现读取日志文件最后一行的时间
文章目录 1. 使用Python打开日志文件2.python读取文件最后一行两种方式3.读取当前时间,进行两者相减,超时报警4.将内容推送到企业微信5. 关闭日志文件整体代码 1. 使用Python打开日志文件 在开始实时读取日志文件之前,我们首先需要打开一个日…...

QT SQL
QT SQL模块提供数据库编程的支持,支持多种常见的数据库:MySQL\Oracle\MS SQL Server\SQLite等。SQL模块包含多个类,可以实现:数据库连接、SQL语句执行、数据获取与界面显示 等功能。数据 与 界面间用Model\View架构。 一、 二、Q…...

C++(20):通过concept及nlohmann将数据转换为字符串
nlohmann可以自动兼容将C++的很多原生类型转换为json,甚至自定义类型也不需要太复杂的操作就可以转换为json,可以利用这一点将数据转换为string: #include <nlohmann/json.hpp> #include <string> #include <vector> #include <tuple> #include <…...

Transformer 自然语言处理(四)
原文:Natural Language Processing with Transformers 译者:飞龙 协议:CC BY-NC-SA 4.0 第十章:从头开始训练变换器 在本书的开头段落中,我们提到了一个名为 GitHub Copilot 的复杂应用,它使用类似 GPT 的…...

BRAIN :帕金森病中与痴呆相关的动态功能连接改变
fMRI成像手段由于其在高空间分辨率的优势获得了疾病研究的青睐,越来越多的疾病研究使用fMRI手段来通过找到特异的神经标记物从而提升临床治疗的诊断效力以及准确率。但是,功能磁共振受到其时间分辨率相对较低这一缺点的影响,在对疾病时间特异…...

harmony os系统
因为实验室配的是Windows电脑,最近在搜索marginnote有没有windows的版本,不然好多功能相似的软件在使用不能信息同步是挺麻烦的。搜索结果当然还是没有对应版本。那我退而求其次,看看怎么在Windows上使用marginnote,结果大家意见基…...

2024美赛数学建模A题思路源码——七鳃鳗性别比例和生态系统关系
赛题目的:分析一个物种根据资源可用性改变其性别比例的能力的利弊。开发一个模型,分析对生态系统中由此产生的相互作用。 问题一.七鳃鳗性别比例对生态系统的影响 问题分析 建立一个简化版的模型,来探讨以下问题: 1.我们假设七鳃鳗种群的增长遵循Logistic生长模型,其中食…...

C语言的基础学习
C语言的变量 ## C语言中的变量 在C语言中,变量是对程序中数据所占内存空间的一种抽象定义。定义变量时,用户定义变量的名、变量的类型,这些都是变量的操作属性。不仅可以通过变量名访问该变量,系统还通过该标识符确定变量在内存中的位置 [❷](https://www.dotcpp.com/cour…...

PostGIS教程学习二十二:使用触发器追踪历史编辑操作
PostGIS教程学习二十二:使用触发器追踪历史编辑操作 生产环境下数据库的一个常见要求是能够跟踪用户编辑数据的历史:数据在两个日期之间是如何变化的,是谁操作的,以及它们哪些内容变化了?一些GIS系统通过在客户端接口…...

【PTA浙大版《C语言程序设计(第4版)》编程题】练习7-4 找出不是两个数组共有的元素(附测试点)
目录 输入格式: 输出格式: 输入样例: 输出样例: 代码呈现 测试点 给定两个整型数组,本题要求找出不是两者共有的元素。 输入格式: 输入分别在两行中给出两个整型数组,每行先给出正整数N(≤20),随后是N个整数&a…...

C++面试:数据库不同存储引擎的区别以及如何选择
目录 基础 具体选择原则 Mysql如何选择 创建表时指定存储引擎 修改现有表的存储引擎 查看表的存储引擎 注意事项 总结 在数据库管理系统中,不同的存储引擎提供了不同的存储机制、索引技术、锁定水平和其他功能。以MySQL为例,它支持多种存储引擎&…...

HTML -- 常用标签
目录 HTML 标签 单标签 双标签 常见标签的使用 标题和段落 换行、分隔、超链接 列表标签 表单标签 属性 属性的使用 HTML HTML(Hyper Text Markup Language),超文本标记语言,是一门标记语言,不是编程语言&am…...

【Qt】QInputDialog setGeometry: Unable to set geometry 问题
【Qt】QInputDialog setGeometry: Unable to set geometry 问题 文章目录 I - 问题背景II - 解决办法III - 参考链接 I - 问题背景 创建了一个 QMainWindow 并在上边创建了布局,尝试调用 QInputDialog 的 getInt 静态方法,结果运行时出现了以下警告 QW…...

Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】
RocksDB是Flink中用于持久化状态的默认后端,它提供了高性能和可靠的状态存储。然而,当处理大型状态并频繁读写时,可能会导致背压问题,因为RocksDB需要从磁盘读取和写入数据,而这可能成为瓶颈。 遇到的问题 Flink开发…...

代码随想录算法训练营第二十四天|● 理论基础 ● 77. 组合
仅做学习笔记,详细请访问代码随想录 ● 理论基础 ● 77. 组合 ● 理论基础 回溯法解决的问题 回溯法,一般可以解决如下几种问题: 组合问题:N个数里面按一定规则找出k个数的集合 切割问题:一个字符串按一定规则有几…...

买保险如何填健康告知
在投保健康险时,保险公司都有健康告知这一环,那么健康告知怎么机智的填? 人都吃五谷杂粮,身体免不了有各种小毛病,比如甲状腺结节等,健康告知通过不了怎么办? 健康告知是保险公司设计的健康问…...