少样本学习之CAML算法
上下文感知元学习(Context-Aware Meta-Learning, CAML)
概述
在机器学习和深度学习领域,元学习(Meta-Learning)旨在通过学习如何学习,使模型能够在面对新任务时快速适应。传统的元学习方法通常需要在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。为了解决这一问题,斯坦福大学的研究团队提出了一种名为**上下文感知元学习(Context-Aware Meta-Learning, CAML)**的新算法。CAML通过在推理过程中学习新的视觉概念,而无需进行微调,模拟了大型语言模型(如ChatGPT)在推理过程中学习新概念的能力。
CAML算法的论文链接
本人空间-论文英文版pdf下载
背景与动机
元学习的挑战
传统的元学习方法通常依赖于在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。此外,这些方法在面对新任务时,往往表现不佳,尤其是在少样本学习(Few-Shot Learning)场景中。
大型语言模型的启发
近年来,大型语言模型(如ChatGPT)展示了在推理过程中学习新概念的出色能力。这些模型能够在无需微调的情况下,通过上下文学习新的概念。然而,类似的视觉模型在推理过程中学习新概念的能力却相对较弱,要么表现不佳,要么需要在类似对象上进行元训练或微调。
CAML的动机
CAML的提出旨在模拟大型语言模型的行为,通过在推理过程中学习新的视觉概念,而无需进行微调。这种方法不仅提高了模型的适应性,还减少了计算资源的消耗。

方法
序列建模
CAML将元学习任务建模为一个序列建模问题。输入序列由支持集图像和标签以及查询图像组成。支持集图像和标签用于提供上下文信息,而查询图像则是需要预测标签的图像。
Transformer编码器
CAML使用了一个基于Transformer编码器的序列模型。Transformer编码器被训练来从输入序列中提取特征,并预测查询图像的标签。Transformer的结构使其能够处理长距离依赖关系,从而更好地捕捉上下文信息。
等长最大角度集(ELMES)编码
支持集标签使用等长最大角度集(Equal-Length Maximum Angle Set, ELMES)编码进行编码。ELMES编码通过最小化检测支持集内类的熵,提高了模型的性能。实验结果表明,ELMES编码是最优的。
预训练的CLIP模型
CAML利用预训练的CLIP模型作为固定的特征提取器。CLIP模型在大规模图像和文本数据上进行了预训练,能够提取出丰富的视觉特征。CAML仅训练Transformer编码器的参数,而保持CLIP模型的参数不变。
# 使用timm中的预训练CLIP编码器,进行图像统一编码。
timm_feature_model_name, dim = "vit_base_patch16_clip_224.openai", 768
timm_feature_model_path = os.path.join(str(project_root()), "timm/vit_base_patch16_clip_224.openai/open_clip_pytorch_model.bin")feature_extractor = timm.create_model(timm_feature_model_name,pretrained=True,pretrained_cfg_overlay=dict(file=timm_feature_model_path),img_size=224,num_classes=0).eval()
实验与结果
数据集
CAML在多个数据集上进行了实验,包括ImageNet、COCO等。这些数据集涵盖了不同的视觉任务,如分类、检测等。
基准测试
CAML在11个元学习基准测试中进行了评估。实验结果表明,在不进行任何元训练或微调的情况下,CAML在8个基准测试中匹配或超过了最先进的元学习方法。
性能分析
分析表明,CAML的表示会根据查询图像而改变,这使其能针对每个任务适当地选择支持集。经验结果也表明,ELMES编码是最优的。
优势
无需微调
CAML的最大优势在于无需进行微调。传统的元学习方法通常需要在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。CAML通过在推理过程中学习新的视觉概念,避免了这一问题。
def meta_infer(self, inp, support_labels, query_tensor):"""For evaluating typical Meta-Learning Datasets."""# 提取特征向量(假设 inp 是 support set)support_features = self.get_feature_vector(inp) # 划分 support setquery_features = self.get_feature_vector(query_tensor) # 划分query set# # 拼接两个特征,变成上下文。support = support_features.unsqueeze(0)query = query_features.unsqueeze(0)feature_sequences = torch.cat([query, support], dim=1) # 输入上下文, 使用 Transformer 编码器进行推理logits = self.transformer_encoder.forward_imagenet_v2(feature_sequences, support_labels, way=None, shot=None)# 添加 softmax 操作,输出概率分布probabilities = torch.softmax(logits, dim=1)_, max_index = torch.max(logits, 1)# 返回概率分布和预测结果return max_index, probabilities
高性能
在11个元学习基准测试中,CAML在8个测试中超过或与现有的元学习算法表现相当。这些算法都是在这些基准测试中进行了元训练的。
模拟大型语言模型的行为
CAML通过在推理过程中学习新的视觉概念,模拟了大型语言模型的行为。这不仅提高了模型的适应性,还减少了计算资源的消耗。
结论
CAML提出了一种无需微调的元学习算法,通过在推理过程中学习新的视觉概念,模拟了大型语言模型的行为,并在多个基准测试中取得了与现有算法相当的性能。CAML的成功不仅展示了元学习在视觉任务中的潜力,还为未来的研究提供了新的方向。
代码
关注本人博客,后续将基于作者的算法进行代码开发与实验讲解。
相关文章:
少样本学习之CAML算法
上下文感知元学习(Context-Aware Meta-Learning, CAML) 概述 在机器学习和深度学习领域,元学习(Meta-Learning)旨在通过学习如何学习,使模型能够在面对新任务时快速适应。传统的元学习方法通常需要在特定…...
C# 中的闭包
文章目录 前言一、闭包的基本概念二、匿名函数中的闭包1、定义和使用匿名函数2、匿名函数捕获外部变量3、闭包的生命周期 三、Lambda 表达式中的闭包1、定义和使用 Lambda 表达式2、Lambda 表达式捕获外部变量3、闭包的作用域 四、闭包的应用场景1、事件处理2、异步编程3、迭代…...
网络编程 03:端口的定义、分类,端口映射,通过 Java 实现了 IP 和端口的信息获取
一、概述 记录时间 [2024-12-19] 前置文章: 网络编程 01:计算机网络概述,网络的作用,网络通信的要素,以及网络通信协议与分层模型 网络编程 02:IP 地址,IP 地址的作用、分类,通过 …...
制作项目之前的分析
对网页的分析可以从多个角度入手,具体包括内容分析、技术分析、用户体验分析。 以下是对网页分析的详细步骤,帮助你从不同维度评估一个网页的效果与质量: 1. 内容分析 内容是网页最核心的部分,确保其符合用户需求是网页设计的首…...
LeetCode 1925 统计平方和三元组的数目
探索平方和三元组:从问题到 Java 代码实现 在数学与编程的交叉领域,常常会遇到一些有趣且富有挑战性的问题。今天,就让我们深入探讨一下 “平方和三元组” 这个有趣的话题,并使用 Java 语言来实现计算满足特定条件的平方和三元组…...
java开发入门学习三-二进制与其他进制
常见的进制 常用的进制有二进制,八进制,十进制,十六进制。而我们最熟悉的是十进制,他们分别是怎么表达的呢? 定义不同的进制,写法不同 二进制(Binary): 使用前缀 0b 或…...
C/S软件授权注册系统(Winform+WebApi+.NET8+EFCore版)
适用软件:C/S系统、Winform桌面应用软件。 运行平台:Windows .NETCore,.NET8 开发工具:Visual Studio 2022,C#语言 数据库:Microsoft SQLServer 2012,Oracle 21c,MySQL8…...
Linux —— 管理进程
一、查看进程 运行态(Running) 定义:处于运行态的进程正在 CPU 上执行指令。在单 CPU 系统中,同一时刻只有一个进程处于运行态;在多 CPU 或多核系统中,可能有多个进程同时处于运行态。示例: 当…...
Diffusino Policy学习note
Diffusion Policy—基于扩散模型的机器人动作生成策略 - 知乎 建议看看,感觉普通实验室复现不了这种工作。复现了也没有太大扩展的意义。 Diffusion Policy 是监督学习吗 Diffusion Policy 通常被视为一种基于监督学习的方法,但它的实际训练过程可能结…...
【Python】*args和**kwargs
【Python】*args和**kwargs 一、*args: 接收不定数量的位置参数示例1:简单的加法计算器示例2:转发参数给另一个函数 二、**kwargs: 接收不定数量的关键字参数示例3:创建用户配置文件示例4:合并多个字典 三、组合使用*args和**kwar…...
使用正则表达式提取PDF文件页数的实现方案
文章目录 背景介绍实现原理代码实现1. 基础函数结构2. 页数提取逻辑3. 使用示例 正则表达式解析优点与局限性优点局限性 错误处理建议性能优化建议最佳实践建议总结参考资源 背景介绍 在Web应用开发中,我们经常需要获取上传PDF文件的页数信息。虽然可以使用pdf.js等第三方库,但…...
Android实现RecyclerView边缘渐变效果
Android实现RecyclerView边缘渐变效果 1.前言: 是指在RecyclerView中实现淡入淡出效果的边缘效果。通过这种效果,可以使RecyclerView的边缘在滚动时逐渐淡出或淡入,以提升用户体验。 2.Recyclerview属性: 2.1、requiresFading…...
springboot443旅游管理系统(论文+源码)_kaic
摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统旅游管理系统信息管理难度大,容错率低&#…...
利用git上传项目到GitHub
GitHub是基于git实现的代码托管。git是目前最好用的版本控制系统了,非常受欢迎,比之svn更好。 GitHub可以免费使用,并且快速稳定。 利用GitHub,你可以将项目存档,与其他人分享交流,并让其他开发者帮助你一…...
Rust之抽空学习系列(四)—— 编程通用概念(下)
Rust之抽空学习系列(四)—— 编程通用概念(下) 1、函数 函数用来对功能逻辑进行封装,能够增强复用、提高代码的可读 以下是函数的主要组成部分: 名称参数返回类型函数体 1.1、函数名称 在Rust中&…...
K-Means 聚类:数据挖掘的瑞士军刀
引言 在数据科学领域,聚类算法是一种非常重要的无监督学习方法,它能够帮助我们发现数据中的自然分组或模式。其中,K-Means 聚类算法因其简单高效而成为最常用的聚类算法之一。无论是市场细分、社交网络分析,还是图像分割等领域&a…...
项目练习:若依-前端项目的目录结构介绍
文章目录 一、目录截图二、目录讲解 一、目录截图 二、目录讲解 1、首先,我们可以看到,这个VUE项目,只有一个App.vue,所以,它是一个单页面系统。 这个App.vue是根组件,root组件。 2、public目录 在Vue 3.…...
知网研学 | 知网文献(CAJ+PDF)批量下载
知网文献(CAJPDF)批量下载 一、知网研学安装二、插件及脚本安装三、CAJ批量下载四、脚本下载及PDF批量下载浏览器取消拦截窗口 一、知网研学安装 批量下载知网文件,格式为es6文件,需使用知网研学软件打开,故需先安装该…...
设计模式期末复习
一、设计模式的概念以及分类 二、设计模式的主题和意图 三、面向对象程序设计原则,记住名字,还要理解它的使用场景以及如何用? 四、松耦合、紧耦合、强关联、弱关联、静态复用、动态复用的概念,还有静态委派,动态委…...
CentOS7源码编译安装nginx+php+mysql
1.安装nginx 安装依赖 yum -y install gcc gcc-c wget automake autoconf libtool libxml2-devel libxslt-devel perl-devel perl-ExtUtils-Embed pcre-devel openssl openssl-devel 创建一个不能登录的nginx运行用户 groupadd www-data useradd -s /sbin/nologin -g www-d…...
C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...
【JavaEE】-- HTTP
1. HTTP是什么? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议,HTTP是基于TCP协议的一种应用层协议。 应用层协议:是计算机网络协议栈中最高层的协议,它定义了运行在不同主机上…...
QMC5883L的驱动
简介 本篇文章的代码已经上传到了github上面,开源代码 作为一个电子罗盘模块,我们可以通过I2C从中获取偏航角yaw,相对于六轴陀螺仪的yaw,qmc5883l几乎不会零飘并且成本较低。 参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
Java多线程实现之Callable接口深度解析
Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...
深入浅出深度学习基础:从感知机到全连接神经网络的核心原理与应用
文章目录 前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么?1.1.2 感知机的工作原理 1.2 感知机的简单应用:基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...
图解JavaScript原型:原型链及其分析 | JavaScript图解
忽略该图的细节(如内存地址值没有用二进制) 以下是对该图进一步的理解和总结 1. JS 对象概念的辨析 对象是什么:保存在堆中一块区域,同时在栈中有一块区域保存其在堆中的地址(也就是我们通常说的该变量指向谁&…...
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑 在电子商务领域,转化率与网站性能是决定商业成败的核心指标。今天,我们将深入解析不同类型电商平台的转化率基准,探讨页面加载速度对用户行为的…...
