少样本学习之CAML算法
上下文感知元学习(Context-Aware Meta-Learning, CAML)
概述
在机器学习和深度学习领域,元学习(Meta-Learning)旨在通过学习如何学习,使模型能够在面对新任务时快速适应。传统的元学习方法通常需要在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。为了解决这一问题,斯坦福大学的研究团队提出了一种名为**上下文感知元学习(Context-Aware Meta-Learning, CAML)**的新算法。CAML通过在推理过程中学习新的视觉概念,而无需进行微调,模拟了大型语言模型(如ChatGPT)在推理过程中学习新概念的能力。
CAML算法的论文链接
本人空间-论文英文版pdf下载
背景与动机
元学习的挑战
传统的元学习方法通常依赖于在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。此外,这些方法在面对新任务时,往往表现不佳,尤其是在少样本学习(Few-Shot Learning)场景中。
大型语言模型的启发
近年来,大型语言模型(如ChatGPT)展示了在推理过程中学习新概念的出色能力。这些模型能够在无需微调的情况下,通过上下文学习新的概念。然而,类似的视觉模型在推理过程中学习新概念的能力却相对较弱,要么表现不佳,要么需要在类似对象上进行元训练或微调。
CAML的动机
CAML的提出旨在模拟大型语言模型的行为,通过在推理过程中学习新的视觉概念,而无需进行微调。这种方法不仅提高了模型的适应性,还减少了计算资源的消耗。

方法
序列建模
CAML将元学习任务建模为一个序列建模问题。输入序列由支持集图像和标签以及查询图像组成。支持集图像和标签用于提供上下文信息,而查询图像则是需要预测标签的图像。
Transformer编码器
CAML使用了一个基于Transformer编码器的序列模型。Transformer编码器被训练来从输入序列中提取特征,并预测查询图像的标签。Transformer的结构使其能够处理长距离依赖关系,从而更好地捕捉上下文信息。
等长最大角度集(ELMES)编码
支持集标签使用等长最大角度集(Equal-Length Maximum Angle Set, ELMES)编码进行编码。ELMES编码通过最小化检测支持集内类的熵,提高了模型的性能。实验结果表明,ELMES编码是最优的。
预训练的CLIP模型
CAML利用预训练的CLIP模型作为固定的特征提取器。CLIP模型在大规模图像和文本数据上进行了预训练,能够提取出丰富的视觉特征。CAML仅训练Transformer编码器的参数,而保持CLIP模型的参数不变。
# 使用timm中的预训练CLIP编码器,进行图像统一编码。
timm_feature_model_name, dim = "vit_base_patch16_clip_224.openai", 768
timm_feature_model_path = os.path.join(str(project_root()), "timm/vit_base_patch16_clip_224.openai/open_clip_pytorch_model.bin")feature_extractor = timm.create_model(timm_feature_model_name,pretrained=True,pretrained_cfg_overlay=dict(file=timm_feature_model_path),img_size=224,num_classes=0).eval()
实验与结果
数据集
CAML在多个数据集上进行了实验,包括ImageNet、COCO等。这些数据集涵盖了不同的视觉任务,如分类、检测等。
基准测试
CAML在11个元学习基准测试中进行了评估。实验结果表明,在不进行任何元训练或微调的情况下,CAML在8个基准测试中匹配或超过了最先进的元学习方法。
性能分析
分析表明,CAML的表示会根据查询图像而改变,这使其能针对每个任务适当地选择支持集。经验结果也表明,ELMES编码是最优的。
优势
无需微调
CAML的最大优势在于无需进行微调。传统的元学习方法通常需要在特定任务上进行微调,这不仅耗时,而且可能需要大量的计算资源。CAML通过在推理过程中学习新的视觉概念,避免了这一问题。
def meta_infer(self, inp, support_labels, query_tensor):"""For evaluating typical Meta-Learning Datasets."""# 提取特征向量(假设 inp 是 support set)support_features = self.get_feature_vector(inp) # 划分 support setquery_features = self.get_feature_vector(query_tensor) # 划分query set# # 拼接两个特征,变成上下文。support = support_features.unsqueeze(0)query = query_features.unsqueeze(0)feature_sequences = torch.cat([query, support], dim=1) # 输入上下文, 使用 Transformer 编码器进行推理logits = self.transformer_encoder.forward_imagenet_v2(feature_sequences, support_labels, way=None, shot=None)# 添加 softmax 操作,输出概率分布probabilities = torch.softmax(logits, dim=1)_, max_index = torch.max(logits, 1)# 返回概率分布和预测结果return max_index, probabilities
高性能
在11个元学习基准测试中,CAML在8个测试中超过或与现有的元学习算法表现相当。这些算法都是在这些基准测试中进行了元训练的。
模拟大型语言模型的行为
CAML通过在推理过程中学习新的视觉概念,模拟了大型语言模型的行为。这不仅提高了模型的适应性,还减少了计算资源的消耗。
结论
CAML提出了一种无需微调的元学习算法,通过在推理过程中学习新的视觉概念,模拟了大型语言模型的行为,并在多个基准测试中取得了与现有算法相当的性能。CAML的成功不仅展示了元学习在视觉任务中的潜力,还为未来的研究提供了新的方向。
代码
关注本人博客,后续将基于作者的算法进行代码开发与实验讲解。
相关文章:
少样本学习之CAML算法
上下文感知元学习(Context-Aware Meta-Learning, CAML) 概述 在机器学习和深度学习领域,元学习(Meta-Learning)旨在通过学习如何学习,使模型能够在面对新任务时快速适应。传统的元学习方法通常需要在特定…...
C# 中的闭包
文章目录 前言一、闭包的基本概念二、匿名函数中的闭包1、定义和使用匿名函数2、匿名函数捕获外部变量3、闭包的生命周期 三、Lambda 表达式中的闭包1、定义和使用 Lambda 表达式2、Lambda 表达式捕获外部变量3、闭包的作用域 四、闭包的应用场景1、事件处理2、异步编程3、迭代…...
网络编程 03:端口的定义、分类,端口映射,通过 Java 实现了 IP 和端口的信息获取
一、概述 记录时间 [2024-12-19] 前置文章: 网络编程 01:计算机网络概述,网络的作用,网络通信的要素,以及网络通信协议与分层模型 网络编程 02:IP 地址,IP 地址的作用、分类,通过 …...
制作项目之前的分析
对网页的分析可以从多个角度入手,具体包括内容分析、技术分析、用户体验分析。 以下是对网页分析的详细步骤,帮助你从不同维度评估一个网页的效果与质量: 1. 内容分析 内容是网页最核心的部分,确保其符合用户需求是网页设计的首…...
LeetCode 1925 统计平方和三元组的数目
探索平方和三元组:从问题到 Java 代码实现 在数学与编程的交叉领域,常常会遇到一些有趣且富有挑战性的问题。今天,就让我们深入探讨一下 “平方和三元组” 这个有趣的话题,并使用 Java 语言来实现计算满足特定条件的平方和三元组…...
java开发入门学习三-二进制与其他进制
常见的进制 常用的进制有二进制,八进制,十进制,十六进制。而我们最熟悉的是十进制,他们分别是怎么表达的呢? 定义不同的进制,写法不同 二进制(Binary): 使用前缀 0b 或…...
C/S软件授权注册系统(Winform+WebApi+.NET8+EFCore版)
适用软件:C/S系统、Winform桌面应用软件。 运行平台:Windows .NETCore,.NET8 开发工具:Visual Studio 2022,C#语言 数据库:Microsoft SQLServer 2012,Oracle 21c,MySQL8…...
Linux —— 管理进程
一、查看进程 运行态(Running) 定义:处于运行态的进程正在 CPU 上执行指令。在单 CPU 系统中,同一时刻只有一个进程处于运行态;在多 CPU 或多核系统中,可能有多个进程同时处于运行态。示例: 当…...
Diffusino Policy学习note
Diffusion Policy—基于扩散模型的机器人动作生成策略 - 知乎 建议看看,感觉普通实验室复现不了这种工作。复现了也没有太大扩展的意义。 Diffusion Policy 是监督学习吗 Diffusion Policy 通常被视为一种基于监督学习的方法,但它的实际训练过程可能结…...
【Python】*args和**kwargs
【Python】*args和**kwargs 一、*args: 接收不定数量的位置参数示例1:简单的加法计算器示例2:转发参数给另一个函数 二、**kwargs: 接收不定数量的关键字参数示例3:创建用户配置文件示例4:合并多个字典 三、组合使用*args和**kwar…...
使用正则表达式提取PDF文件页数的实现方案
文章目录 背景介绍实现原理代码实现1. 基础函数结构2. 页数提取逻辑3. 使用示例 正则表达式解析优点与局限性优点局限性 错误处理建议性能优化建议最佳实践建议总结参考资源 背景介绍 在Web应用开发中,我们经常需要获取上传PDF文件的页数信息。虽然可以使用pdf.js等第三方库,但…...
Android实现RecyclerView边缘渐变效果
Android实现RecyclerView边缘渐变效果 1.前言: 是指在RecyclerView中实现淡入淡出效果的边缘效果。通过这种效果,可以使RecyclerView的边缘在滚动时逐渐淡出或淡入,以提升用户体验。 2.Recyclerview属性: 2.1、requiresFading…...
springboot443旅游管理系统(论文+源码)_kaic
摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统旅游管理系统信息管理难度大,容错率低&#…...
利用git上传项目到GitHub
GitHub是基于git实现的代码托管。git是目前最好用的版本控制系统了,非常受欢迎,比之svn更好。 GitHub可以免费使用,并且快速稳定。 利用GitHub,你可以将项目存档,与其他人分享交流,并让其他开发者帮助你一…...
Rust之抽空学习系列(四)—— 编程通用概念(下)
Rust之抽空学习系列(四)—— 编程通用概念(下) 1、函数 函数用来对功能逻辑进行封装,能够增强复用、提高代码的可读 以下是函数的主要组成部分: 名称参数返回类型函数体 1.1、函数名称 在Rust中&…...
K-Means 聚类:数据挖掘的瑞士军刀
引言 在数据科学领域,聚类算法是一种非常重要的无监督学习方法,它能够帮助我们发现数据中的自然分组或模式。其中,K-Means 聚类算法因其简单高效而成为最常用的聚类算法之一。无论是市场细分、社交网络分析,还是图像分割等领域&a…...
项目练习:若依-前端项目的目录结构介绍
文章目录 一、目录截图二、目录讲解 一、目录截图 二、目录讲解 1、首先,我们可以看到,这个VUE项目,只有一个App.vue,所以,它是一个单页面系统。 这个App.vue是根组件,root组件。 2、public目录 在Vue 3.…...
知网研学 | 知网文献(CAJ+PDF)批量下载
知网文献(CAJPDF)批量下载 一、知网研学安装二、插件及脚本安装三、CAJ批量下载四、脚本下载及PDF批量下载浏览器取消拦截窗口 一、知网研学安装 批量下载知网文件,格式为es6文件,需使用知网研学软件打开,故需先安装该…...
设计模式期末复习
一、设计模式的概念以及分类 二、设计模式的主题和意图 三、面向对象程序设计原则,记住名字,还要理解它的使用场景以及如何用? 四、松耦合、紧耦合、强关联、弱关联、静态复用、动态复用的概念,还有静态委派,动态委…...
CentOS7源码编译安装nginx+php+mysql
1.安装nginx 安装依赖 yum -y install gcc gcc-c wget automake autoconf libtool libxml2-devel libxslt-devel perl-devel perl-ExtUtils-Embed pcre-devel openssl openssl-devel 创建一个不能登录的nginx运行用户 groupadd www-data useradd -s /sbin/nologin -g www-d…...
p5.js Web Editor:免费在线创意编程的终极完整指南
p5.js Web Editor:免费在线创意编程的终极完整指南 【免费下载链接】p5.js-web-editor The p5.js Editor is a website for creating p5.js sketches, with a focus on making coding accessible and inclusive for artists, designers, educators, beginners, and …...
ENSP实战:从Console到AAA,详解交换机安全登录的进阶配置
1. 从零开始:认识交换机登录安全的基本面 第一次接触企业级交换机时,很多新手都会被各种登录方式搞得晕头转向。我刚开始做网络运维时,就曾经因为没设置好登录认证,导致测试环境的交换机被隔壁团队的同事误操作重启。今天我们就从…...
如何用AEUX免费实现设计到动画的无缝转换:完整指南
如何用AEUX免费实现设计到动画的无缝转换:完整指南 【免费下载链接】AEUX Editable After Effects layers from Sketch artboards 项目地址: https://gitcode.com/gh_mirrors/ae/AEUX AEUX是一款免费开源的动效设计工具,它能让你从Figma或Sketch直…...
基于RAG与本地LLM的智能代码库管理工具部署与优化指南
1. 项目概述:一个为开发者打造的智能代码库管理工具最近在整理自己过去几年的项目代码时,我遇到了一个几乎所有开发者都会头疼的问题:代码库越来越多,但想快速找到某个特定功能的实现、或者想复用一段之前写过的优质代码时&#x…...
OdinSerializer扩展开发完全手册:创建自定义序列化组件
OdinSerializer扩展开发完全手册:创建自定义序列化组件 【免费下载链接】odin-serializer Fast, robust, powerful and extendible .NET serializer built for Unity 项目地址: https://gitcode.com/gh_mirrors/od/odin-serializer OdinSerializer是一款专为…...
awesome-clothed-human安全指南:在数字人体建模中保护用户隐私的5个最佳实践
awesome-clothed-human安全指南:在数字人体建模中保护用户隐私的5个最佳实践 【免费下载链接】awesome-digital-human Digital Human Resource: 2D/3D/4D Human Modeling, Avatar Generation & Animation, Clothed People Digitalization, Virtual Try-On, etc.…...
微软UFO项目:统一AI模型调用的抽象层设计与工程实践
1. 项目概述:当“统一”成为AI开发的新范式最近在折腾大模型应用开发的朋友,可能都绕不开一个痛点:模型太多,工具链太杂。想用闭源的GPT-4处理文本,用开源的Llama搞本地推理,再用DALL-E 3生成图片ÿ…...
别再折腾Java环境了!用Docker一键部署BurpSuite社区版,5分钟开箱即用
用Docker容器化技术5分钟部署BurpSuite社区版:告别Java环境配置噩梦 在网络安全领域,BurpSuite无疑是Web应用渗透测试的瑞士军刀。但传统安装方式需要配置Java环境、处理兼容性问题,甚至不少用户为了功能完整而冒险使用破解版。现在…...
用STC89C52单片机+ADC0832做个智能台灯:手把手教你实现PWM调光和光敏自动控制
从零打造智能台灯:STC89C52与ADC0832的完美结合 记得第一次在宿舍熬夜赶项目时,刺眼的台灯总让我眼睛酸涩不已。那时我就在想,如果能有一个能自动调节亮度的台灯该多好。今天,我们就用STC89C52单片机和ADC0832模数转换器ÿ…...
Godot引擎集成Wwise音频中间件:从原理到实战的完整指南
1. 项目概述:当AAA级音频引擎遇见开源游戏引擎如果你是一位使用Godot引擎的游戏开发者,并且对游戏音频的品质有追求,那么你很可能听说过Wwise。Wwise,全称Audiokinetic Wwise,是游戏音频领域的行业标准,从《…...
