当前位置：首页 > news >正文

【论文笔记】Transformer^2: 自适应大型语言模型

news 2026/2/10 18:51:49

在这里插入图片描述

Code repo: https://github.com/SakanaAI/self-adaptive-llms

摘要

自适应大型语言模型（LLMs）旨在解决传统微调方法的挑战，这些方法通常计算密集且难以处理多样化的任务。本文介绍了Transformer²（Transformer-Squared），一种新颖的自适应框架，通过在推理时选择性地调整权重矩阵的单个奇异分量来实时适应未见过的任务。Transformer²在参数数量较少且效率更高的情况下，持续优于LoRA等常用方法。此外，Transformer²在不同LLM架构和模态（包括视觉语言任务）中表现出色，代表了自适应LLMs的重大进步。

引言

自适应LLMs代表了人工智能的重大进步，提供了一个框架，使模型能够实时调整以适应不同的任务和动态环境。传统的LLM训练方法试图在一次广泛的训练会话中优化模型的多种能力，这在实践中难以实现。相比之下，自适应模型提供了一种更灵活和高效的方法，允许模型根据手头的任务动态修改其行为。

方法

在这里插入图片描述

Transformer²

Transformer²的构建包括两个主要步骤：

奇异值微调（SVF）：通过RL学习紧凑且可组合的专家向量，基于基础模型权重的SVD。
自适应策略：在推理时动态组合SVF训练的专家向量，提供三种不同的自适应策略：
- 提示工程：构建新的“适应”提示，直接询问LLM分类输入提示。
- 分类专家：使用专门的系统处理任务识别。
- 少样本适应：通过线性插值在K个学习到的SVF向量之间进行加权组合。

实验

实验评估了Transformer²在多个任务和模型上的表现：

SVF性能：在GSM8K、MBPP-Pro和ARC-Easy任务上，SVF提供了显著且一致的性能提升。
自适应性能：在未见过的任务（如MATH、Humaneval、ARC-Challenge）上，Transformer²的自适应策略展示了改进。

在这里插入图片描述

结论

本文介绍了Transformer²，提供了一个实现自适应LLMs的新蓝图。通过SVF和三种自适应策略，Transformer²展示了在提高模型适应性和任务特定性能方面的优势。未来的工作可以集中在模型合并和高效适应技术上，以实现更强大的自适应LLMs。

【论文笔记】Transformer^2: 自适应大型语言模型

摘要

引言

相关工作

方法

Transformer²

实验

结论

相关文章：

【论文笔记】Transformer^2: 自适应大型语言模型

FFmpeg源码：av_strlcpy函数分析

Unity Shader学习6：多盏平行光+点光源 ( 逐像素 ) 前向渲染 (Built-In)

docker批量pull/save/load/tag/push镜像shell脚本

五十天精通硬件设计第32天-S参数

6.2.4 基本的数据模型

DeepSeek ，银行营销会被 AIGC 颠覆吗？

第150场双周赛：好数字之和、分割正方形 Ⅰ、分割正方形 Ⅱ、最短匹配字符串

HDFS是如何存储和管理大数据

进阶——第十六届蓝桥杯嵌入式熟练度练习（开发板捕获频率和占空比）

智能协同：数据集成平台与DeepSeek驱动的数据分析与智能调度革新

Mybatis高级(动态SQL)

申论对策建议类【2022江苏B卷第一题“如何开展网络直播”】

蓝耘智算携手DeepSeek，共创AI未来

FFmpeg源码：url_find_protocol函数分析

3D与2D机器视觉机械臂引导的区别

C# 添加图标

基于 Python 和 Django 的北极星招聘数据可视化系统（附源码，部署）

基于STM32、HAL库、MB85RC16PNF(I2C接口)驱动程序设计

【产品推介】可驱动5A负载的降压型DC/DC转换器XBL1663

网络六边形受到攻击

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

无法与IP建立连接，未能下载VSCode服务器

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

【项目实战】通过多模态+LangGraph实现PPT生成助手

QT： `long long` 类型转换为 `QString` 2025.6.5

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

laravel8+vue3.0+element-plus搭建方法

【分享】推荐一些办公小工具

Web中间件--tomcat学习