当前位置：首页 > news >正文

Adapting Language Models to Compress Contexts

news 2026/2/9 12:42:28

本文是LLM系列文章，针对《Adapting Language Models to Compress Contexts》的翻译。

使语言模型适应上下文压缩

摘要
1 引言
2 相关工作
3 方法
4 实验
5 上下文学习
6 压缩检索语料库实现高效推理
7 结论
不足

摘要

1 引言

2 相关工作

3 方法

4 实验

5 上下文学习

6 压缩检索语料库实现高效推理

7 结论

我们引入了一种训练策略，用于将预训练的LMs调整为自动压缩器，自动压缩器将上下文递归压缩为摘要向量。我们的实验表明，摘要向量保留了重要的上下文信息，用于改进语言建模、上下文演示中的编码以及评估文章与用户查询的相关性。这表明，我们的无监督训练策略可以带来多用途的应用。摘要矢量可以预先计算、缓存和重复使用。这承诺通过减小注意力窗口的大小来提高实际的效率。未来还有大量工作要做，将自动压缩器扩展到更大的模型，并提高摘要向量的质量，以进一步缩小差距，同时充分关注长期上下文。

不足

我们只将AutoCompressors应用于参数高达2.7B的OPT型号。未来的工作需要确定自动压缩器在大型模型中的表现，但随着摘要向量维度的增长，每个向量可以保留更多信息。我们还质疑，其他具有不同体系结构特征的预训练模型族，如未绑定的输入输出嵌入，是否更难适应自动压缩器。
我们的研究结果表明，摘要向量忽略了一些通过充分关注可以获得的有用信息。此外，模型并不总是从增加汇总向量的数量中受益。我们怀疑，用于有效学习摘要向量的训练信号可能会受到预训练模型的限制，该模型非常善于根据当前片段中的纯文本标记进行预测。未来的工作需要改进这种优化。
摘要积累仍然会随着分段数量的增加而导致二次复杂度，尽管其速率远低于完全注意力。未来的工作可能会探索更有效地组合许多摘要向量的方法。

相关文章：

Adapting Language Models to Compress Contexts

本文是LLM系列文章，针对《Adapting Language Models to Compress Contexts》的翻译。使语言模型适应上下文压缩摘要1 引言2 相关工作3 方法4 实验5 上下文学习6 压缩检索语料库实现高效推理7 结论不足摘要 1 引言 2 相关工作 3 方法 4 实验 5 上下文学习 …...

编程日记 2023/8/25 10:35:26

Kubernetes(K8S)使用PV和PVC做存储安装mysql

Kubernetes使用PV和PVC做存储安装mysql 环境准备什么是PV和PVC环境准备配置nfs安装nfs配置nfs服务端创建命名空间配置pv和pvcpv的yaml文件pvc的yaml文件部署mysql创建mysql的root密码的secret创建mysql部署的yaml部署mysql链接mysql外部链接内部链接环境准备首先你需要一个…...

编程日记 2023/8/25 10:34:24

Ansible Playbook 常用变量

以下是 Ansible Playbook 常用变量 ansible_connection: 指定连接类型（如 ssh、winrm） ansible_user: 指定远程用户 ansible_ssh_pass: 指定远程用户密码 ansible_become: 指定是否切换为超级用户 ansible_become_user: 指定切换到的用户 ansible_b…...

编程日记 2023/8/25 10:33:23

0103水平分片-jdbc-shardingsphere-中间件

文章目录 1 准备服务器1.1 创建server-order0容器1.2 创建server-order1容器 2、基本水平分片2.1、基本配置2.2、数据源配置2.3、标椎分片表配置2.4、行表达式2.5、分片算法配置2.6、分布式序列算法 3、多表关联3.1、创建关联表3.2、创建实体类3.3、创建Mapper3.4、配置关联表3…...

编程日记 2023/8/25 10:32:21

Vue2.0+webpack 引入字体文件（eot，ttf，woff）

webpack.base.config.js 需要配置 {test:/\/(woff2?|eot|ttf|otf)(\?.*)?$/,loader: url-loader,options: {limit: 10000,name: utils.assetsPath(fonts/[name].[hash:7].[ext])}} 如果 Vue2.0webpack3.6引入字体文件（eot，ttf，woff&…...

编程日记 2023/8/25 10:31:20

Eureka：CAP原则及对比Zookeeper

...

编程日记 2023/8/25 10:30:19

WPF入门到精通:3.MVVM简单应用及全局异常处理

MVVM简介在WPF应用程序开发中，MVVM（Model-View-ViewModel）是一种非常流行的架构模式。它为应用程序的设计提供了良好的分层结构和可扩展性。结构分为下列三部分 Model：定义了应用程序的数据模型就是系统中的对象，…...

编程日记 2023/8/25 10:29:17

Springboot+mybatis-plus+dynamic-datasource+Druid 多数据源分布式事务

Springbootmybatis-plusdynamic-datasourceDruid 多数据源事务，分布式事务文章目录 Springbootmybatis-plusdynamic-datasourceDruid 多数据源事务，分布式事务0.前言1. 基础介绍ConnectionFactoryAbstractRoutingDataSource 动态路由数据源的抽象类 Dyn…...

编程日记 2023/8/25 10:28:16

673. 最长递增子序列的个数

673. 最长递增子序列的个数原题链接：完成情况：解题思路：方法一：动态规划方法二：贪心前缀和二分查找参考代码：__673最长递增子序列的个数__动态规划__673最长递增子序列的个数__贪心_前缀和_二分查找…...

编程日记 2023/8/25 10:27:15

Android12之ABuffer数据处理(三十四)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言：人生从来没有捷径，只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注：Android…...

编程日记 2023/8/25 10:26:14

whisper 语音识别项目部署

1.安装anaconda软件在如下网盘免费获取软件： 链接：https://pan.baidu.com/s/1zOZCQOeiDhx6ebHh5zNasA 提取码：hfnd 2.使用conda命令创建python3.8环境 conda create -n whisper python3.83.进入whisper虚拟环境 conda activate whisper4.…...

编程日记 2023/8/25 10:25:12

实例044 在关闭窗口前加入确认对话框

实例说明用户对程序进行操作时，难免会有错误操作的情况，例如不小心关闭程序，如果尚有许多资料没有保存，那么损失将非常严重，所以最好使程序具有灵活的交互性。人机交互过程一般都是通过对话框来实现的，对话…...

编程日记 2023/8/25 10:24:11

子查询和事务隔离以及用户管理

一、子查询子查询是另一个语句中的select语句嵌套在另一个select中。注意子查询语法上必须使用()包起来。嵌套的那个语句返回的结果有可能是： 一个字段，一行记录，一个列或一个表。嵌套的位置 where / having语句里面作为条件使用在from语…...

编程日记 2023/8/25 10:23:10

uniapp 滚动到指定元素的位置(锚点)

需求：在页面中，不管位于何处，点击按钮页面滚动到对应的标题位置。最简单有效的方式（直接复制改数据就行） 使用 scroll-view 标签的属性：scroll-top(距离值 num) 或 scroll-into-view(子元素的id,不能以…...

编程日记 2023/8/25 10:22:08

Spring AOP 的 afterReturing 返回值是否能修改问题

文章目录结论举例子原因外传结论最近要搞脱敏信息，所以，想了几种方案，最后使用全局的接口拦截，但是，又不能用注解的方式，毕竟是几年的老产品，有很多限制。中间尝试过使用Spring AOP 的 aft…...

编程日记 2023/8/25 10:21:07

MyBatis分页插件PageHelper的使用及特殊字符的处理

目录一、PageHelper简介 1.什么是分页 2.PageHelper是什么 3.使用PageHelper的优点二、PageHelper插件的使用原生limit查询 1. 导入pom依赖 2. Mybatis.cfg.xml 配置拦截器 3. 使用PageHelper进行分页三、特殊字符的处理 1.SQL注入： 2.XML转义&#…...

编程日记 2023/8/25 10:20:05

[语音识别] 基于Python构建简易的音频录制与语音识别应用

语音识别技术的快速发展为实现更多智能化应用提供了无限可能。本文旨在介绍一个基于Python实现的简易音频录制与语音识别应用。文章简要介绍相关技术的应用，重点放在音频录制方面，而语音识别则关注于调用相关的语音识别库。本文将首先概述一些音频基础概…...

编程日记 2023/8/25 10:19:02

Matlab彩色图像转索引图像

索引图像索引图像是一种把像素值直接作为RGB调色板下标的图像。索引图像包括一个数据矩阵X，一个调色板矩阵map，也称为颜色映像矩阵。其中，数据矩阵X可以是8位无符号整型、16位无符号整型或双精度类型。调色板矩阵map是一个m3的数据阵列&…...

编程日记 2023/8/25 10:17:58

测试框架pytest教程（11）-pytestAPI

常量 pytest.__version__ #输出pytest版本 pytest.version_tuple #输出版本的元组形式功能 pytest.approx pytest.approx 是一个用于进行数值近似比较的 pytest 断言工具。在测试中，有时候需要对浮点数或其他具有小数部分的数值进行比较。然而，由于…...

编程日记 2023/8/25 10:16:56

Docker自学：利用FastAPI建立一个简单的web app

环境配置：下载Docker Desktop 文件一：main.py from typing import Unionfrom fastapi import FastAPIimport uvicornapp FastAPI()app.get("/") def read_root():return {"Hello": "World"}app.get("/items/{item…...

编程日记 2023/8/25 10:15:55

超短脉冲激光自聚焦效应

前言与目录强激光引起自聚焦效应机理超短脉冲激光在脆性材料内部加工时引起的自聚焦效应，这是一种非线性光学现象，主要涉及光学克尔效应和材料的非线性光学特性。自聚焦效应可以产生局部的强光场，对材料产生非线性响应，可能…...

编程新知 2026/2/8 20:42:48

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留，CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制（CCA-Attention），…...

编程新知 2026/2/5 4:25:15

【人工智能】神经网络的优化器optimizer（二）：Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad（Adaptive Gradient Algorithm）是一种自适应学习率的优化算法，由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率，适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

编程新知 2026/2/8 14:57:14

《Qt C++ 与 OpenCV：解锁视频播放程序设计的奥秘》

引言：探索视频播放程序设计之旅在当今数字化时代，多媒体应用已渗透到我们生活的方方面面，从日常的视频娱乐到专业的视频监控、视频会议系统，视频播放程序作为多媒体应用的核心组成部分，扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上，用户都期望…...

编程新知 2026/2/7 13:17:38

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2026/2/1 1:50:03

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

编程新知 2026/1/29 5:29:57

ElasticSearch搜索引擎之倒排索引及其底层算法

文章目录一、搜索引擎1、什么是搜索引擎？2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长，文件大。2.其次，树深，IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...

编程新知 2026/1/30 17:10:19

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

基于SpringBoot在线拍卖系统的设计和实现

摘要随着社会的发展，社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。在线拍卖系统，主要的模块包括管理员；首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

编程新知 2026/1/26 13:25:02