当前位置: 首页 > news >正文

LongLLMLingua: 长上下文场景的智能提示压缩框架

LongLLMLingua: 长上下文场景的智能提示压缩框架

一、框架概述

  1. 核心目标
  • 解决长上下文场景下的计算成本问题
  • 降低处理延迟
  • 提升模型性能表现
  1. 创新特点
  • 问题感知的粗到细压缩策略
  • 文档重排序机制
  • 动态压缩比例控制
  • 压缩后的子序列恢复策略

二、技术方法详解

  1. 粗粒度压缩
    (a) 文档评分机制
  • 使用文档级困惑度(perplexity)计算重要性分数r_k
  • 困惑度越低表示模型预测越准确,文档越重要
  • 评分公式: 结合问题文本(x_que)和限制文本(x_restrict)计算

(b) 低困惑度文档筛选

  • 保留最相关的K’个文档
  • 通过阈值动态调整保留数量
  1. 细粒度压缩
    (a) 重要性评估
  • 分别评估指令(x_ins)、问题(x_que)和文档中每个标记
  • 采用迭代压缩机制
  • 直接计算标记级困惑度

(b) 对比困惑度创新

  • 引入对比困惑度概念
  • 计算问题条件下的分布偏移
  • 更准确识别问题相关标记
  1. 信息重排序策略
  • 基于文档重要性分数进行重新排序
  • 将关键信息置于文档前部
  • 缓解中间信息丢失问题
  1. 动态压缩控制
  • 初始预算确定(τ_doc)
  • 根据文档重要性动态分配压缩预算
  • 使用线性调度器进行自适应分配
  • 预算分配公式包含文档数量(Nd)和控制参数(δτ)

三、实验评估

  1. 评估环境
    数据集:
  • NaturalQuestions
  • LongBench
  • ZeroSCROLLS

对比基线:

  • 检索类方法:BM25、Gzip、Sentence-BERT、OpenAI Embedding
  • 压缩类方法:Selective Context、LLMLingua

目标模型:

  • GPT-3.5-Turbo-06134
  • LongChat-13B-16k
  1. 性能表现
    (a) 效果性能
  • 在各种压缩比例下保持领先
  • 显著减少输入标记数量
  • 维持较高的任务准确率

(b) 效率提升

  • 响应延迟大幅降低
  • API调用时间明显缩短
  • 压缩率越高,效率提升越明显
  1. 消融实验结果
  • 问题感知机制贡献显著
  • 动态压缩比例证明必要
  • 子序列恢复策略效果明显
  • SBERT用于粗粒度压缩效果较差

四、技术优势总结

  1. 信息保留
  • 高效保留问题相关信息
  • 维持关键实体完整性
  • 减少中间信息丢失
  1. 自适应能力
  • 智能调节压缩比例
  • 动态分配压缩预算
  • 灵活应对不同场景
  1. 实用价值
  • 降低计算资源消耗
  • 提升处理效率
  • 保持模型性能

相关文章:

LongLLMLingua: 长上下文场景的智能提示压缩框架

LongLLMLingua: 长上下文场景的智能提示压缩框架 一、框架概述 核心目标 解决长上下文场景下的计算成本问题降低处理延迟提升模型性能表现 创新特点 问题感知的粗到细压缩策略文档重排序机制动态压缩比例控制压缩后的子序列恢复策略 二、技术方法详解 粗粒度压缩 (a) 文…...

Django serializers:把ValidationError处理的更优雅

开发中必不可少的会对参数做各种校验,必填、唯一等等,这个时候我们需要在校验失败时抛出友好、清晰的提示。 直接使用serializers做校验,虽然也能抛出自定义的错误提示,但是其信息格式是嵌套,并不适合直接反映在前端页…...

CASA(Carnegie-Ames-Stanford Approach) 模型原理及实践技术

植被作为陆地生态系统的重要组成部分对于生态环境功能的维持具有关键作用。植被净初级生产力(Net Primary Productivity, NPP)是指单位面积上绿色植被在单位时间内由光合作用生产的有机质总量扣除自养呼吸的剩余部分。 专题(一)C…...

【HarmonyOS之旅】ArkTS语法(一)

目录 1 -> 基本UI描述 1.1 -> 基本概念 1.2 -> UI描述规范 1.2.1 -> 无参数构造配置 1.2.2 -> 必选参数构造配置 1.2.3 -> 属性配置 1.2.4 -> 事件配置 1.2.5 -> 子组件配置 2 -> 状态管理 2.1 -> 基本概念 2.2 -> 页面级变量的状…...

【畅购电商】项目总结

目录 1. 电商项目架构图 1.1 系统架构 1.2 技术架构 2. 介绍电商项目 2.1 后台和前台、后端和前端 2.2 Vue全家桶包含哪些技术? 2.3 什么是Vuex? 2.4 什么是SSR 2.5 电商模式是什么? 2.6 枚举类 2.7 elasticsearch相关 2.8 gatew…...

python|利用ffmpeg按顺序合并指定目录内的ts文件

前言: 有的时候我们利用爬虫爬取到的ts文件很多,但ts文件只是视频片段,并且这些视频片段是需要按照一定的顺序合并的,通常ts文件合并输出格式为mp4格式 因此,本文介绍利用python,调用ffmpeg来批量的按自己…...

IP属地和所在地不一致什么意思?怎么换成另外一个地方的

在数字化时代,IP地址作为网络设备的唯一标识符,不仅关乎设备间的通信,还涉及到用户的网络身份与位置信息。然而,有时我们会发现,社交媒体或网络平台上显示的IP属地与用户的实际所在地并不一致。这种不一致现象引发了诸…...

Hive其十,优化和数据倾斜

目录 Hive优化 1、开启本地模式 2、explain分析SQL语句 3、修改Fetch操作 4、开启hive的严格模式【提高了安全性】 5、JVM重用 6、分区、分桶以及压缩 7、合理设置map和reduce的数量 合理设置map数量: 设置合理的reducer的个数 8、设置并行执行 9、CBO优…...

matlab reshape permute

1.reshape 将向量按照顺序重新构建 矩阵,新矩阵 先排完第一列, 再第二列… 2.permute 将向量 维度变换...

数据库sql语句单表查询

简单的增删改查操作 select count(*) from user where accountadmin and password123456 select count(*) from user where account"admin" insert into user(account,password) values ("admin","777") update user set password "666&…...

Linux高级--2.4.2 linux TCP 系列操作函数 -- 深层理解

一、操作函数简介 在 Linux 中,TCP(传输控制协议)操作涉及多种系统调用和函数,通常用来创建套接字、连接、发送/接收数据、关闭连接等。以下是一些常用的 TCP 操作函数和它们的简要说明: 1. socket() 函数原型: int…...

科技快讯 | 水滴筹成为民政部指定个人求助网络服务平台;小米超级小爱首次向正式版用户开放;腾讯发布全球首个重症医疗大模型

本地 AI 开发利器,初探微软 Win11 AI Dev Gallery 功能 12月27日,科技媒体Windows Latest报道,微软推出AI Dev Gallery功能,助力开发者集成端侧AI。该功能支持Windows 10/11,提供25个示例模型,涵盖多领域。…...

强化特种作业管理,筑牢安全生产防线

在各类生产经营活动中,特种作业由于其操作的特殊性和高风险性,一直是安全生产管理的重点领域。有效的特种作业管理体系涵盖多个关键方面,从作业人员的资质把控到安全设施的配备维护,再到特种设备的精细管理以及作业流程的严格规范…...

跨语言学习之C++ 和 Python 的赋值操作 (等号“=“) 的区别

C++ 和 Python 的赋值操作(等号 =)在底层机制和表现行为上有显著区别,主要体现在变量与对象的关系、内存管理和对象类型等方面。以下是两者的详细对比: 1. 变量与对象的关系 Python: 变量是对象的引用,赋值操作是将变量指向某个对象的内存地址。多个变量可以指向同一个对…...

【操作系统】如何创建一个守护进程

守护进程(Daemon)是一类在后台运行的特殊进程,它们通常不与任何终端或用户直接交互,而是执行特定的系统任务或等待系统或网络事件的发生。守护进程是操作系统中不可或缺的一部分,它们负责执行各种后台任务,…...

常见显示方案

常见的屏幕 LED段码屏幕 LED点阵屏 本质上是小LED组成的阵列 显示架构为 : 显示内容(MCU内部)————通信接口———对应的LED显示 多使用1640等LED专用驱动 通信方式 两线串行接口(SCLK,DIN)IIC SPI 等…...

USB Hub 检测设备

系列文章目录 xHCI 简单分析 USB Root Hub 分析 USB Hub 检测设备 文章目录 系列文章目录一、引言二、hub_eventshub_port_connect_changeusb_alloc_devusb_set_device_statehub_port_initusb_new_device 一、引言 USB Hub 检测设备 一文中讲到,当有 USB 插入时&…...

安卓开发使用Gemini高效AI开发-Android Studio 中使用Gemini

Gemini 是Android Studio最新版本中内嵌的AI工具,它可以通过代码补全、解释代码、提供改进建议、错误分析等方式帮助开发者提高编码效率。当然,与目前大多数AI工具一样,Gemini有时可能会"非常自信"地提供不准确、错误的信息&#x…...

wangEditor富文本插件在vue项目中使用和媒体上传的实现

wangEditor是前端一个比较流行的简洁易用,功能强大的前端富文本编辑器,支持 JS Vue React,提供了很多丰富的功能,下面手把手教你实现wangWditor富文本插件在vue项目中配置,保存、图片上传等功能。无脑ctrlc即可 基本功…...

ESP-IDF学习记录(2)ESP-IDF 扩展的简单使用

傻瓜式记录一个示例的打开,编译,运行。后面我再一个个运行简单分析每个demo的内容。 1.打开示例代码 2.选择项目,文件夹 3.选择串口 4.选择调试方式 5.根据硬件GPIO口配置menuconfig 6.构建项目 7.烧录设备,选择串口UART方式 运行…...

3个关键步骤让LyricsX成为你的Mac音乐伴侣:从基础到精通

3个关键步骤让LyricsX成为你的Mac音乐伴侣:从基础到精通 【免费下载链接】LyricsX 🎶 Ultimate lyrics app for macOS. 项目地址: https://gitcode.com/gh_mirrors/ly/LyricsX LyricsX是一款专为macOS设计的歌词工具,能够智能同步显示…...

用Python可视化理解柯西-施瓦茨不等式:从向量内积到函数空间的几何直觉

用Python可视化理解柯西-施瓦茨不等式:从向量内积到函数空间的几何直觉 数学中的不等式往往蕴含着深刻的几何意义,柯西-施瓦茨不等式就是这样一个连接代数与几何的桥梁。对于数据科学和机器学习的学习者来说,理解这个不等式不仅能夯实数学基础…...

英语从句全攻略:名词性、定语、副词性从句一网打尽(含易错点分析)

英语从句全攻略:名词性、定语、副词性从句一网打尽(含易错点分析) 当你读到一篇地道的英文文章时,是否曾被那些"套中套"的句子结构难住?从句就像英语语法中的俄罗斯套娃,层层嵌套却暗藏规律。作为…...

Unity 2022 LTS 实战:用NavMesh Agent和OffMesh Link,5分钟搞定一个会‘跳’会‘绕’的智能敌人AI

Unity 2022 LTS 实战:用NavMesh Agent和OffMesh Link打造智能敌人AI 在3D动作游戏中,一个只会直线追击的敌人往往会让玩家感到乏味。想象一下,当玩家精心设计的陷阱被敌人轻松绕过,或是敌人突然从高处跳下发动突袭时,游…...

Huey终极指南:为什么这个轻量级Python任务队列成为开发者的首选?

Huey终极指南:为什么这个轻量级Python任务队列成为开发者的首选? 【免费下载链接】huey a little task queue for python 项目地址: https://gitcode.com/gh_mirrors/hu/huey 在Python开发世界中,高效处理异步任务和定时任务是提升应用…...

从TKMath到STL导出:一份OCCTProxy for .NET的模块化封装实战笔记

从TKMath到STL导出:OCCTProxy for .NET的模块化封装实战 在工业软件开发的深水区,几何内核的封装从来都不是简单的语法转换。当我们需要将OpenCASCADE这样的庞然大物引入.NET生态时,C/CLI就像一座精心设计的悬索桥,既要承受原生代…...

深入剖析Dynamic-Datasource:迭代器模式在数据源扩展中的完整实现指南

深入剖析Dynamic-Datasource:迭代器模式在数据源扩展中的完整实现指南 【免费下载链接】dynamic-datasource dynamic datasource for springboot 多数据源 动态数据源 主从分离 读写分离 分布式事务 项目地址: https://gitcode.com/gh_mirrors/dy/dynamic-dataso…...

Spring AI 实战系列(二):ChatClient封装,告别大模型开发样板代码

系列栏目:Spring AI Spring AI 实战教程(一)入门示例 Spring AI 实战系列(二):ChatClient封装,告别大模型开发样板代码 Spring AI 实战系列(三)&…...

鸽姆智库(GG3M Think Tank)核心优势 |Core Strengths of GG3M Think Tank

鸽姆智库(GG3M Think Tank)核心优势鸽姆智库(GG3M Think Tank)的核心优势体现在理论原创性、技术架构创新、东方智慧深度融入与全场景工程落地能力四大维度,构成全球首个以东方哲学为根基的“文明级操作系统”&#xf…...

STM32F103 SPI+DMA驱动WS2812B的时序实现原理

1. WS2812B_STM32_Libmaple 库深度解析:基于 SPI DMA 的高性能 NeoPixel 驱动实现WS2812B(常被称作 NeoPixel)是当前嵌入式系统中最主流的单线协议可寻址 RGB LED。其核心挑战在于严格的时序要求:T0H(逻辑 0 的高电平时…...