当前位置: 首页 > news >正文

VoCo-LLaMA: Towards Vision Compression with Large Language Models

视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA,这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏,本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。

VoCo-LLaMA

本文VoCo-LLaMA算法引入特殊的视觉压缩(Vision Compression,VoCo)令牌,以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌,特殊的VoCo令牌和文本令牌形成。

X = ( V , V o C o , T ) = ( V 0 , … , V n , V o C o , T 0 , … , T m ) \mathcal{X}=(\mathcal{V},VoCo,\mathcal{T})=(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m}) X=(V,VoCo,T)=(V0,,Vn,VoCo,T0,,Tm)

在训练阶段,使用两阶段注意力机制。最初,本文对文本令牌施加一个约束,明确阻止它们关注原始视觉令牌,同时强迫它们只关注压缩和蒸馏的VoCo令牌。随后由于casual Transformer,视觉令牌受到VoCo令牌的持续关注。这种刻意的设计保证了文本令牌只捕捉VoCo令牌中编码的蒸馏视觉信息,而不是直接与原始视觉令牌交互,实现了从视觉令牌到压缩令牌的压缩蒸馏。

VoCo-LLaMA的压缩过程可以战略性地通过调整注意力掩码优雅地实现。具体地,将文本令牌和视觉令牌之间注意力权重设置为False。 M ∈ R ( m + n − 1 ) × ( m + n − 1 ) \mathbf{M}\in \mathbb{R}^{(m+n-1)\times (m+n-1)} MR(m+n1)×(m+n1) 为注意力掩码。定义调整后注意力掩码为:

M i j = { True,  if  i ∈ T and  j ∈ V o C o , False,  if  i ∈ T and  j ∈ V , True,  otherwise.  M_{i j}=\left\{\begin{array}{ll} \text { True, } & \text { if } i \in \mathcal{T} \text { and } j \in V o C o, \\ \text { False, } & \text { if } i \in \mathcal{T} \text { and } j \in \mathcal{V}, \\ \text { True, } & \text { otherwise. } \end{array}\right. Mij=  True,  False,  True,  if iT and jVoCo, if iT and jV, otherwise. 

值得注意的是本文对注意力掩码的修改是基于仅解码器模型(如LLaVA)中casual注意力掩码实现,该模型被初始化为左下三角矩阵。实践中,VoCo-LLaMA可以在标准的监督微调范式下进行有效训练,利用VLM中现成的大量图像文本数据。此外,VoCo令牌可以紧凑地表示为一组Transformer激活,允许缓存它们以提高推理效率。

VoCo-LLaMA使得大语言模型能够学习视觉令牌的压缩过程 V o C o ( V ) VoCo(\mathcal{V}) VoCo(V),通过学习理解压缩的VoCo令牌,例如学习分布 p V o C o ( y ∣ V o C o ( V ) , T ) p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}) pVoCo(yVoCo(V),T)。优化目标可以描述为:
L ( V L M o , V o C o ) = E V , T [ D K L ( p V L M o ( y ∣ V , T ) ) ∣ ∣ p V o C o ( y ∣ V o C o ( V ) , T ) ) ] L(VLM_{o},VoCo)=E_{\mathcal{V},\mathcal{T}}[D_{KL}(p_{VLM_{o}}(y|\mathcal{V},\mathcal{T}))||p_{VoCo}(y|VoCo(\mathcal{V}),\mathcal{T}))] L(VLMo,VoCo)=EV,T[DKL(pVLMo(yV,T))∣∣pVoCo(yVoCo(V),T))]

另外本文的设计还提供了一个额外的优势:VoCo令牌在压缩过程中专门与输入文本交互,在视觉与文本模态之间建立无缝通道。这使得本文算法能够毫不费力地将压缩视觉信息与文本模态对齐,无需专门的文本视觉感知多模态对齐模块设计

相关文章:

VoCo-LLaMA: Towards Vision Compression with Large Language Models

视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉…...

Vue+vite 组件开发的环境准备

一.nodejs安装 进入Node.js 官网(Node.js — Run JavaScript Everywhere),点击下载。 双击打开,进行安装 双击打开后,点击 next(下一步),后面也是一直点击 next 无其他设置,直到 …...

基于社区发现的GraphRAG思路

GraphRAG出自2024年4月的论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》,其代码也在2024年年中开源 。它在用图结构来完成RAG时,使用社区这个概念并基于社区摘要来回答一些概括性的问题。 Graph RAG流程如论文图1所…...

react学习记录

一、目录结构react优秀代码之react目录结构简洁之道React 作为一个库,不会决定你如何组织项目的结构。这是件好事,因为这样 - 掘金【React】项目的目录结构全面指南_react项目结构-CSDN博客 1、创建项目:开发文档 Getting Started | Create…...

Day2——需求分析与设计

教师端签到应用软件的需求分析; 产品经理如何写好产品需求文档(附模板) 需求分析是软件开发过程中的关键步骤,它确保了开发的软件能够满足用户的需求。以下是进行需求分析的具体步骤: 1. 确定分析目标 明确教师端签到…...

VScode离线下载扩展安装

在使用VScode下在扩展插件时,返现VScode搜索不到插件,网上搜了好多方法,都不是常规操作,解决起来十分麻烦,可以利用离线下载安装的方式安装插件!亲测有效!!! 1.找到VScod…...

【机器学习】机器学习的基本分类-监督学习-决策树(Decision Tree)

决策树是一种树形结构的机器学习模型,适用于分类和回归任务。它通过一系列基于特征的条件判断来将数据分割为多个子区域,从而预测目标变量的值。 1. 决策树的结构 根节点(Root Node) 决策树的起点,包含所有样本。根据某…...

【第 1 章 初识 C 语言】1.8 使用 C 语言的 7 个步骤

目录 1.8 使用 C 语言的 7 个步骤 1.8.1 第 1 步:定义程序的目标 1.8.2 第 2 步:设计程序 1.8.3 第 3 步:编写代码 1.8.4 第 4 步:编译 1.8.5 第 5 步:运行程序 1.8.6 第 6 步:测试和调试程序 1.8.…...

Docker 使用 Dockerfile 文件打包部署前端项目

编写 Dockerfile 文件: FROM nginx:latest ADD dist /etc/nginx/html/dist COPY nginx.conf /etc/nginx/nginx.conf ENV PATH /usr/sbin:$PATH EXPOSE 80 ENTRYPOINT ["nginx"] CMD ["-g","daemon off;"]编写 nginx.conf 文件&#…...

HTML-全

. CSS css后缀名的文件被html引用 在HTML中,CSS(层叠样式表,Cascading Style Sheets)是一种用于设置网页上的文本内容、图片布局和版面设计等外观样式的样式表语言。简单来说,CSS定义了HTML元素如何显示在浏览器中。…...

高效流程图绘制:开发设计流程图利器

在选择画流程图的工具时,不同的项目和使用场景会决定最佳的工具。以下是几款常见的流程图工具,并结合具体项目使用场景提供建议: 1. Lucidchart 特点: 在线协作:支持多人实时协作,适合团队合作。模板丰富&…...

数据仓库的概念

先用大白话讲一下,数据仓库的主要目的就是存储和分析大量结构化数据的。 > 那么它的核心目的是:支持商业智能(BI)和决策支持系统,也就是说,它不仅仅是为了存储,更重要的是为了分析提供便利。…...

AI - 谈谈RAG中的查询分析(2)

AI - 谈谈RAG中的查询分析(2) 大家好,RAG中的查询分析是比较有趣的一个点,内容丰富,并不是一句话能聊的清楚的。今天接着上一篇,继续探讨RAG中的查询分析,并在功能层面和代码层面持续改进。 功…...

Java基础面试题,46道Java基础八股文(4.8万字,30+手绘图)

Java是一种广泛使用的编程语言,由Sun Microsystems(现为Oracle Corporation的一部分)在1995年首次发布。它是一种面向对象的语言,这意味着它支持通过类和对象的概念来构造程序。 Java设计有一个核心理念:“编写一次&am…...

taro小程序马甲包插件

插件名 maloulab/taro-plugins-socksuppet-ci maloulab/taro-plugins-socksuppet-ci安装 yarn add maloulab/taro-plugins-socksuppet-ci or npm i maloulab/taro-plugins-socksuppet-ci插件描述 taro官方是提供了小程序集成插件的tarojs/plugin-mini-ci ,且支持…...

【分组去重】.NET开源 ORM 框架 SqlSugar 系列

💥 .NET开源 ORM 框架 SqlSugar 系列 🎉🎉🎉 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列…...

2020年

C D A C B B A B C B A 42...

基于Matlab卡尔曼滤波的GPS/INS集成导航系统研究与实现

随着智能交通和无人驾驶技术的迅猛发展,精确可靠的导航系统已成为提升车辆定位精度与安全性的重要技术。全球定位系统(GPS)和惯性导航系统(INS)在导航应用中各具优势:GPS提供全球定位信息,而INS…...

《只狼》运行时提示“mfc140u.dll文件缺失”是什么原因?“找不到mfc140u.dll文件”要怎么解决?教你几招轻松搞定

《只狼》运行时提示“mfc140u.dll文件缺失”的科普与解决方案 作为一名软件开发从业者,在游戏开发和维护过程中,我们经常会遇到各种运行时错误和系统报错。今天,我们就来探讨一下《只狼》这款游戏在运行时提示“mfc140u.dll文件缺失”的原因…...

C语言:指针与数组

一、. 数组名的理解 int arr[5] { 0,1,2,3,4 }; int* p &arr[0]; 在之前我们知道要取一个数组的首元素地址就可以使用&arr[0],但其实数组名本身就是地址,而且是数组首元素的地址。在下图中我们就通过测试看出,结果确实如此。 可是…...

GeekDoc

GeekDoc 中文系列教程是一个庞大且组织良好的技术文档集合,它并非单一教程,而是一个开源文档翻译与整理项目,旨在将优秀的技术文档和教程翻译成中文,并按技术领域进行分类。其内容广泛覆盖了信息技术领域的多个核心方向&#xff0…...

TS_lib深度解析:MegaSquirt协议嵌入式串行通信实现

1. TS_lib 库深度解析:面向 MegaSquirt 协议的嵌入式 ECU 串行通信实现TS_lib 是一个专为嵌入式电控单元(ECU)与 TunerStudio 调参软件协同工作而设计的轻量级 C 库。其核心价值不在于通用串口抽象,而在于精确复现 MegaSquirt 固件…...

CCLE数据库实战指南:从数据下载到肝癌细胞系分析

1. CCLE数据库入门指南 第一次接触CCLE数据库时,我和大多数新手一样感到无从下手。这个由Broad研究所维护的癌症细胞系百科全书,包含了超过1000种人类癌症细胞系的基因组、转录组和药理学数据。对于肝癌研究者来说,它就像一座待挖掘的金矿。 …...

中国AI Agent发展现状与生态分析

中国AI Agent发展现状与生态分析 1. 标题 (Title) [从“工具助手”到“决策伙伴”:全景拆解中国AI Agent的爆发逻辑、玩家图谱与下一个十年机遇][万字深度:202X中国AI Agent发展白皮书——技术攻坚、商业落地与生态全景解析][抢滩AGI入口之战&#xff1a…...

Lisk SDK安全最佳实践:保护区块链应用免受攻击的10个技巧

Lisk SDK安全最佳实践:保护区块链应用免受攻击的10个技巧 【免费下载链接】lisk-sdk 🔩 Lisk software development kit 项目地址: https://gitcode.com/gh_mirrors/li/lisk-sdk Lisk SDK是一款强大的区块链应用开发工具包,专为构建安…...

实战演练:基于快马平台与OpenClaw实现颜色分拣机器人应用

最近在做一个工厂自动化的小项目,正好用到了OpenClaw机械爪控制库,结合颜色识别实现了一个智能分拣系统。这个实战案例特别适合在InsCode(快马)平台上快速验证,下面分享下我的实现思路和关键要点。 项目整体架构设计 系统主要分为三个核心模块…...

SEO_新手入门教程:如何从零开始学习SEO优化

SEO新手入门教程:如何从零开始学习SEO优化 在当今数字化时代,搜索引擎优化(SEO)已成为每一个希望在网络上脱颖而出的网站必不可少的技能。不论你是一个全新的网站主,还是一个希望提升现有网站流量的企业,了…...

hdl_localization实战:在ROS Melodic下,如何不依赖IMU实现16线激光雷达的稳定定位?

无IMU环境下16线激光雷达的hdl_localization实战指南 在机器人自主导航领域,定位系统是核心组件之一。传统方案通常依赖IMU(惯性测量单元)与激光雷达的融合,但在实际工程中,IMU数据可能存在噪声大、校准困难或硬件缺失…...

基于FPGA的SJA1000T CAN通信驱动代码功能说明

基于FPGA的CAN通信,FPGA驱动SJA1000T芯片代码,实现标准帧与扩展帧的通信驱动,已上板调通 品牌型号 CAN SJA1000T 与世面上的不同,代码不是SJA1000T芯片代码,而是驱动该芯片的代码。一、概述 本文档详细解读基于FPGA的…...

HTML5语义化元素完全解析:提升SEO与可访问性的最佳实践

HTML5语义化元素完全解析:提升SEO与可访问性的最佳实践 【免费下载链接】awesome-html5 :memo: A curated list of awesome HTML5 resources 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-html5 HTML5语义化元素是现代Web开发的核心技术&#xff0c…...