当前位置：首页 > article >正文

【第三十七周】论文阅读03

article 2026/3/23 16:00:34

文章目录摘要Abstract一、《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》1. 摘要2. 介绍3. 相关工作4. Llava-删除5. 实验5.1 压缩类型5.2 令牌压缩中的递减规律二、FastVLM: Efficient Vision Encoding for Vision Language Models1. 摘要2. 介绍3. 结构3.1 FastViT作为图像编码器3.1.1 视觉编码器与语言解码器的协同作用3.1.2 静态分辨率 vs. 动态分辨率3.1.3 与Token剪枝/下采样方法的对比3.2 FastViTHD: 为高分辨率VLM量身定制的新编码器3.3 架构图三、Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc1. 摘要2. 介绍3. 相关工作4. 方法4.1 概述4.2 压缩模块4.3 视觉编码器4.4 分层压缩策略4.5 模型架构:四、《Glyph Scaling Context Windows via Visual-Text Compression》1. 摘要2. 介绍3. 相关工作4. 方法4.1 任务定义4.2 持续预训练Continual Pre-training4.3 LLM驱动的渲染搜索LLM-Driven Rendering Search4.4 后训练Post-Training让模型“适应”压缩后的输入4.5 GLyph模型的流程总结摘要本周主要阅读了视觉token压缩的四篇论文压缩发方法为语义感知合并编码器优化和查询引导压缩。其中《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》属于语义感知合并即基于语义连通组件或对象级表征进行合并符合人类视觉认知系统减少幻觉。《FastVLM: Efficient Vision Encoding for Vision Language Models》属于编码器优化优化视觉编码器本身的效率从源头减少token生成数量。《Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc》和《Glyph Scaling Context Windows via Visual-Text Compression》属于查询引导压缩利用用户指令/问题作为条件引导压缩过程同时保留任务相关关键信息实现“按需压缩”。AbstractThis week, I mainly read four papers on visual token compression. The compression methods covered include semantic-aware merging, encoder optimization, and query-guided compression.Among them, 《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》 falls into semantic-aware merging. It performs token merging based on semantic connected components or object-level representations, which aligns with the human visual cognitive system and reduces hallucinations.《FastVLM: Efficient Vision Encoding for Vision Language Models》 belongs to encoder optimization. It improves the efficiency of the vision encoder itself and reduces the number of generated tokens from the source.《Question-Guided Visual Token Compression in MLLMs for Efficient VQA (Qg-Vtc)》and 《Glyph Scaling Context Windows via Visual-Text Compression》 are categorized as query-guided compression. These methods use user instructions or questions as conditions to guide the compression process, while preserving task-relevant key information to achieve “on-demand compression”.一、《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》1. 摘要本文提出了一种针对视频多模态大型语言模型设计的免训练token压缩策略LLaVA -删除。以往的方法大多尝试基于注意力分数压缩标记但未能有效捕获所有语义区域往往导致标记冗余。我们提出使用语义连接组件( SCC )的方法将token分配到token集合中不同的语义区域以确保全面的语义覆盖。结果是一个两步时空token压缩策略在空间域和时间域都使用SCC。该策略通过用一组互不重叠的语义token来表示整个视频可以有效地压缩token。2. 介绍不同token压缩范式的说明。□每个格子表示视频token颜色代表不同的语义。( a )基于注意力机制的方法不能覆盖所有的语义区域。( b )基于分段的方法通过叠加每个分段的token来引入时间冗余。( c )我们的两步时空压缩策略能够在每一帧中识别独特的语义信息并消除时间冗余从而产生不重叠的视频token。论文主要贡献指出现有的基于注意力分数的方法不能完全表示整个token集并提出了语义连接组件( SCC )一种捕获token集中所有不同语义区域的token压缩策略。提出了LLaVA -删除一种为视频MLLMs设计的两步时空token压缩可以生成更全面和有效的视频内容表示。实验表明在各种视频理解基准上LLaVA -删除优于其他token压缩方法。3. 相关工作介绍1视觉大语言模型并且讲述当代视觉大语言模型存在的问题处理长视频的计算效率不理想2现存多模态大语言模型token压缩的方法存在的问题忽略时间冗余以及语义相似的信息可能在时间上不相邻或空间上不一致的事实导致在堆叠来自每个片段的标记时产生冗余而LLaVA -删除在空间和时间上都执行token压缩注1空间不一定一致一辆飞驰的汽车它可以从画面左侧到右侧此时汽车对象不变但是位置发生变化。2传统的视频压缩方法存在一个隐含的错误假设它们假设相同的东西会出现在固定的位置或者时间上相邻的帧里内容变化不大导致它们无法很好地处理物体的运动最终会造成信息冗余重复计算了没动的背景或者信息丢失漏掉了移动的物体。4. Llava-删除语义连通组件Semantic Connected Components, SCC核心思想通过计算token之间的相似度构建一个图结构将token视为节点相似度高于阈值则连边然后找出图中的连通组件每个组件代表一个独特的语义区域。连通组件类似连通图内部任意两节点都可以相连代价或多或少。由此可知连通组件内部语义相同每个组件代表一个独特语义区。优势不依赖空间位置能捕捉全局语义关系保证不同语义区域之间无重叠语义覆盖更全面每个组件只保留一个代表性token实现压缩。两步时空压缩策略1空间压缩对每一帧单独应用SCC提取该帧内所有独特的语义区域得到每帧的代表性token集。2时间压缩将所有帧的代表性token拼接后再次应用SCC去除跨帧重复的语义信息得到最终的非重叠语义token集。3最终合并将原始所有token与最终代表性token进行相似度匹配合并到最相似的语义组件中得到最终的压缩token序列。5. 实验5.1 压缩类型我们对LLaVA -删除的token压缩能力进行了广泛的评估包括视频问答、长视频理解和综合多选题等多个视频理解基准。实验结果表明本文提出的LLaVA -删除优于其他token压缩方法在各种视频理解基准中取得了优异的性能尤其是在低token保持率下。视频问答长视频理解综合多选题主要实验方法消融实验控制变量法实验相关参数分析相似度阈值 τ对压缩后令牌数量的影响τ 越低压缩越强令牌数减少。分析误差容忍度 ϵ 对连通组件计算的影响ϵ≤0.05时组件数趋于稳定因此设为0.05。5.2 令牌压缩中的递减规律冗余性验证在保留比例从90%降至35%时多数方法性能与原模型接近甚至均匀采样也仅小幅下降说明视频令牌存在大量冗余。保留比例整个视频经过压缩后最终保留下来的令牌总数占原始输入令牌总数的百分比。语义损失分析当保留比例低于35%如10%、3%所有方法性能急剧下降但LLaVA-Scissor的下降幅度最小。例如在3%保留时LLaVA-Scissor仍保持86.8%的原始性能比FastV高出6.1%证明其能更好地保留关键语义。二、FastVLM: Efficient Vision Encoding for Vision Language Models1. 摘要对图像分辨率、视觉编码延迟、视觉token数量以及大语言模型大小之间的相互影响进行了全面的效率分析并在此基础上提出了FastVLM。该模型的核心是一个名为FastViTHD的新型混合视觉编码器它专为高分辨率图像设计能够输出更少的视觉token并显著缩短编码时间。FastVLM通过直接缩放输入图像就能在视觉token数量与图像分辨率之间达到最佳平衡无需额外的token剪枝简化了模型设计。性能表现在LLaVA-1.5的设置下与之前的工作相比FastVLM在保持相似性能的同时将首 token 生成时间TTFT 提升了3.2倍。与最高分辨率下的LLaVA-OneVision相比在使用相同的0.5B LLM时FastVLM在关键基准测试上取得了更好的性能且TTFT提升了85倍视觉编码器尺寸缩小了3.4倍。2. 介绍现存的问题1高分辨率图像导致视觉 token 数量激增增加 LLM 预填充时间2视觉编码器本身在高分辨率下延迟高3现有方法虽然提升分辨率但引入额外延迟和语义断裂。主要贡献1提出FastViTHD视觉编码器混合架构卷积 Transformer通过额外的下采样阶段生成更少的视觉token显著降低LLM预填充时间。2系统性分析VLM的精度-延迟权衡综合考虑视觉编码延迟 LLM预填充时间在实际硬件上进行基准测试。提出Pareto最优曲线指导不同LLM大小与分辨率的组合选择。3多尺度特征融合与训练策略优化引入多阶段训练Stage 1: 投影层训练Stage 1.5: 分辨率适应Stage 2: 指令微调Stage 3: 高质量指令微调。使用深度可分离卷积DWConv融合多尺度特征提升性能。4显著的效率提升在多个VLM基准上表现更优3. 结构首先探索采用FastViT混合视觉编码器进行视觉语言建模。然后我们引入架构干预来提高VLM任务的表现。本文提出了一种新的混合视觉编码器Fast Vi THD用于实现高效的高分辨率VLM。3.1 FastViT作为图像编码器核心发现1混合架构是天然的“好苗子”。FastViT一种混合了卷积和Transformer的架构作为视觉编码器优势1分辨率可扩展其卷积组件使其能很好地适应不同分辨率的输入2Token效率高由于卷积的下采样特性在相同输入分辨率下它生成的token数量远少于ViT。3在 768 分辨率下性能优于 ViT-L/14 在 336 分辨率的表现。核心发现2多尺度特征融合能“再加分”1提取不同阶段的特征2使用深度可分离卷积DWConv进行融合可以补充最后层的高层语义特征提升性能。小结: 一个设计良好的混合架构FastViT在VLM任务中相比传统的ViT已经展现出了显著的“速度-性能”优势。通过简单的多尺度融合还能再进一步提升。3.1.1 视觉编码器与语言解码器的协同作用VLM中的精度-延迟权衡受到多种因素的影响。一方面VLM的整体性能取决于( 1 )输入图像的分辨率( 2 )视觉令牌的数量和质量( 3 ) LLM的性能。实验将FastViT和FastViTHD分别与三种不同大小的LLM (Qwen2-0.5B/1.5B/7B) 和多种分辨率配对绘制出每个视觉编码器的Pareto最优曲线结论1FastViTHD全方面优于FastViT2揭示了最优搭配规律例如曲线显示对于小LLM一味提高分辨率收益不大因为视觉编码延迟会占主导图5也佐证了这一点。FastViTHD为不同LLM找到了最佳的分辨率“甜点”。3.1.2 静态分辨率 vs. 动态分辨率静态分辨率模型只接受一种固定尺寸的输入。无论你给的原始图片有多大或多小模型都会通过缩放Resize的方式把它变成这个固定的尺寸再进行处理。动态分辨率根据输入图像的原始尺寸和长宽比动态地调整处理方式最常见的就是我们之前聊过的瓦片推理瓦片推理切割编码拼接。将图片切成多个大小相同的小块瓦片将每个瓦片分别送入视觉编码器将编码器的分辨率设置为瓦片大小进行处理最后模型会将这些瓦片产生的视觉token按照原来的位置拼接起来形成对整张图的理解供LLM使用。结论直接将模型的输入分辨率设置为期望分辨率可以提供最好的精度-延迟平衡。如果需要动态分辨率使用更少的瓦片设置会表现出更好的精度-延迟权衡。3.1.3 与Token剪枝/下采样方法的对比FastViTHD减少token的方式架构性下采样与近年来流行的“先多生成token再剪枝”的方法相比孰优孰劣结论:1架构性下采样完胜FastViTHD通过训练在低分辨率下取得的性能就已经超过了绝大多数剪枝方法在高分辨率下的性能。2“少而精”优于“多而剪”与其先生成大量token再费力剪枝不如从一开始就通过精心设计的架构生成高质量、低数量的token。3.2 FastViTHD: 为高分辨率VLM量身定制的新编码器设计目标更低延迟更少 token核心设计1极致地下采样生成极少的Token思路VLM的延迟由“视觉编码延迟”和“LLM预填充延迟”两部分组成。FastViTHD的设计目标是同时降低这两者。降低视觉编码延迟通过高效的卷积和优化的架构设计实现。降低LLM预填充延迟通过生成更少的视觉token实现。创新点增加一个下采样阶段通常有4个阶段总下采样倍率为16。FastViTHD引入了第5个阶段将总下采样倍率提升到了64下采样阶段核心设计2混合阶段各司其职3.3 架构图三、Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc1. 摘要多模态大预言模型视觉问答任务中集成视觉信息增加了处理令牌的数量导致更高的GPU内存使用量和计算开销。图像较文本有更多冗余并且并非所有细节为有效信息。方法介绍QG - VTC一种新颖的问题引导视觉令牌压缩方法用于基于MLLM的视觉问答任务。QG - VTC使用一个预训练的文本编码器和一个可学习的前馈层将用户问题嵌入到视觉编码器的特征空间中然后计算问题嵌入和视觉令牌之间的相关性得分最后通过选择最相关的令牌并对其他令牌进行软压缩。优势该方法仅使用1 / 8的视觉令牌就可以达到与未压缩模型相当的性能并且保证了与用户需求的微调相关性。2. 介绍本文的贡献总结如下提出了一种问题引导的视觉令牌压缩方法QG - VTC。它根据用户的问题选择性地保留最相关的视觉令牌并使用加权平均的方法合并相关性较低的视觉令牌。该方法在尽可能减少图像信息损失的情况下大幅减少了令牌数量。我们的方法使用分层策略将问题引导的视觉令牌压缩模块集成到视觉编码器中。该方法在保留局部图像细节的同时利用了深层的、语义丰富的信息减少了LLM和视觉编码器本身的计算负荷。通过大量实验我们在多个基准上获得了最先进SOTAState-Of-The-Art结果。值得注意的是我们仅用1 / 8的视觉令牌和大约30 %的原始计算负载来匹配性能。3. 相关工作对现有压缩方法进行介绍得出现有方法的局限性。同时较现有方法QG-VTC的优势在于1问题引导QG-VTC是第一个在视觉编码器内部引入用户问题作为压缩依据的方法。2压缩位置QG-VTC实现了视觉编码器内部的分层压缩从而在减少LLM负担的同时也大幅降低了视觉编码器自身的计算量。3软压缩机制相比于直接剪枝QG-VTC采用注意力分数加权的软回收方式进一步减少了信息丢失。软回收把不太相关图片的残余有用信息融合到保留的标记中4. 方法4.1 概述QG - VTC它通过基于用户问题的分层压缩方法来减少视觉编码器中的视觉令牌。方法本质上是利用用户问题的特征向量在视觉编码器的多层中动态筛选出最相关的视觉标记并将其他低相关标记的有效信息融合到这些保留的标记中从而实现精细化的压缩。通过这种多次的、精细的筛选与融合最终只留下一小部分与问题高度相关的视觉标记同时最大程度地避免了重要信息的丢失4.2 压缩模块在具体的Transformer层内部QG-VTC是如何利用用户问题来减少视觉令牌数量的。流程1输入视觉token与文本查询2自注意力计算计算每个视觉token对其他所有token的关注程度得到注意力分数矩阵A3计算问题与视觉token的相关性得到相关性分数C4划分token根据相关性分数C对所有视觉token进行划分保留组令牌总是保留加上 C 分数最高的前 n 个视觉令牌。压缩组剩下的 m 个相关性最低的视觉令牌。5软压缩公式说明对于保留组中的某个令牌i它要从压缩组的每个令牌j 那里回收一部分信息回收的权重就是原来令牌i对令牌j的注意力大小 A(i,j)A(i,j)。这样即便某个图像块整体上与问题不相关它包含的少量有用细节比如背景颜色也能通过注意力机制被补充到关键区域去。6输出保留组的n n1 个token4.3 视觉编码器压缩位置的选择浅层与深层4.4 分层压缩策略策略优势如下1压缩平滑避免了一次性大幅压缩带来的信息断崖式丢失。2信息交互在两个压缩层之间插入一个普通层如13层让被压缩和融合后的新令牌有机会再次进行全局交互为下一轮更精细的筛选做准备。3减少编码器负担由于在编码器的中间层就开始减少令牌数量后续层的计算量特别是自注意力的二次计算部分会显著下降从而节省了视觉编码器自身的计算资源4.5 模型架构:模型的计算细节四、《Glyph Scaling Context Windows via Visual-Text Compression》1. 摘要Glyph框架将长文本渲染成图像并使用视觉语言模型( VLMs )对其进行处理。该方法在保留语义信息的同时大幅压缩了文本输入我们设计了一个LLM驱动的遗传搜索来确定最佳的视觉渲染配置以平衡精度和压缩。通过大量的实验证明了该方法实现了3 - 4倍的令牌压缩同时保持了精度。这种压缩也导致大约4 ×快的预填充和解码以及大约2 ×快的SFT训练。2. 介绍主要贡献1新范式提出首次系统性地将视觉压缩引入长上下文建模2自动渲染搜索设计了LLM驱动的遗传搜索算法自动找到最优渲染配置兼顾压缩与性能。3显著的效率提升压缩比达 3-4倍预填充速度提升 4.8倍解码速度提升 4.4倍SFT训练速度提升约 2倍4跨模态泛化能力即使训练数据以渲染文本为主Glyph在实际文档理解任务中仍表现优异3. 相关工作1长上下文建模通过对注意力位置编码插值等进行改进如优化数据微调来扩展模型上下文窗口降低长序列的计算复杂度。方法局限性并未减少输入Token数量2多模态大语言模型关注多模态视觉-语言模型的发展由早期注重将视觉信息和语言模型进行结合到提升提升编码能力使模型具备信息压缩潜力OCR一个token可以承载多个文字4. 方法Glyph包括3个主要阶段对渲染的长文本数据进行持续的预训练LLM驱动的遗传搜索最优渲染配置以及使用SFT、RL进行后训练。这些阶段共同实现了高效的长上下文建模和视觉-文本压缩。4.1 任务定义任务形式转变由于上下文太长因此直接转变为页面图片进行理解C—V此时原本三元组变为目标变为渲染管道文本排版样式和视觉密度由【分辨率页面尺寸字体样式字体大小缩进方式…等】参数决定渲染过程由配置向量θ控制压缩比θ 的选择直接影响信息密度通过字体大小、dpi和视觉清晰度通过布局、间距从而在压缩率与模型可读性之间取得平衡。4.2 持续预训练Continual Pre-training将大量长文本渲染为多种风格的图像如文档风格、网页风格、代码风格等训练VLM理解这些“视觉文本”使图片与原文本语义对齐。数据构建多样化的渲染配置将文本渲染成多种图片样式避免风格单一排除不合理配置如行高小于字体大小等无效组合预定义风格主题包含三类任务三类任务联合训练使模型具备在视觉压缩上下文下的阅读、推理和生成能力1OCR任务从图像中重构文本2交错语言建模部分文本渲染为图片剩余仍为文本3生成任务根据部分图像模型补全缺失内容。4.3 LLM驱动的渲染搜索LLM-Driven Rendering Search虽然预训练使用多种渲染样式但是下游任务仍具有特定偏好因此使用遗传算法搜索最优的渲染参数θ以在压缩率与模型性能之间取得最佳平衡。遗传算法流程1初始化种群从预训练使用的渲染配置中随机采样一批候选配置。2渲染验证集用每个候选配置将验证集一组长文本渲染成图像。3评估使用当前模型Glyph-Base对渲染后的数据进行推理记录每个配置下的任务准确率和压缩比。4LLM分析与建议利用一个强大的LLM分析当前种群配置与性能的关系提出有价值的变异和交叉策略生成新一代候选配置。5记录与选择将所有配置及其性能记录在搜索历史中根据性能排名采样优秀配置进入下一次遗传算法。算法迭代进行直到种群收敛连续若干代无明显性能提升。最终得到最优配置 θ 。这种LLM驱动的搜索能自动平衡压缩率和模型性能比人工或随机调参更高效。4.4 后训练Post-Training让模型“适应”压缩后的输入确定θ后此时模型已经看得懂图像进一步优化使模型能够在图像上完成文本任务。包含三种优化方式1监督微调SFT教会模型“怎么答”让模型从“会读”变成“会答”使用最优渲染配置θ生成训练数据并引入“思考式”推理格式如 …让训练模型学会输入图像经过推理得到输出答案的映射。2强化学习RL教会模型“答得更好”SFT数据中不一定包含最优回答模型可能答对了但推理过程混乱或格式不符合要求。用强化学习直接优化最终答案质量。采用GRPO算法让模型自己生成多个候选答案用外部LLM评分准确率格式奖励告诉模型什么样的答案更好。3辅助OCR对齐任务让模型“看得清”压缩后的字而不是“猜”字增强模型对图像中文字的识别能力防止模型在追求压缩时牺牲文字识别精度。4.5 GLyph模型的流程总结四篇论文均聚焦多模态模型的token 压缩从不同维度提升效率LLaVA-Scissor面向视频 LLM提出免训练的语义连通分量SCC 时空两步压缩先单帧空间语义聚类再跨帧去时间冗余保留完整语义。FastVLM提出FastViTHD混合视觉编码器以卷积 Transformer 架构级下采样减少高分辨率图像 token 与编码延迟无需额外剪枝推理速度提升 3.2 倍。Qg-VTC针对 VQA问题引导压缩用文本编码器嵌入问题筛选与问题相关的视觉 token降低无关信息开销。Glyph创新视觉 - 文本压缩将长文本渲染为图像用 VLM 处理配合 LLM 驱动的遗传搜索优化渲染实现 3–4 倍 token 压缩扩展上下文窗口。

【第三十七周】论文阅读03

相关文章：

【第三十七周】论文阅读03

SEO_快速诊断并解决网站SEO问题的五个步骤（384 ）

Qwen2.5-VL-7B-Instruct开源可部署优势：完全离线运行，无外网依赖保障安全

保姆级教程：用MATLAB 2022b和STM32G431RB搞定无感FOC，从电机参数识别到代码生成

【OpenClaw从入门到精通】第37篇：教育“龙虾”进化论——从答疑助教到全流程智能教学系统（2026实测版）

树形DP

在 Debian 13 (Trixie) 上安装远程桌面 Xrdp 并配置 Xfce4

SmolVLA助力网络安全：智能分析日志与威胁情报

合宙Air780EG开发板实战指南—06 基于LuatOS的串口UART高效数据收发与调试技巧

SEO_掌握关键词研究的正确方法，驱动SEO流量增长

Java类间变量共享与进度更新的实现策略

网络协议分析（CTF 入门博客）

DM8数据库容灾避坑手册：从备份恢复到应急方案的全套操作实录（含PSEG_RECV参数详解）

《Python程序设计与算法基础教程》P41部分练习题解答

基于 Spring AI Alibaba 搭建 Text-To-SQL 智能系统（简单实现）

如何下载各平台上购买的网课？网课学习神器！学无止下载器让你的学习效率翻倍

EMI电路设计仿真

WPF Decorator：高效视觉修饰指南

Web自动化测试（01）- iFrame窗口切换

JAVA-Mybaits

二分算法 cpp

eclipse下载、安装、编写运行helloworld教程

新160个CrackMe 008，009号：Afkayas.1，Boonz-KeygenMe#1逆向分析

试过30多个副业后，我只推荐这2个靠谱项目！

基于Flask的人脸识别OOD模型API服务开发

K64F平台FXOS8700传感器驱动与姿态融合实战

挑中年大叔头像AI头像时，看着精致不代表后面能细修

Helsinki-NLP/opus-mt-en-zh模型实战：快速搭建英译中翻译工具

工业相机选型基础：曝光时间、增益与信噪比的三角平衡关系

稳如磐石：STM32F4 与 DP83848 打造的以太网驱动工程