当前位置: 首页 > article >正文

【第三十七周】论文阅读03

文章目录摘要Abstract一、《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》1. 摘要2. 介绍3. 相关工作4. Llava-删除5. 实验5.1 压缩类型5.2 令牌压缩中的递减规律二、FastVLM: Efficient Vision Encoding for Vision Language Models1. 摘要2. 介绍3. 结构3.1 FastViT作为图像编码器3.1.1 视觉编码器与语言解码器的协同作用3.1.2 静态分辨率 vs. 动态分辨率3.1.3 与Token剪枝/下采样方法的对比3.2 FastViTHD: 为高分辨率VLM量身定制的新编码器3.3 架构图三、Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc1. 摘要2. 介绍3. 相关工作4. 方法4.1 概述4.2 压缩模块4.3 视觉编码器4.4 分层压缩策略4.5 模型架构:四、《Glyph Scaling Context Windows via Visual-Text Compression》1. 摘要2. 介绍3. 相关工作4. 方法4.1 任务定义4.2 持续预训练Continual Pre-training4.3 LLM驱动的渲染搜索LLM-Driven Rendering Search4.4 后训练Post-Training让模型“适应”压缩后的输入4.5 GLyph模型的流程总结摘要本周主要阅读了视觉token压缩的四篇论文压缩发方法为语义感知合并编码器优化和查询引导压缩。其中《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》属于语义感知合并即基于语义连通组件或对象级表征进行合并符合人类视觉认知系统减少幻觉。《FastVLM: Efficient Vision Encoding for Vision Language Models》属于编码器优化优化视觉编码器本身的效率 从源头减少token生成数量。《Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc》和《Glyph Scaling Context Windows via Visual-Text Compression》 属于查询引导压缩利用用户指令/问题作为条件引导压缩过程同时保留任务相关关键信息实现“按需压缩”。AbstractThis week, I mainly read four papers on visual token compression. The compression methods covered include semantic-aware merging, encoder optimization, and query-guided compression.Among them, 《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》 falls into semantic-aware merging. It performs token merging based on semantic connected components or object-level representations, which aligns with the human visual cognitive system and reduces hallucinations.《FastVLM: Efficient Vision Encoding for Vision Language Models》 belongs to encoder optimization. It improves the efficiency of the vision encoder itself and reduces the number of generated tokens from the source.《Question-Guided Visual Token Compression in MLLMs for Efficient VQA (Qg-Vtc)》and 《Glyph Scaling Context Windows via Visual-Text Compression》 are categorized as query-guided compression. These methods use user instructions or questions as conditions to guide the compression process, while preserving task-relevant key information to achieve “on-demand compression”.一、《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》1. 摘要本文提出了一种针对视频多模态大型语言模型设计的免训练token压缩策略LLaVA -删除。以往的方法大多尝试基于注意力分数压缩标记但未能有效捕获所有语义区域往往导致标记冗余。我们提出使用语义连接组件( SCC )的方法将token分配到token集合中不同的语义区域以确保全面的语义覆盖。结果是一个两步时空token压缩策略在空间域和时间域都使用SCC。该策略通过用一组互不重叠的语义token来表示整个视频可以有效地压缩token。2. 介绍不同token压缩范式的说明。□每个格子表示视频token颜色代表不同的语义。( a )基于注意力机制的方法不能覆盖所有的语义区域。( b )基于分段的方法通过叠加每个分段的token来引入时间冗余。( c )我们的两步时空压缩策略能够在每一帧中识别独特的语义信息并消除时间冗余从而产生不重叠的视频token。论文主要贡献指出现有的基于注意力分数的方法不能完全表示整个token集并提出了语义连接组件( SCC )一种捕获token集中所有不同语义区域的token压缩策略。提出了LLaVA -删除一种为视频MLLMs设计的两步时空token压缩可以生成更全面和有效的视频内容表示。实验表明在各种视频理解基准上LLaVA -删除优于其他token压缩方法。3. 相关工作介绍1视觉大语言模型并且讲述当代视觉大语言模型存在的问题处理长视频的计算效率不理想2现存多模态大语言模型token压缩的方法存在的问题忽略时间冗余以及语义相似的信息可能在时间上不相邻或空间上不一致的事实导致在堆叠来自每个片段的标记时产生冗余而LLaVA -删除在空间和时间上都执行token压缩注1空间不一定一致一辆飞驰的汽车它可以从画面左侧到右侧此时汽车对象不变但是位置发生变化。2传统的视频压缩方法存在一个隐含的错误假设它们假设相同的东西会出现在固定的位置或者时间上相邻的帧里内容变化不大导致它们无法很好地处理物体的运动最终会造成信息冗余重复计算了没动的背景或者信息丢失漏掉了移动的物体。4. Llava-删除语义连通组件Semantic Connected Components, SCC核心思想通过计算token之间的相似度构建一个图结构将token视为节点相似度高于阈值则连边然后找出图中的连通组件每个组件代表一个独特的语义区域。连通组件类似连通图内部任意两节点都可以相连代价或多或少。由此可知连通组件内部语义相同每个组件代表一个独特语义区。优势不依赖空间位置能捕捉全局语义关系保证不同语义区域之间无重叠语义覆盖更全面每个组件只保留一个代表性token实现压缩。两步时空压缩策略1空间压缩对每一帧单独应用SCC提取该帧内所有独特的语义区域得到每帧的代表性token集。2时间压缩将所有帧的代表性token拼接后再次应用SCC去除跨帧重复的语义信息得到最终的非重叠语义token集。3最终合并将原始所有token与最终代表性token进行相似度匹配合并到最相似的语义组件中得到最终的压缩token序列。5. 实验5.1 压缩类型我们对LLaVA -删除的token压缩能力进行了广泛的评估包括视频问答、长视频理解和综合多选题等多个视频理解基准。实验结果表明本文提出的LLaVA -删除优于其他token压缩方法在各种视频理解基准中取得了优异的性能尤其是在低token保持率下。视频问答长视频理解综合多选题主要实验方法消融实验控制变量法实验相关参数分析相似度阈值 τ对压缩后令牌数量的影响τ 越低压缩越强令牌数减少。分析误差容忍度 ϵ 对连通组件计算的影响ϵ≤0.05时组件数趋于稳定因此设为0.05。5.2 令牌压缩中的递减规律冗余性验证在保留比例从90%降至35%时多数方法性能与原模型接近甚至均匀采样也仅小幅下降说明视频令牌存在大量冗余。保留比例整个视频经过压缩后最终保留下来的令牌总数占原始输入令牌总数的百分比。语义损失分析当保留比例低于35%如10%、3%所有方法性能急剧下降但LLaVA-Scissor的下降幅度最小。例如在3%保留时LLaVA-Scissor仍保持86.8%的原始性能比FastV高出6.1%证明其能更好地保留关键语义。二、FastVLM: Efficient Vision Encoding for Vision Language Models1. 摘要对图像分辨率、视觉编码延迟、视觉token数量以及大语言模型大小之间的相互影响进行了全面的效率分析并在此基础上提出了FastVLM。该模型的核心是一个名为FastViTHD的新型混合视觉编码器它专为高分辨率图像设计能够输出更少的视觉token并显著缩短编码时间。FastVLM通过直接缩放输入图像就能在视觉token数量与图像分辨率之间达到最佳平衡无需额外的token剪枝简化了模型设计。性能表现在LLaVA-1.5的设置下与之前的工作相比FastVLM在保持相似性能的同时将首 token 生成时间TTFT 提升了3.2倍。与最高分辨率下的LLaVA-OneVision相比在使用相同的0.5B LLM时FastVLM在关键基准测试上取得了更好的性能且TTFT提升了85倍视觉编码器尺寸缩小了3.4倍。2. 介绍现存的问题1高分辨率图像导致视觉 token 数量激增增加 LLM 预填充时间2视觉编码器本身在高分辨率下延迟高3现有方法虽然提升分辨率但引入额外延迟和语义断裂。主要贡献1提出FastViTHD视觉编码器混合架构卷积 Transformer通过额外的下采样阶段生成更少的视觉token显著降低LLM预填充时间。2系统性分析VLM的精度-延迟权衡综合考虑视觉编码延迟 LLM预填充时间在实际硬件上进行基准测试。提出Pareto最优曲线指导不同LLM大小与分辨率的组合选择。3多尺度特征融合与训练策略优化引入多阶段训练Stage 1: 投影层训练Stage 1.5: 分辨率适应Stage 2: 指令微调Stage 3: 高质量指令微调。使用深度可分离卷积DWConv融合多尺度特征提升性能。4显著的效率提升在多个VLM基准上表现更优3. 结构首先探索采用FastViT混合视觉编码器进行视觉语言建模。然后我们引入架构干预来提高VLM任务的表现。本文提出了一种新的混合视觉编码器Fast Vi THD用于实现高效的高分辨率VLM。3.1 FastViT作为图像编码器核心发现1混合架构是天然的“好苗子”。FastViT一种混合了卷积和Transformer的架构作为视觉编码器优势1分辨率可扩展其卷积组件使其能很好地适应不同分辨率的输入2Token效率高由于卷积的下采样特性在相同输入分辨率下它生成的token数量远少于ViT。3在 768 分辨率下性能优于 ViT-L/14 在 336 分辨率的表现。核心发现2多尺度特征融合能“再加分”1提取不同阶段的特征2使用深度可分离卷积DWConv进行融合可以补充最后层的高层语义特征提升性能。小结: 一个设计良好的混合架构FastViT在VLM任务中相比传统的ViT已经展现出了显著的“速度-性能”优势。通过简单的多尺度融合还能再进一步提升。3.1.1 视觉编码器与语言解码器的协同作用VLM中的精度-延迟权衡受到多种因素的影响。一方面VLM的整体性能取决于( 1 )输入图像的分辨率( 2 )视觉令牌的数量和质量( 3 ) LLM的性能。实验将FastViT和FastViTHD分别与三种不同大小的LLM (Qwen2-0.5B/1.5B/7B) 和多种分辨率配对绘制出每个视觉编码器的Pareto最优曲线结论1FastViTHD全方面优于FastViT2揭示了最优搭配规律例如曲线显示对于小LLM一味提高分辨率收益不大因为视觉编码延迟会占主导图5也佐证了这一点。FastViTHD为不同LLM找到了最佳的分辨率“甜点”。3.1.2 静态分辨率 vs. 动态分辨率静态分辨率模型只接受一种固定尺寸的输入。无论你给的原始图片有多大或多小模型都会通过缩放Resize的方式把它变成这个固定的尺寸再进行处理。动态分辨率根据输入图像的原始尺寸和长宽比动态地调整处理方式最常见的就是我们之前聊过的瓦片推理瓦片推理切割编码拼接。将图片切成多个大小相同的小块瓦片将每个瓦片分别送入视觉编码器将编码器的分辨率设置为瓦片大小进行处理最后模型会将这些瓦片产生的视觉token按照原来的位置拼接起来形成对整张图的理解供LLM使用。结论直接将模型的输入分辨率设置为期望分辨率可以提供最好的精度-延迟平衡。 如果需要动态分辨率使用更少的瓦片设置会表现出更好的精度-延迟权衡。3.1.3 与Token剪枝/下采样方法的对比FastViTHD减少token的方式架构性下采样与近年来流行的“先多生成token再剪枝”的方法相比孰优孰劣结论:1架构性下采样完胜FastViTHD通过训练在低分辨率下取得的性能就已经超过了绝大多数剪枝方法在高分辨率下的性能。2“少而精”优于“多而剪”与其先生成大量token再费力剪枝不如从一开始就通过精心设计的架构生成高质量、低数量的token。3.2 FastViTHD: 为高分辨率VLM量身定制的新编码器设计目标更低延迟 更少 token核心设计1极致地下采样生成极少的Token思路VLM的延迟由“视觉编码延迟”和“LLM预填充延迟”两部分组成。FastViTHD的设计目标是同时降低这两者。降低视觉编码延迟通过高效的卷积和优化的架构设计实现。降低LLM预填充延迟通过生成更少的视觉token实现。创新点增加一个下采样阶段通常有4个阶段总下采样倍率为16。FastViTHD引入了第5个阶段将总下采样倍率提升到了64下采样阶段核心设计2混合阶段各司其职3.3 架构图三、Question-Guided Visual Token Compression in MLLMs for Efficient VQA Qg-Vtc1. 摘要多模态大预言模型视觉问答任务中 集成视觉信息增加了处理令牌的数量导致更高的GPU内存使用量和计算开销。图像较文本有更多冗余并且并非所有细节为有效信息。方法介绍QG - VTC一种新颖的问题引导视觉令牌压缩方法用于基于MLLM的视觉问答任务。QG - VTC使用一个预训练的文本编码器和一个可学习的前馈层将用户问题嵌入到视觉编码器的特征空间中然后计算问题嵌入和视觉令牌之间的相关性得分最后通过选择最相关的令牌并对其他令牌进行软压缩。优势该方法仅使用1 / 8的视觉令牌就可以达到与未压缩模型相当的性能并且保证了与用户需求的微调相关性。2. 介绍本文的贡献总结如下提出了一种问题引导的视觉令牌压缩方法QG - VTC。它根据用户的问题选择性地保留最相关的视觉令牌并使用加权平均的方法合并相关性较低的视觉令牌。该方法在尽可能减少图像信息损失的情况下大幅减少了令牌数量。我们的方法使用分层策略将问题引导的视觉令牌压缩模块集成到视觉编码器中。该方法在保留局部图像细节的同时利用了深层的、语义丰富的信息减少了LLM和视觉编码器本身的计算负荷。通过大量实验我们在多个基准上获得了最先进SOTAState-Of-The-Art结果。值得注意的是我们仅用1 / 8的视觉令牌和大约30 %的原始计算负载来匹配性能。3. 相关工作对现有压缩方法进行介绍得出现有方法的局限性。同时较现有方法QG-VTC的优势在于1问题引导QG-VTC是第一个在视觉编码器内部引入用户问题作为压缩依据的方法。2压缩位置QG-VTC实现了视觉编码器内部的分层压缩从而在减少LLM负担的同时也大幅降低了视觉编码器自身的计算量。3软压缩机制相比于直接剪枝QG-VTC采用注意力分数加权的软回收方式进一步减少了信息丢失。软回收把不太相关图片的残余有用信息融合到保留的标记中4. 方法4.1 概述QG - VTC它通过基于用户问题的分层压缩方法来减少视觉编码器中的视觉令牌。方法本质上是利用用户问题的特征向量在视觉编码器的多层中动态筛选出最相关的视觉标记并将其他低相关标记的有效信息融合到这些保留的标记中从而实现精细化的压缩。通过这种多次的、精细的筛选与融合最终只留下一小部分与问题高度相关的视觉标记同时最大程度地避免了重要信息的丢失4.2 压缩模块在具体的Transformer层内部QG-VTC是如何利用用户问题来减少视觉令牌数量的。流程1输入视觉token与文本查询2自注意力计算计算每个视觉token对其他所有token的关注程度得到注意力分数矩阵A3计算问题与视觉token的相关性得到相关性分数C4划分token根据相关性分数C对所有视觉token进行划分保留组令牌总是保留加上 C 分数最高的前 n 个视觉令牌。压缩组剩下的 m 个相关性最低的视觉令牌。5软压缩公式说明对于保留组中的某个令牌i它要从压缩组的每个令牌j 那里回收一部分信息回收的权重就是原来令牌i对令牌j的注意力大小 A(i,j)A(i,j)。这样即便某个图像块整体上与问题不相关它包含的少量有用细节比如背景颜色也能通过注意力机制被补充到关键区域去。6输出保留组的n n1 个token4.3 视觉编码器压缩位置的选择浅层与深层4.4 分层压缩策略策略优势如下1压缩平滑避免了一次性大幅压缩带来的信息断崖式丢失。2信息交互在两个压缩层之间插入一个普通层如13层让被压缩和融合后的新令牌有机会再次进行全局交互为下一轮更精细的筛选做准备。3减少编码器负担由于在编码器的中间层就开始减少令牌数量后续层的计算量特别是自注意力的二次计算部分会显著下降从而节省了视觉编码器自身的计算资源4.5 模型架构:模型的计算细节四、《Glyph Scaling Context Windows via Visual-Text Compression》1. 摘要Glyph框架将长文本渲染成图像并使用视觉语言模型( VLMs )对其进行处理。 该方法在保留语义信息的同时大幅压缩了文本输入我们设计了一个LLM驱动的遗传搜索来确定最佳的视觉渲染配置以平衡精度和压缩。通过大量的实验证明了该方法实现了3 - 4倍的令牌压缩同时保持了精度。这种压缩也导致大约4 ×快的预填充和解码以及大约2 ×快的SFT训练。2. 介绍主要贡献1新范式提出首次系统性地将视觉压缩引入长上下文建模2自动渲染搜索设计了LLM驱动的遗传搜索算法自动找到最优渲染配置兼顾压缩与性能。3显著的效率提升压缩比达 3-4倍预填充速度提升 4.8倍解码速度提升 4.4倍SFT训练速度提升约 2倍4跨模态泛化能力即使训练数据以渲染文本为主Glyph在实际文档理解任务中仍表现优异3. 相关工作1长上下文建模通过对注意力位置编码插值等进行改进如优化数据微调来扩展模型上下文窗口降低长序列的计算复杂度。方法局限性并未减少输入Token数量2多模态大语言模型关注多模态视觉-语言模型的发展由早期注重将视觉信息和语言模型进行结合到提升提升编码能力使模型具备信息压缩潜力OCR一个token可以承载多个文字4. 方法Glyph包括3个主要阶段对渲染的长文本数据进行持续的预训练LLM驱动的遗传搜索最优渲染配置以及使用SFT、RL进行后训练。这些阶段共同实现了高效的长上下文建模和视觉-文本压缩。4.1 任务定义任务形式转变由于上下文太长因此直接转变为页面图片进行理解C—V此时原本三元组变为目标变为渲染管道文本排版样式和视觉密度由【分辨率页面尺寸字体样式字体大小缩进方式…等】参数决定渲染过程由配置向量θ控制压缩比θ 的选择直接影响信息密度通过字体大小、dpi和视觉清晰度通过布局、间距从而在压缩率与模型可读性之间取得平衡。4.2 持续预训练Continual Pre-training将大量长文本渲染为多种风格的图像如文档风格、网页风格、代码风格等训练VLM理解这些“视觉文本”使图片与原文本语义对齐。数据构建多样化的渲染配置将文本渲染成多种图片样式避免风格单一排除不合理配置如行高小于字体大小等无效组合预定义风格主题包含三类任务三类任务联合训练使模型具备在视觉压缩上下文下的阅读、推理和生成能力1OCR任务从图像中重构文本2交错语言建模部分文本渲染为图片剩余仍为文本3生成任务根据部分图像模型补全缺失内容。4.3 LLM驱动的渲染搜索LLM-Driven Rendering Search虽然预训练使用多种渲染样式但是下游任务仍具有特定偏好因此使用遗传算法搜索最优的渲染参数θ以在压缩率与模型性能之间取得最佳平衡。遗传算法流程1初始化种群从预训练使用的渲染配置中随机采样一批候选配置 。2渲染验证集用每个候选配置将验证集一组长文本渲染成图像。3评估使用当前模型Glyph-Base对渲染后的数据进行推理记录每个配置下的任务准确率和压缩比。4LLM分析与建议利用一个强大的LLM分析当前种群配置与性能的关系提出有价值的变异和交叉策略生成新一代候选配置。5记录与选择将所有配置及其性能记录在搜索历史中根据性能排名采样优秀配置进入下一次遗传算法。算法迭代进行直到种群收敛连续若干代无明显性能提升。最终得到最优配置 θ 。这种LLM驱动的搜索能自动平衡压缩率和模型性能比人工或随机调参更高效。4.4 后训练Post-Training让模型“适应”压缩后的输入确定θ后此时模型已经看得懂图像进一步优化使模型能够在图像上完成文本任务。包含三种优化方式1监督微调SFT教会模型“怎么答”让模型从“会读”变成“会答”使用最优渲染配置θ生成训练数据并引入“思考式”推理格式如 …让训练模型学会输入图像 经过推理得到 输出答案的映射。2强化学习RL教会模型“答得更好”SFT数据中不一定包含最优回答模型可能答对了但推理过程混乱或格式不符合要求。用强化学习直接优化最终答案质量。采用GRPO算法让模型自己生成多个候选答案用外部LLM评分准确率格式奖励告诉模型什么样的答案更好。3辅助OCR对齐任务让模型“看得清”压缩后的字而不是“猜”字增强模型对图像中文字的识别能力防止模型在追求压缩时牺牲文字识别精度。4.5 GLyph模型的流程总结四篇论文均聚焦多模态模型的token 压缩从不同维度提升效率LLaVA-Scissor面向视频 LLM提出免训练的语义连通分量SCC 时空两步压缩先单帧空间语义聚类再跨帧去时间冗余保留完整语义。FastVLM提出FastViTHD混合视觉编码器以卷积 Transformer 架构级下采样减少高分辨率图像 token 与编码延迟无需额外剪枝推理速度提升 3.2 倍。Qg-VTC针对 VQA问题引导压缩用文本编码器嵌入问题筛选与问题相关的视觉 token降低无关信息开销。Glyph创新视觉 - 文本压缩将长文本渲染为图像用 VLM 处理配合 LLM 驱动的遗传搜索优化渲染实现 3–4 倍 token 压缩扩展上下文窗口。

相关文章:

【第三十七周】论文阅读03

文章目录摘要Abstract一、《LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs》1. 摘要2. 介绍3. 相关工作4. Llava-删除5. 实验5.1 压缩类型5.2 令牌压缩中的递减规律二、FastVLM: Efficient Vision Encoding for Vision Language Models…...

SEO_快速诊断并解决网站SEO问题的五个步骤(384 )

SEO:快速诊断并解决网站SEO问题的五个步骤在当今的互联网时代,网站的SEO优化已经成为提升网站流量、吸引更多潜在客户的关键。面对复杂多变的搜索引擎算法,很多网站主都会遇到各种各样的SEO问题。本文将为大家详细介绍五个步骤,帮助你快速诊断…...

Qwen2.5-VL-7B-Instruct开源可部署优势:完全离线运行,无外网依赖保障安全

Qwen2.5-VL-7B-Instruct开源可部署优势:完全离线运行,无外网依赖保障安全 1. 项目概述 Qwen2.5-VL-7B-Instruct是一款强大的多模态视觉-语言模型,能够同时处理图像和文本输入,生成高质量的文本输出。这个开源模型最突出的特点是…...

保姆级教程:用MATLAB 2022b和STM32G431RB搞定无感FOC,从电机参数识别到代码生成

从零构建无感FOC系统:MATLAB与STM32G431RB的深度实践指南 引言:为什么选择无感FOC技术? 在电机控制领域,磁场定向控制(FOC)因其高效率、低噪音和精准控制特性,已成为工业界和学术界的黄金标准。而无需位置传感器的无感…...

【OpenClaw从入门到精通】第37篇:教育“龙虾”进化论——从答疑助教到全流程智能教学系统(2026实测版)

摘要:2026年,教育AI已从被动答疑的L1级进化至主动教学的L4级,清华开源的OpenMAIC平台更是打破传统慕课局限,实现互动式AI课堂。本文基于天津工业大学、西北农林科技大学等高校的真实应用案例,结合腾讯云、天翼云的实操指南,详解OpenClaw在教育场景的四层进化路径。核心内…...

树形DP

前言 顾名思义树上的DP 树是一种数据结构 DP (动态规划) 是一种算法 接下来我将用洛谷上的 P2052 来向你讲解 P2052 P2052 [NOI2011] 道路修建 - 洛谷 题意:给一棵树,计算n-1条边,每条边两边节点相减的绝对值乘边权。 思路:用DFS…...

在 Debian 13 (Trixie) 上安装远程桌面 Xrdp 并配置 Xfce4

在 Debian 13 (Trixie) 上安装 Xrdp 并配置 Xfce4 桌面,可以让你通过 Windows 自带的远程桌面工具流畅访问 Linux 桌面。相比 VNC,RDP 协议在体验上更接近原生系统,而且无需在客户端安装额外软件。 下面是一个完整的操作流程,按顺序执行即可。 第一步:更新系统 在开始安…...

SmolVLA助力网络安全:智能分析日志与威胁情报

SmolVLA助力网络安全:智能分析日志与威胁情报 最近和几个做安全运维的朋友聊天,他们都在抱怨同一个问题:每天面对海量的系统日志、告警信息和五花八门的威胁情报报告,眼睛都快看花了,关键信息还总是被淹没在噪音里。一…...

合宙Air780EG开发板实战指南—06 基于LuatOS的串口UART高效数据收发与调试技巧

1. 串口通信基础与硬件准备 串口通信是嵌入式开发中最基础也最重要的功能之一。合宙Air780EG开发板内置了多个UART接口,其中MAIN_UART通常作为主通信接口。在实际项目中,我经常用它连接传感器、显示屏或其他外设。对于刚接触串口开发的朋友,可…...

SEO_掌握关键词研究的正确方法,驱动SEO流量增长

SEO流量增长的关键:掌握关键词研究的正确方法在当前竞争激烈的互联网市场中,掌握关键词研究的正确方法是推动SEO流量增长的核心。掌握关键词研究不仅能帮助你更好地了解用户需求,还能让你在搜索引擎中获得更高的排名。本文将从问题分析、原因…...

Java类间变量共享与进度更新的实现策略

本文旨在探讨如何在Java中安全有效地共享和更新不同操作类别之间的变量值,特别是在需要实时监控操作进度的场景中。我们将通过三种核心策略-观察者模式(推动模型)、轮询模式(拉模式)和基于多线程的共享状态管理——详细说明如何实现类间通信和…...

网络协议分析(CTF 入门博客)

一、什么是网络协议分析网络协议分析,就是对网络传输过程中捕获的流量数据包(通常是 .pcap 或 .pcapng 文件)进行查看、筛选、追踪和解码,从中找到关键信息。在 CTF 中,这类题目通常会给一个抓包文件,我们的…...

DM8数据库容灾避坑手册:从备份恢复到应急方案的全套操作实录(含PSEG_RECV参数详解)

DM8数据库容灾实战指南:关键文件恢复与PSEG_RECV参数深度解析 在数据库运维领域,容灾能力直接决定了业务系统的可靠性天花板。达梦DM8作为国产数据库的领军产品,其恢复机制设计既遵循经典数据库理论,又融入了独特的工程实现。本文…...

《Python程序设计与算法基础教程》P41部分练习题解答

以下解法参照书本P34中例2.25完成。P41-2.12-2题目:编写程序,输入直角三角形的两条直角边,利用勾股定理计算斜边的长度(结果保留两位小数)。编写代码:import math #导入math模块,用于开平方运算…...

基于 Spring AI Alibaba 搭建 Text-To-SQL 智能系统(简单实现)

上一篇我们完成了项目初始化、数据库搭建以及DDL生成工具类的开发,成功获取到了数据库中所有表的建表语句。本篇我们继续实现核心功能:将用户的自然语言需求转换为可执行的SQL语句并自动返回查询结果。 本文实现目标 ✅ 设计专业级Text2SQL提示词&…...

如何下载各平台上购买的网课?网课学习神器!学无止下载器让你的学习效率翻倍

🎓 网课学习神器!学无止下载器让你的学习效率翻倍 前言:你是否也遇到过这些烦恼?明明花钱买的网课,网络不好时却卡顿不断;想离线复习,却发现无法下载;珍贵课程怕到期,想永…...

EMI电路设计仿真

AriZh详细讲解了利兹线的设计参数,包括感量、电流值、开关频率等关键指标,​​强调设计状态为success的重要性,error则需回溯检查​​。他提到gap(气息)、最大工作磁密(367)等变压器相关参数&am…...

WPF Decorator:高效视觉修饰指南

理解 WPF 中的 Decorator Decorator 是 WPF 中一个抽象基类,属于 System.Windows.Controls 命名空间。它的核心作用是为子元素提供附加的视觉或布局修饰功能,例如边框、滚动条或缩放效果。Decorator 的子类通常通过单一的 Child 属性管理一个子元素&…...

Web自动化测试(01)- iFrame窗口切换

iFrame窗口切换 iframe是一种特殊的窗口,内嵌在页面之中,在前端静态HTML表示为一个标签,但是它又和新窗口一样,其中的元素无法被直接定位,需要进行切换 1. 切换至子窗口 1.1 通过ID、name切换(推荐&…...

JAVA-Mybaits

1. Mybaits简介 1.1 mybaits是什么 mybaits 是一个半 ORM (对象关系映射)框架,它内部封装了 JDBC,开发时只需要关注 SQL语句本身,不需要花费精力去处理加载驱动、创建连接、创建 statement等繁杂的过程。程序员直接编…...

二分算法 cpp

7. 二分算法 基础算法中最难的原理与模板简单难点在细节处理边界问题解集中存在二段性 模板题 : [!leetcode] 34. 在排序数组中查找元素的第一个和最后一个位置 中等 给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中…...

eclipse下载、安装、编写运行helloworld教程

1.官网下载 访问官网下载最新版安装包(绿色免安装压缩包) 官网安装包下载地址:https://www.eclipse.org/downloads/packages/,选择企业级版本“Eclipse IDE for Enterprise Java and Web Developers”,操作系统版本根…...

新160个CrackMe 008,009号:Afkayas.1,Boonz-KeygenMe#1逆向分析

008Die分析文件组成Win32,无壳,语言:VB动态调试双击程序运行,弹出窗口,输入用户名和序列号(例如abcd,123456)点击ok查找字符串,双击定位字符串,向上找函数入口下断点&…...

试过30多个副业后,我只推荐这2个靠谱项目!

一晃,已经整整十年了。这十年,在互联网圈子里摸爬滚打,没有捷径,没有躺赢,若用一个词形容,便是「热辣滚烫」—— 每一步都踩得扎实,每一份收获都拼得坦荡。常有人问我:你凭什么能带出…...

基于Flask的人脸识别OOD模型API服务开发

基于Flask的人脸识别OOD模型API服务开发 1. 引言 人脸识别技术在实际应用中经常面临一个挑战:如何处理那些低质量、噪声干扰或者分布外(Out-of Distribution,OOD)的输入数据。传统的人脸识别系统往往会对这些异常样本给出高置信…...

K64F平台FXOS8700传感器驱动与姿态融合实战

1. K64_FXOS8700 驱动库深度解析:面向工业级姿态感知的双轴传感器融合实现1.1 项目定位与工程价值K64_FXOS8700 是专为 NXP K64F 微控制器(基于 ARM Cortex-M4 内核,主频 120MHz,带 FPU)设计的 FXOS8700CQ 九轴传感器驱…...

挑中年大叔头像AI头像时,看着精致不代表后面能细修

在实际设计任务中,千图网的AI生成头像功能已成为许多门店和内容团队的首选工具。日前接到需求,需要为社群活动物料快速输出一批中年大叔形象的社交头像,要求风格沉稳、辨识度高,并能方便后续调整细节。首轮构思时决定,…...

Helsinki-NLP/opus-mt-en-zh模型实战:快速搭建英译中翻译工具

1. 5分钟快速上手:用Helsinki-NLP模型实现英译中 最近在做一个需要实时翻译英文文档的项目,试了几种方案后发现Hugging Face的Helsinki-NLP/opus-mt-en-zh模型特别适合快速集成。这个由赫尔辛基大学NLP团队开发的模型,在通用领域的英译中任务…...

工业相机选型基础:曝光时间、增益与信噪比的三角平衡关系

工业相机选型基础:曝光时间、增益与信噪比的三角平衡关系导读:在视觉项目选型现场,甲方常问:“我要拍清楚高速运动的零件,还要在昏暗环境下看清细微划痕,预算能不能少点?” 作为工程师&#xff…...

稳如磐石:STM32F4 与 DP83848 打造的以太网驱动工程

stm32f4 dp83848 以太网驱动程序稳定版工程 用的armfly例程里的tcpnet 改进加了网线断线重连 端口断开重连打包发送 可跑慢百兆速度 连续实测24小时以上无错误 dp83848 phy芯片是汽车级 工业场合要比dm9161 lan8720…更稳定可靠最近在搞一个基于 STM32F4 和 DP83848 的以太网驱…...