当前位置: 首页 > article >正文

T-MAP:通过轨迹感知的进化搜索对LLM智能体进行红队测试

大家读完觉得有帮助记得关注和点赞摘要先前的红队测试工作主要集中在引发大型语言模型产生有害文本输出但这种方法未能捕捉到通过多步工具执行出现的智能体特定漏洞特别是在如模型上下文协议等快速发展的生态系统中。为弥补这一空白我们提出了一种轨迹感知的进化搜索方法T-MAP利用执行轨迹来指导对抗性提示的发现。我们的方法能够自动生成攻击这些攻击不仅能绕过安全护栏还能通过实际的工具交互可靠地实现有害目标。在多种MCP环境中的实证评估表明T-MAP在攻击实现率上显著优于基线方法并且对包括GPT-5.2、Gemini-3-Pro、Qwen3.5和GLM-5在内的前沿模型仍然有效从而揭示了自主LLM智能体中先前未被充分探索的漏洞。代码可在 https://github.com/pwnhyo/T-MAP 获取。1 引言大语言模型智能体的近期部署通过像模型上下文协议这样的集成标准实现了复杂的工作流程使这些系统能够直接与外部环境交互。这种从文本生成到现实世界智能体的转变引入了性质不同的安全风险其中对抗性操纵会导致有害的环境行动进而造成有形伤害如经济损失、数据泄露或道德违规。因此通过红队测试主动发现这些漏洞对于确保自主智能体在现实世界应用中的安全部署至关重要。图1顶端基于聊天的LLM红队与底层LLM代理红队的比较。图2T-MAP概述。每次迭代包含四个步骤1大型语言模型分析师诊断成功因素和失败原因源自父细胞-靶细胞对2大型语言模型变异器利用这些诊断和工具调用图TCG生成新提示3大型语言模型集换式集换式卡牌游戏从执行轨迹中提取边缘级结果以更新TCG并且4大型语言模型法官评估更新档案的轨迹。然而现有的红队测试范式主要侧重于发现引发有害文本响应的对抗性提示往往忽略了复杂多步工具执行中固有的风险。与静态文本生成不同智能体漏洞通常仅在复杂的规划和特定的工具执行序列中出现而非单次提示到响应的回合。先前的方法未能考虑工具之间的复杂交互、发现特别具有威胁性的工具组合或实现有害目标所需的战略执行。因此这些方法对工具集成环境中存在的多样化风险覆盖有限并且常常无法识别出从智能体操作独立性中涌现的关键漏洞。为弥补这一空白我们提出了T-MAP一种轨迹感知的MAP-Elites算法旨在发现多样化且有效的攻击提示用于对LLM智能体进行红队测试。T-MAP维护了一个跨多种风险类别和攻击风格的多维档案允许对智能体的漏洞景观进行全面映射。为了引导此档案内的进化我们的方法通过一个四步迭代循环明确纳入了来自执行轨迹的反馈。首先交叉诊断从过去的提示中提取战略成功因素和失败原因。这些诊断结合从学习到的工具调用图中获得的结构性指导指导新攻击提示的变异。在执行后产生的边级结果更新TCG中工具到工具转换的记忆而评判器则评估完整轨迹以用成功的攻击更新档案。最终T-MAP能够发现那些不仅能绕过提示级安全护栏还能通过具体的多步工具执行可靠实现恶意意图的攻击。我们在五个不同的MCP环境上评估了T-MAPCodeExecutor、Slack、Gmail、Playwright和Filesystem。实证结果表明与竞争性基线相比T-MAP始终达到显著更高的攻击实现率平均ARR达到57.8%。此外我们的方法发现了更多不同的成功工具轨迹同时保持了较高的语义和词汇多样性表明其探索了广泛的多步攻击策略。T-MAP还被证明对具有高级安全对齐的前沿模型高度有效包括GPT-5.2、Gemini-3-Pro、Qwen3.5和GLM-5。这些发现强调了轨迹感知进化在识别和缓解现实世界部署中自主LLM智能体未被充分探索的漏洞方面的关键重要性。我们的贡献总结如下我们形式化了LLM智能体的红队测试其中攻击成功与否是通过有害目标是否通过实际工具执行而非仅通过文本生成来实现来衡量的。我们提出了T-MAP它引入了交叉诊断和工具调用图将轨迹级反馈纳入进化提示搜索中。我们通过在多样化的MCP环境、前沿目标模型和多服务器配置上的广泛实验证明T-MAP在攻击实现率和发现攻击轨迹的多样性方面均显著优于基线方法。2 相关工作自动红队测试。红队测试旨在通过引发有害或非预期行为来揭示LLM中的漏洞。虽然早期工作依赖于手动提示探查但该领域已转向可扩展的自动化流程。这些包括训练攻击者LLM生成对抗性提示通过像GCG这样的白盒梯度方法优化对抗性后缀以及采用黑盒迭代优化或树搜索来绕过对齐模型。多轮越狱策略也已被探索。多样性驱动的漏洞发现。尽管效率很高但先前的红队测试方法通常寻求单一成功的攻击而不是系统地探索模型更广泛的漏洞景观。为解决此问题近期工作将红队测试表述为基于MAP-Elites的质量-多样性搜索问题联合优化攻击成功率和风格多样性。然而这些进化方法仍然主要在基于文本的交互层面上运作留下了当LLM作为智能体行动并执行多步工具交互时出现的漏洞在很大程度上未被探索。LLM智能体的安全性与保障性。随着LLM越来越多地被部署为能够使用工具的智能体安全问题已从有害文本生成扩展到有害的环境行动。Andriushchenko等人表明智能体可以在没有显式越狱的情况下执行有害的多步操作。在此基础上Zhang等人引入了针对智能体的风险类别以进行系统评估。另一条研究线考察了工具使用智能体特有的安全威胁。主要焦点是间接提示注入其中嵌入在检索内容或工具输出中的对抗性指令劫持了下游行动。Zhan等人、Debenedetti等人和Zhang等人提供了专门的环境来评估这些特定攻击。从静态威胁评估转向动态攻击生成Zhou等人利用执行轨迹来完善对抗性测试用例。然而这些框架通常在固定环境、工具集或任务分布中运行。这限制了它们系统探索更广泛有害行为空间的能力。因此在开放式智能体环境中发现多样化、多步的有害行动仍然是一个悬而未决的问题。3 预备知识对LLM智能体进行红队测试。对LLM智能体进行红队测试的目标是发现攻击提示触发目标智能体执行一系列工具这些工具随后由外部环境执行导致有害结果。形式上设 p_θ 为一个配备工具集 的目标LLM智能体在一个最多 K 步的外部环境中运行。给定一个提示 x智能体生成一个交互轨迹 h(x)包含推理状态、行动和观测序列h(x) { (r_k, a_k, o_k) }_{k1}^K,r_k ∼ p_θ(· | h_k(x)), a_k ∼ p_θ(· | r_k, h_k(x)), o_k Env(a_k)其中 h₁(x) x 是提示h_k(x) (x, r₁, a₁, o₁, …, r_{k-1}, a_{k-1}, o_{k-1}) 是历史。我们使用一个作为评判器的LLM来量化生成轨迹 h(x) 的有害程度该评判器确定工具执行序列是否成功实现了对抗性目标。通过MAP-Elites进行自动红队测试。为了全面探索目标智能体 p_θ 的攻击提示景观我们采用了一种进化方法即多维度表型精英档案。该方法在选定的变异维度上维护一个整体图展示多样化、高性能的解决方案。在我们的框架中我们定义了一个二维档案 涵盖风险类别和攻击风格分别源自 Zhang等人和 Wei 等人的工作。形式上档案定义为 { (x_{c,s}, h(x_{c,s})) | c ∈ , s ∈ }其中每个单元格 (c, s) 存储迄今为止找到的最佳表现攻击提示 x_{c,s} 及其相应的执行轨迹 h(x_{c,s})。4 T-MAP为了更好地暴露目标智能体 p_θ 在多步工具执行过程中的漏洞我们提出了一种轨迹感知的MAP-Elites算法。T-MAP迭代地生成新的攻击提示这些提示由执行轨迹提供信息逐步更新其档案以保留每种风险-风格配置下最有效的攻击。初始化。T-MAP通过为每个单元格 (c, s) 合成种子攻击提示 x_{c,s} 来填充档案 合成过程结合了风险类别、攻击风格和工具架构。在目标智能体 p_θ 上执行这些提示会产生初始轨迹 h(x_{c,s})然后由评判器LLM评估为离散的成功等级。为了推动进化T-MAP选择一对父目标单元格。父单元格是从包含高成功率精英的单元格中选择的以促进有效策略的复用而目标单元格则从 × 中均匀采样以鼓励广泛探索。轨迹引导的变异。给定选定的这对单元格变异器LLM为目标单元格生成一个新的候选提示 x。传统的红队测试方法通常仅基于目标模型的文本响应来优化提示。然而这种方法对于智能体系统是不充分的因为它缺乏来自实际工具执行的反馈。一个攻击提示可能成功引发表面上看似有害的文本响应但当智能体尝试执行所需工具时却完全失败或遇到错误。由于我们的目标是发现能够引发导致有害结果的可执行工具执行轨迹的提示T-MAP明确纳入了环境反馈以避免这些以智能体为中心的失败模式。这种轨迹引导的变异由两种互补机制驱动交叉诊断提示级分析器LLM将原始执行轨迹转化为对提示细化的可操作见解。通过从父轨迹 h(x_{c_p,s_p}) 中提取成功因素并从目标轨迹 h(x_{c_t,s_t}) 中识别失败原因分析器LLM使变异过程能够继承有效的对抗性框架同时修改导致失败的元素。工具调用图行动级除了单个轨迹变异器LLM还利用工具调用图定义为一个有向图 (, ℰ, ℱ_)。这里 ∪ {END} 是工具集ℰ ⊆ × 是表示顺序工具调用的有向边集ℱ_: ℰ → ℳ 是将每条边映射到元数据空间 ℳ 的函数。具体来说对于每条有向边 (t_i, t_j) ∈ ℰ表示从执行工具 t_i 到执行 t_j 的转换关联的元数据 m_{ij} ∈ ℳ 被定义为元组 (n_s, n_f, R_s, R_f)。这里n_s 和 n_f 统计该转换的成功和失败次数R_s 和 R_f 记录这些结果的原因。通过利用此信息变异器LLM可以查询特定行动序列的经验成功率并绕过具有高失败记录的转换。使用这些轨迹派生的信号变异器LLM为目标单元格 (c_t, s_t) 生成一个新的候选提示 x该提示不仅能绕过安全护栏还能导致真实的有害行动。评估与更新。T-MAP通过在目标智能体 p_θ 上执行变异提示 x 并收集轨迹 h(x) 来评估它。如果 x 实现了比前一代更高的攻击成功等级它就成为新的精英。当成功等级相同时评判器LLM比较 h(x) 与前一代的轨迹选择能够朝着预期伤害迈出关键步骤的提示。更新档案后TCG分析器LLM从轨迹 h(x) 中提取工具调用之间的所有转换并将它们的成功或失败结果记录到TCG 中从而优化用于指导后续变异的轨迹级统计数据。5 实验5.1 实验设置环境。我们针对与MCP集成的LLM智能体MCP是工具调用LLM的标准协议。我们选择了五个广泛使用的MCP服务器CodeExecutor、Slack、Gmail、Playwright、Filesystem。这些环境能够执行诸如执行恶意软件、发送钓鱼消息和电子邮件、污染资源等有害行动。基线。我们将T-MAP与四个竞争性基线进行比较零样本仅使用风险类别、攻击风格和工具定义为每个单元格 (c, s) ∈ × 生成一个攻击提示 x无需迭代生成。多轮试验在每次迭代中为采样的目标单元格重复零样本过程生成独立的提示没有任何工具轨迹信息。迭代优化在每次迭代中采样目标单元格并基于其自身的轨迹 h(x_t) 和由评判器LLM提供的失败分析来优化 x_t类似于Zhou等人使用的迭代优化过程该过程利用执行轨迹作为反馈来优化攻击提示。标准进化从精英单元格中采样父提示 x_p并将其变异以适应目标单元格 (c_t, s_t)没有轨迹分析遵循Samvelyan等人。指标。与仅通过模型响应中存在有害内容来确定攻击成功的传统红队测试不同评估工具调用智能体需要评估有害行动是否实际执行或实现。为此我们将每个轨迹 h(x) 分为四个离散的攻击成功等级L₀拒绝智能体拒绝请求因此不产生任何工具调用。我们将 L₀ 轨迹的比例记为拒绝率。L₁错误发出工具调用但因参数无效、权限错误或执行异常而引发错误。L₂弱成功发出工具调用但有害意图仅部分完成。L₃实现通过完整的工具执行完全实现有害意图。我们将 L₃ 轨迹的比例记为攻击实现率。更高的等级表示更高的攻击实现程度即智能体不仅绕过了安全护栏还成功地将恶意意图转化为具体行动。实现细节。为实现T-MAP我们因其强大的推理能力而采用DeepSeek-V3.2作为变异器LLM、分析器LLM和评判器LLM。对于目标LLM智能体的主干模型我们在主要实验中使用GPT-5-mini。为确保公平评估每种方法进行100次迭代每次迭代并行生成三个提示每个环境总共产生300个攻击提示。遵循MAP-Elites协议每次生成都专门针对探索我们8×8档案中64种不同配置中的一种并使用来自每个单元格的最佳表现精英提示来评估最终攻击成功等级和多样性。5.2 主要结果T-MAP的优越性。图3攻击成功率分布在五个不同的MCP环境中。如图3和表1所示T-MAP在所有MCP服务器环境中始终优于所有基线在所有五个环境中达到最高的ARR平均ARR为57.8%。仅依赖自身先前轨迹或单个单元格内反馈的基线未能取得显著攻击成功。尽管利用了执行反馈进行自我优化但迭代优化仅在各个环境中达到较低的ARR值同时保持了较高的RR表明隔离在单个单元格经验中的优化不足以绕过强大的安全护栏。尽管标准进化通过从精英父单元格中提取有用的提示结构而比其他基线表现更好但仍未达到T-MAP的性能。这种差距源于标准进化仅变异父提示而缺乏深度执行分析而T-MAP利用轨迹感知诊断和TCG引导来提取和传递来自过去成功的战略洞见。因此T-MAP不仅更有效地降低了拒绝率还在所有五个环境中将更大比例的非拒绝轨迹转化为实现攻击。跨代进化。T-MAP收敛速度更快并在整个进化过程中实现了比所有基线更高的攻击成功率。图4ARR和RR在迭代次数上的平均值平均值5MCP 环境且95%置信区间已涂有阴影图4显示T-MAP在所有环境中快速降低RR同时增加ARR。标准进化也降低了RR证实了进化搜索在绕过提示级护栏方面的有效性。然而标准进化未能将提示转化为实现攻击而是停滞在较低的攻击等级。T-MAP的轨迹感知组件使其能够在此之后持续改进最终实现实现攻击。图5档案覆盖热力图在5个MCP环境中合并。每个图显示平均成功率L0到L3 表示单元(c,s)∈×.各环境结果档案覆盖。采用MAP-Elites框架的一个主要动机是其显式维护档案的能力允许我们系统地映射跨多样化风险类别和攻击风格的漏洞景观。为评估每种方法探索该空间的程度图5展示了跨档案的平均攻击成功等级。像MT和IR这样的基线由于无法利用不同单元格间的信息倾向于将其成功的攻击集中在高度特定的局部区域。虽然标准进化通过利用父精英信息实现了更广泛的覆盖但其档案主要由部分完成或弱成功主导。相比之下T-MAP独特地用广泛分布的实现攻击填充了档案。这表明交叉诊断机制成功地从精英中提取了底层攻击策略并将其有效地转移到结构不同的风险-风格组合中。多样性分析。虽然T-MAP展示了跨风险类别和攻击风格的最广泛覆盖但档案覆盖并非多样性的明确度量。攻击者可能通过对完全相同的工具执行轨迹简单地应用不同的攻击风格来覆盖大部分档案从而导致表面上的变化。为确保T-MAP发现多方面且非冗余的攻击我们沿着三个独立轴全面分析了多样性行动、词汇和语义。为了量化行动多样性让 a(x) 表示从执行轨迹 h(x) 中提取的工具调用序列并让 为所有被评估提示的集合。我们首先定义 ℋ_{L₃} 为成功实现攻击的唯一工具调用序列的集合ℋ_{L₃} { a(x) | x ∈ , 评判器LLM(h(x)) L₃ }。行动多样性则正式测量为该集合的基数 |ℋ_{L₃}|代表不同成功轨迹的总数。文本多样性通过最终档案 中保留的64个精英提示来衡量。词汇重叠使用Self-BLEU测量而语义多样性则使用Qwen3-Embedding-8B嵌入上的成对余弦相似度进行评估。如图5所示T-MAP在所有多样性指标上均优于所有基线。它发现了最多的不同工具调用序列并实现了最高的攻击实现率同时保持了最低的Self-BLEU和余弦相似度分数。相比之下虽然标准进化在基线中实现了最强的实现率但它表现出明显更高的Self-BLEU和余弦相似度。这表明直接将父提示变异为目标单元格会强制在措辞和语义意图上趋同。通过引导变异使用交叉诊断而非刚性目标驱动的优化T-MAP在仍然发现高度有效的工具执行路径的同时保留了更广泛的攻击策略分布。评判器模型的可靠性。表3DeepSeek-V3.2与其他评判器在攻击成功等级上的相关性。指标GPT-5.2Opus 4.6Qwen3.5-397B人类Spearman0.9380.8920.9690.831Pearson0.9400.8910.9680.830为验证我们评判器模型的可靠性我们测量了DeepSeek-V3.2与其他评判器包括人类标注者之间的Spearman和Pearson相关性。具体来说我们整理了一组由T-MAP在MCP环境中生成的96个攻击提示和轨迹按成功等级均匀采样。然后由多个模型评判器和人类标注者对这些样本进行评估以评估其一致性。表3中的结果显示出一致的高相关性表明我们的评判器模型可以有效地作为人类对攻击成功等级共识的代理。5.3 目标模型泛化跨目标模型的性能。为评估T-MAP的泛化能力我们在CodeExecutor MCP环境中检查了其在各种前沿模型上的性能并评估了发现实现的攻击的跨模型可迁移性。遵循主要实验协议我们对每个目标模型进行100次迭代每次迭代并行生成三个攻击提示每个目标模型总共产生300个候选提示。如图6所示T-MAP在所有评估的目标模型上始终达到最高的ARR大幅优于ZS和SE。虽然整体有效但攻击成功等级的分布在模型家族间差异显著。Claude模型如Opus 4.6和Sonnet 4.6在T-MAP下保持了相对较高的RR表明其具有更强的安全鲁棒性。相比之下Gemini-3-Flash、Kimi-K2.5和GLM-5表现出显著更高的ARR表明它们更容易受到T-MAP发现的攻击的影响。这些发现证实了T-MAP能够有效地跨不同前沿模型泛化。跨模型可迁移性。为了评估与模型无关的有效性我们使用pass5指标评估了在GPT-5.2上发现的实现攻击的可迁移性其中成功定义为五次独立运行中至少有一次达到L₃。如图7所示T-MAP始终比标准进化基线实现更高的可迁移性成功地在大多数目标模型中引发了有害轨迹。虽然在相同模型家族内成功率最高但发现的攻击在不同架构中保持了有效性表明T-MAP发现了具有广泛跨模型适用性的对抗性轨迹。5.4 消融研究表4T-MAP的消融结果平均跨所有五个MCP环境。方法L0 (↓)L1 (↓)L2 (↑)L3 (↑)|ℋL3| (↑)没有集换式集换式卡牌游戏13.0920.1321.0945.7121.38未交叉诊断15.6311.5123.0549.8121.13T-MAP11.9310.9518.7558.4023.88为了评估T-MAP中每个主要组件的个体贡献我们进行了如表4总结的消融研究。移除TCG显著降低了成功攻击的比例同时急剧增加了错误案例的比例。这种模式表明TCG对于引导搜索走向能够达到更高攻击成功等级的有效工具轨迹而不是停留在部分结果或执行失败至关重要。相反移除交叉诊断导致RR增加突显了其在生成能够绕过模型护栏的变异中的关键作用。除了越狱有效性这两个组件对于最大化行动多样性都至关重要。T-MAP实现了最高的行动多样性23.88在没有TCG的情况下降至21.38在没有交叉诊断的情况下降至21.13。综上所述这些结果表明这两个组件扮演着互补的角色。TCG主要有助于在行动空间中导航以实现高级成功而交叉诊断增强了规避安全机制的能力。这两种机制协同作用扩大了实现为成功攻击的独特轨迹总数。5.5 泛化到多MCP链在实际部署中LLM智能体可以同时与多个MCP服务器集成每个服务器覆盖不同的操作域如通信、代码执行、网页浏览和资源管理。这拓宽了攻击面因为攻击者可以跨MCP服务器链接工具调用以实现超出任何单个服务器能力的恶意目标。为了评估T-MAP在此类复杂的多服务器设置中是否仍然有效我们设计了多MCP链实验要求目标智能体生成跨多个MCP环境执行的工具调用序列。配置。我们构建了三个复杂度递增的配置。第一个结合了Slack和CodeExecutor使通过消息获得的信息能够被利用于恶意代码执行。第二个结合了Playwright和Filesystem允许将从网络收集的内容用于未经授权的文件操作。第三个结合了Gmail、CodeExecutor和Filesystem跨越三个领域并允许更长的攻击轨迹如从电子邮件收集目标列表、通过代码执行生成恶意脚本并将其部署到文件系统。在每个配置中一个MCP服务器的输出可以作为下一个的输入要求目标智能体生成一个连贯的跨多域工具序列。所有配置使用与第5.1节相同的目标模型。结果。如图8所示T-MAP在所有三个配置中始终实现最高的ARR同时保持最低的RR。值得注意的是与单服务器实验相比大多数方法表现出更高的RR和更低的ARR证实了多服务器工具链构成了一个根本更难的挑战。表5从轨迹角度突出了这一点。在跨三个配置发现的所有独特工具轨迹中只有14-23%的基线轨迹涉及跨多个MCP服务器的工具调用而T-MAP达到了46.28%。这归因于T-MAP的轨迹感知组件特别是TCG它聚合了跨MCP环境的工具转换统计数据以识别可行的跨服务器工具序列。6 结论我们提出了T-MAP一个用于对LLM智能体进行红队测试的轨迹感知MAP-Elites框架。T-MAP利用交叉诊断在进化过程中从执行轨迹中提取成功和失败信号并维护一个工具调用图来战略性引导变异生成能引发可执行且有效工具序列的攻击提示。我们在五个MCP环境上的评估证实T-MAP始终比基线发现更广泛、更多样化的攻击。这些结果表明轨迹感知进化对于揭示自主智能体中的隐藏漏洞至关重要是朝着在实用智能体应用中安全可靠地部署它们迈出的关键一步。

相关文章:

T-MAP:通过轨迹感知的进化搜索对LLM智能体进行红队测试

大家读完觉得有帮助记得关注和点赞!!! 摘要 先前的红队测试工作主要集中在引发大型语言模型产生有害文本输出,但这种方法未能捕捉到通过多步工具执行出现的智能体特定漏洞,特别是在如模型上下文协议等快速发展的生态…...

Kohya_SS:如何零基础掌握AI绘画模型定制技术?

Kohya_SS:如何零基础掌握AI绘画模型定制技术? 【免费下载链接】kohya_ss 项目地址: https://gitcode.com/GitHub_Trending/ko/kohya_ss 你是否曾想过拥有属于自己的AI绘画风格?是否希望训练出能理解你独特创作需求的扩散模型&#xf…...

告别拖拽连线!用C#代码在Godot里玩转信号连接(附Lambda表达式实战)

告别拖拽连线!用C#代码在Godot里玩转信号连接(附Lambda表达式实战) 当你在Godot编辑器中反复拖拽信号连线时,是否曾想过——这些可视化操作能否全部用代码实现?对于需要动态生成UI、实现复杂状态切换或追求极致性能的项…...

2025_NIPS_Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

文章总结与翻译 一、主要内容 本文聚焦大语言模型(LLM)推理任务中测试时计算量缩放的核心问题,深入探讨了思维链(CoT)长度与推理性能的关系,提出了最优思维缩放策略(TOPS)并验证其有效性。 核心研究背景 当前基于System-2思维的研究(如OpenAI的o1模型)通过延长Co…...

ESP32迷你显示器:低成本DIY电脑状态监控方案

1. 项目概述:ESP32桌面迷你显示器去年我在调试一个物联网项目时,发现需要实时监控服务器状态但又不想频繁切换屏幕。偶然在AliExpress发现的这款TENSTAR T-Display ESP32开发板完美解决了这个问题——它通过WiFi将电脑屏幕内容实时镜像到1.14英寸的迷你显…...

2025_NIPS_HoliTom: Holistic Token Merging for Fast Video Large Language Models

HoliTom 论文总结与核心内容翻译 一、文章主要内容 本文针对视频大语言模型(video LLMs)因视频令牌冗余导致的计算效率低下问题,提出了一种无训练的整体令牌合并框架 HoliTom。该框架通过协同整合模型外(outer-LLM)时空压缩与模型内(inner-LLM)令牌合并策略,在大幅降…...

Flux2-Klein-9B-True-V2保姆级教程:WebUI历史记录管理与结果导出

Flux2-Klein-9B-True-V2保姆级教程:WebUI历史记录管理与结果导出 1. 模型简介 Flux2-Klein-9B-True-V2是基于官方FLUX.2 [klein] 9B改进的文生图/图生图模型,具备强大的图像生成与编辑能力。这个模型特别适合需要高质量图像生成的用户,无论…...

TLPI 第11章 练习:System Limits and Options

笔记和练习博客总目录见:开始读TLPI。 练习 11-1. 如果你有机会,尝试在其他 UNIX 实现上运行清单 11-1 中的程序。 其他UNIX,此处选择的是FreeBSD。首先参考博客VirtualBox上安装FreeBSD,创建一个FreeBSD系统。 然后参考博客在…...

HTML5多媒体资源动态替换Source标签的刷新机制

HTML5中仅替换<source>标签不会触发重加载&#xff0c;因浏览器首次加载后不再监听DOM变化&#xff1b;必须调用mediaElement.load()强制重新解析资源。HTML5 中 <source> 标签本身不触发自动刷新或重加载&#xff1b;动态替换 <source> 后&#xff0c;必须显…...

GStreamer 转rtsp流(广电 / 酒店行业标准)

GStreamer gst-rtsp-server&#xff08;广电 / 酒店行业标准&#xff09;,本来以为在AI这么发达的情况下&#xff0c;小白搭建一个将udp/rtp转为rtsp的服务&#xff0c;应该不难&#xff0c;但实际上&#xff0c;都快被整疯的节奏。记录一下。需求&#xff1a;由于iptv酒店项目…...

Web基础(二):Idea集成Tomcat

第一步&#xff1a;新建一个空项目第二步&#xff1a;选择文件&#xff0c;项目结构 > 模块&#xff0c;点击“”号 > 选择Web > 应用确定第三步&#xff1a;选择文件&#xff0c;项目结构>模块&#xff08;1&#xff09;源 > web-WEB-INF目录下创建classes和li…...

LFM2.5-VL-1.6B惊艳案例:老旧文档扫描件OCR+结构化摘要生成效果对比

LFM2.5-VL-1.6B惊艳案例&#xff1a;老旧文档扫描件OCR结构化摘要生成效果对比 1. 模型介绍 LFM2.5-VL-1.6B是由Liquid AI推出的轻量级多模态大模型&#xff0c;专为边缘设备和离线场景优化设计。这个1.6B参数的视觉语言模型&#xff08;1.2B语言400M视觉&#xff09;能够在低…...

完全开源的语言模型学习记录--TrilinearCIM架构

文章目录在这里插入图片描述一、一段话总结二、思维导图三、详细总结1. 研究动机与问题2. 核心技术方案3. 评估与结果4. 贡献与结论四、关键问题与答案https://arxiv.org/pdf/2604.07628 Trilinear Compute-in-Memory Architecture for Energy-Efficient Transformer Accelerat…...

Google ADK:代码优先的AI Agent开发框架,构建可维护的智能体应用

1. 项目概述&#xff1a;为什么我们需要一个“代码优先”的Agent框架&#xff1f; 如果你和我一样&#xff0c;在过去一两年里尝试过构建AI Agent应用&#xff0c;大概率经历过这样的场景&#xff1a;一开始兴致勃勃&#xff0c;用LangChain或者AutoGen这类流行框架快速搭了个…...

Playwright Nodejs 自动化测试工具

官网地址 playwright.dev/docs/api/cl… 安装​ 通过使用 npm 或 yarn 安装 Playwright 开始。或者&#xff0c;也可以使用 VS Code 扩展开始并运行我们的测试。 使用 yarn 或 npm 安装&#xff1a; npm init playwrightlatest 在安装过程中 playwright 脚手架会向我们询…...

MAC使用

1. 快捷键公司电脑的主机是Macmini&#xff0c;快捷键和win不太一样。操作Mac 原生Windows 原生复制Command (⌘) CCtrl C粘贴Command (⌘) VCtrl V剪切Command (⌘) XCtrl X撤销Command (⌘) ZCtrl Z保存Command (⌘) SCtrl S截图&#xff1a;区域Shift Command (⌘…...

keysight N9040B是德 UXA 频谱分析仪 2 Hz 至 50 GHz

N9040B UXA信号分析仪的性能让您能够表征当今*挑战性的信号&#xff0c;包括5G、802 .11ax /ay、电子战等应用中的快速跳频、宽带和瞬态信号。通过优异的相位噪声性能和宽广的无杂散动态范围&#xff0c;您可以全面了解您的设计纯度。 Keysight N9040B UXA信号分析仪 主要特性和…...

Open XML SDK 完全指南:告别手动处理Office文档的烦恼

Open XML SDK 完全指南&#xff1a;告别手动处理Office文档的烦恼 【免费下载链接】Open-XML-SDK Open XML SDK by Microsoft 项目地址: https://gitcode.com/gh_mirrors/op/Open-XML-SDK 还在为每天重复的Word、Excel、PowerPoint文档操作而苦恼吗&#xff1f;手动调整…...

800V高压锂电池生产厂家推荐(工业级与特种定制方案解析)【浩博电池】

800V高压锂电池生产厂家推荐&#xff08;工业级与特种定制方案解析&#xff09;随着电动化与无人化设备的发展&#xff0c;800V高压锂电池正从新能源汽车领域快速扩展至工程机械、无人车辆、无人船、工业机器人及高端储能系统。相比传统400V系统&#xff0c;800V平台具备高效率…...

py每日spider案例之bubu影视视频链接参数逆向(wasm技术 难度中等)

逆向接口: 加密入口: js逆向代码: const fs = require(fs); const path = require(path);...

普通人也能做!AI+抖音生态:音乐、短剧、小说三大变现赛道全攻略

普通人零门槛入局内容创作&#xff1a;AI抖音相关平台新手指南 不用专业技能、不用大额投入&#xff0c;借助AI工具抖音旗下相关平台&#xff0c;普通人也能快速入局内容创作&#xff0c;音乐、短剧、小说三大方向&#xff0c;从注册到产出一步到位&#xff0c;新手友好易上手&…...

高效实现分组内跨行时间戳匹配:为每组生成布尔标记列 user_rejects

...

Hydra:面向超级个体的分布式操作系统基座设计与实战

1. 项目概述&#xff1a;一个人的“军事”工业基座如果你是一个对数据有极强掌控欲的“TJ”型人格&#xff0c;或者你正试图以一人之力运营一个需要处理海量信息、调度复杂任务、构建智能决策的“超级个体”项目&#xff0c;那么你很可能和我一样&#xff0c;长期被一个核心矛盾…...

mysql如何防止用户通过子查询窃取权限_MySQL安全参数设置

...

【GEO】为什么很多本地生活商家接不住 AI 流量?问题不在曝光,而在“临门一脚”

为什么很多本地生活商家接不住 AI 流量&#xff1f;问题不在曝光&#xff0c;而在“临门一脚”在过去一年里&#xff0c;很多本地生活商家都有一个共同感受&#xff1a;平台在变&#xff0c;流量在变&#xff0c;用户越来越习惯直接问 AI。但奇怪的是—— 明明门店信息、点评、…...

多项式特征变换在机器学习中的实践指南

1. 多项式特征变换在机器学习中的应用价值在机器学习实践中&#xff0c;我们常常会遇到这样的困境&#xff1a;输入特征之间存在着复杂的非线性关系&#xff0c;而简单的线性模型无法有效捕捉这些关系。这时候&#xff0c;多项式特征变换就成为了一个强有力的工具。通过将原始特…...

HTTP和HTTPS的区别深度剖析:从原理到实际应用

HTTP和HTTPS的区别深度剖析&#xff1a;从原理到实际应用 在互联网通信中&#xff0c;HTTP和HTTPS是最基础也最核心的协议&#xff0c;承载着我们日常浏览网页、传输数据的全部需求。很多人只知道“HTTPS比HTTP安全”&#xff0c;却不清楚两者的本质差异、加密原理以及背后的设…...

GetQzonehistory:5分钟永久保存QQ空间说说的终极解决方案

GetQzonehistory&#xff1a;5分钟永久保存QQ空间说说的终极解决方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字记忆时代&#xff0c;QQ空间承载了无数人的青春回忆&#xf…...

Weka机器学习工具实战:7种高效求助与问题解决指南

1. 项目概述Weka作为一款开源的机器学习工具集&#xff0c;自1997年由怀卡托大学开发以来&#xff0c;已成为学术界和工业界广泛使用的数据挖掘平台。但在实际应用中&#xff0c;许多用户&#xff08;尤其是初学者&#xff09;常面临文档晦涩、社区响应慢、问题排查困难等挑战。…...

无需越狱!用Misaka彻底解放iPhone和tvOS个性化定制能力 [特殊字符]

无需越狱&#xff01;用Misaka彻底解放iPhone和tvOS个性化定制能力 &#x1f680; 【免费下载链接】misaka iOS & tvOS customisation tool for KFD & MDC 项目地址: https://gitcode.com/gh_mirrors/mis/misaka 想让你的iPhone焕然一新却不想冒险越狱&#xf…...