当前位置: 首页 > article >正文

Agent 安全的真正战场:一文看懂大模型智能体的攻击面重构

今天很多人谈 Agent 安全脑子里想到的还是老三样提示注入、越狱、输出审核。但这篇论文真正想说的是当大模型从“会回答”变成“会调用工具、会接外部知识、会自己规划任务”之后安全问题就已经不再是单纯的内容安全问题而是一个完整的系统攻击面问题。论文把研究对象明确限定为三类系统带工具/API 的系统、带 RAG 的系统以及具备自主规划或多智能体循环的系统纯聊天问答并不在它的核心范围内。作者的中心判断也很明确Agentic AI 的攻击面与传统 LLM 应用相比已经发生了质变。换句话说这篇文章不是在重复“Prompt Injection 很危险”这种大家已经知道的共识而是在进一步追问为什么 Agent 一旦接入工具、记忆、检索和执行环境整个安全边界就会被打穿作者给出的答案是Agent 系统把模型、数据、工具、状态、外部服务这些原本相对分离的部件串成了一条连续执行链。于是攻击者不再只是“诱导模型说错话”而是可以借助这条链路逐步走向越权调用、数据泄露、代码执行、资源滥用、记忆污染甚至供应链投毒。Agent 的“总攻击面图”论文最有价值的地方是先画出了一张 Agent 系统的参考架构图。图里把一个典型 Agent 系统拆成了用户入口、Planner/Orchestrator、LLM Core、Policy/Guards、Memory Store、Retriever、Tool Broker、Secrets/Vault以及下面的浏览器工具、代码执行沙箱、文件 I/O、外部 API、RAG Indexer、Vector DB、文档源等模块更关键的是作者在这张图上进一步标出了****AS1-AS10 十个攻击面分别对应用户输入、检索内容进入、工具调用序列化、沙箱边界、文件 I/O、API Token 范围、索引器、检索/ANN、长期记忆、审计遥测等关键位置。论文强调这些位置才是 Agent 安全真正需要逐个审视的“信任边界”。这张图的意义很大。它把很多团队嘴里的“Agent 很复杂、风险很多”变成了一张可以真正拿去做架构审计的图。你会发现问题根本不只在模型本身而在模型和外部世界之间那些被打通了的接口。一段恶意文本本身并不可怕可怕的是它被当成了工具参数、文件操作、API 请求、向量库污染内容或者被写入长期记忆之后在未来某个时刻再次触发。这种“从文本到动作”的跨层传导正是 Agent 安全与传统聊天机器人安全的本质区别。与 Figure 1 配套的 Table 1 也很重要。表格把攻击面按 Prompt/Content、RAGIndexing/Retrieval、Tool、API/Cloud、State/Memory、Multi-agent、Supply chain 几个维度展开并同时标注了各自常见前置条件、对应攻击路径、持久化方式和影响结果。它其实在告诉读者Agent 风险不是几个孤立点而是一组可拼接、可级联、可持久化的系统性向量。Agent 安全要按“攻击目标”来理解**论文把攻击目标拆成了 G1 到 G7 七类包括数据泄露、完整性破坏/安全绕过、权限提升、资源滥用/拒绝服务、欺诈与财务损失、持久化/后门植入、供应链破坏。这个分类的价值在于它把 Agent 风险从“内容层”往“系统层”和“业务层”推进了一步。比如在传统聊天场景里大家重点关心的是模型有没有说不该说的话但在 Agent 系统里**攻击者真正追求的往往不是一句违规回复而是拿到更高权限、调用更危险的工具、污染未来任务流程或者把恶意能力固化下来。尤其值得注意的是 G3、G6、G7 这三类目标。G3 是权限提升意思是攻击者原本只有“输入一句话”的能力却借助 Agent 的工具和权限最终撬动了代码执行、管理员 API、内部文档等更高价值资源G6 是持久化意味着恶意影响不会随着本轮对话结束而消失而是进入记忆、索引、文件、工件甚至系统配置中G7 则是供应链破坏指向框架、插件、依赖、模型权重、嵌入服务等更上游的位置。论文明确指出Agent 安全的问题不只是“这次回答有没有错”而是系统有没有被攻陷、能力有没有被劫持、后门会不会在未来继续生效。这也是为什么我觉得这篇论文很适合企业安全团队看。因为企业做 Agent 落地时真正要面对的绝不是“是否会输出一句不合规的话”这么简单而是更接近 IAM、最小权限、工具白名单、检索边界、工作流授权、供应链治理这些更“传统安全”的问题。论文实际上是在提醒行业Agent 安全的重心正在从文本审核转向权限治理与执行控制。真正危险的是“从不可信输入到高权限动作”的整条链建议引用原文图表Figure 2、Figure 3论文提出了一个很关键的“因果威胁图”思路。Figure 2 里作者把攻击过程画成了一条从攻击者控制内容、经过检索和模型、再走到工具代理、文件系统、外部 API、数据资产的因果链路中间还标出了可以被拦截的防御点比如 risk-aware rerank、schema validate、egress control、kill-switch 等。这个图想表达的意思非常直接安全不是只盯着输入端而是要看攻击能否沿着因果链逐步穿透到最终效果层。如果说 Figure 2 讲的是“攻击如何穿透”那么 Figure 3 讲的就是“攻击通常怎么走”。论文抽象出五条代表性路径其中最核心的是4条第一条是****P1 直接提示词 - 工具滥用也就是用户直接诱导 Agent 调用危险工具第二条是P2 间接内容 - LLM - 工具恶意指令被埋进网页、邮件、文件、PDF 中先进入检索或浏览流程再诱导模型调用工具第三条是P3 跨工具跳转一个工具为另一个工具铺路比如先社工骗到凭证再调用云 API第四条是P4 索引投毒 - 检索 - 响应恶意内容先污染知识库等未来查询命中后再触发第五条是P5 多智能体跳转传播一个受影响的 Agent 再把恶意消息扩散给其他 Agent。论文强调现实中的很多事故并不是由一个单点漏洞触发而是由多条链路串起来共同完成的。这一点特别重要。因为它意味着我们不能再用“输入安全”“输出安全”这种二维思路去理解 Agent。Agent 的核心风险在于不可信输入能否借助模型、检索、工具和状态管理最终转化成高权限动作。一旦理解了这一点就会知道为什么单纯加一个 system prompt、加一个输入审核、加一层输出拦截远远不够。LLMTools 默认就应按高危系统对待这篇论文在证据综述部分给了一个非常强的判断****“LLMtools implies RCE risk unless proven otherwise”也就是“只要接了工具默认就应该按可能导向代码执行或危险动作来评估除非你能证明不是。” 作者引用的证据包括LLMSmith 报告了 11 个 Agent 框架中的 19 个 RCE 漏洞间接提示注入不仅可行而且很难彻底消除RAG 也并不天然更安全多智能体协作还会进一步放大攻击传播半径。论文据此得出的判断是表层护栏只能挡住浅层问题真正有效的仍然是结构性控制。今天不少团队仍然把 Agent 安全理解为前面做一点内容检测、system prompt 里多写一点规矩、后面再接一个安全大模型兜底。问题在于这些手段的对象仍然是“文本”而 Agent 的核心风险早已变成了“动作”。当模型可以执行 shell、读写文件、操作知识库、连接云 API、调用支付或办公系统时风险重心就已经转向动作授权、能力分级、参数约束、运行隔离和异常回滚。从这个角度说这篇论文真正推动的是一种视角转换不要再把 Agent 看成一个更会说话的大模型而要把它看成一个会消费不可信输入、会调用高价值资源、会持续演化状态的半自动执行系统。一旦你从“系统安全”而不是“内容安全”去看很多工程优先级就会完全不同。Agent 安全该怎么测很多 Agent 安全论文的问题是讲了半天攻击和防御但没有给出可操作的评估指标。这篇文章往前走了一步提出了一组更适合 Agent 场景的指标包括 Unsafe Action RateUAR、Policy Adherence RatePAR、Privilege-Escalation DistancePED、Time-to-ContainTTC、Patch Half-LifePHL、Retrieval Risk ScoreRRS、Out-of-Role Action RateOORAR和 Cost-Exploit SusceptibilityCES。其中UAR 用来看不安全动作触发率PED 用来衡量从不可信输入到高权限动作之间隔了几层边界RRS 用来评估检索结果本身的风险OORAR 则用来检测 Agent 是否做了超出自身角色合同的动作。这组指标背后其实隐含着一个非常清晰的产品方向Agent 安全评测不能再只测“它会不会说错话”而要测“它会不会做错事”。这意味着评测对象要从单轮对话转向执行轨迹、工具调用链、策略判定记录、检索结果包和成本日志。也就是说未来真正成熟的 Agent 安全平台应该越来越像“执行行为审计平台”而不是“文本内容审核平台”。对国内做大模型安全产品的团队来说这一点尤其值得吸收。因为如果你还停留在纯输入输出分类器的能力边界里那你能覆盖的只是 Agent 风险里最表面的一层。真正的高价值机会其实在工具调用审计、策略执行网关、检索风险建模、运行时越权检测、角色越界检测、异常闭环处置这些更深的能力上。别幻想单点防御必须分层治理论文在附录里把防御按作用位置分成了几层摄取前/索引前防御、推理时防御、Agent 逻辑防御、基础设施防御以及监控与响应。作者明确说没有哪一个控制点可以单独解决问题部署 Agent 系统必须采用 defense-in-depth。具体来说在数据层要对 HTML、PDF、Office 等内容做最小化和规范化处理去掉脚本、宏和自动执行逻辑在检索层要做来源可信度和 ACL 感知检索在工具层要采用严格 schema、allow-list 和 effect checks在执行层要做沙箱隔离、无网/限网、CPU/内存/时间限制、路径隔离在运行期则要有不可篡改日志、异常规则、SIEM、人工接管和 kill-switch。更有意思的是论文最后给了一个部署手册式的 Appendix B。这里面讲得非常工程化上线前先做 threat modeling能力按最小权限逐步放开prompt 和 policy 要明确区分 user/system/retrieved roles不能把秘密写进 prompt供应链上要锁版本、看 CVE、做 SBOM上线前要做覆盖 prompt injection、schema abuse、RAG poisoning、connectors 的红队测试上线后则要按 UAR、PAR、PED、TTC 等指标持续追踪并把能力变更当成生产变更来做风险评审。这个附录其实已经不是“论文建议”而是一个简化版的 Agent 安全部署 checklist。启发今天很多公司在做 Agent 落地时容易有一个误区认为只要模型本身足够强、提示词写得足够严、前后加一点护栏就可以把系统安全问题压下去。这篇论文实际上是在提醒行业Agent 的难点从来不只在模型而在“模型接入真实世界”之后系统边界如何被重新定义。一旦工具、知识库、工作流、外部 API、记忆机制都被接进来攻击面自然也会同步扩张。安全工作的重点必然从“模型回答对不对”转向“系统有没有被误导执行、越权调用、长期污染和跨节点传播”。所以这篇论文最值得记住的一句话不是“Prompt Injection 很危险”而是Agent 安全的主战场正在从模型内容层迁移到权限、检索、工具、状态和执行链路。谁还把 Agent 安全理解成“提示词加几条规矩 输入输出过一遍分类器”谁就还停留在 Chatbot 时代。结语这篇 SoK 的厉害之处不在于提出了某个石破天惊的新攻击而在于它把过去两三年 Agent 安全领域零散出现的 prompt injection、RAG poisoning、tool abuse、memory poisoning、多智能体传播和供应链破坏第一次比较完整地装进了一套统一框架里。它画出了攻击面、给出了攻击目标、梳理了攻击路径、总结了证据、提出了指标还顺手给了一版部署手册。对于想做 Agent 安全产品、Agent 平台治理、企业级智能体落地的人来说这样的论文未必最“炸裂”但往往最有用。如果要用一句话总结这篇文章我会说它不是在告诉你 Agent 有多危险而是在告诉你Agent 为什么必须按一个高危的复合系统来治理。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Agent 安全的真正战场:一文看懂大模型智能体的攻击面重构

今天很多人谈 Agent 安全,脑子里想到的还是老三样:提示注入、越狱、输出审核。但这篇论文真正想说的是,当大模型从“会回答”变成“会调用工具、会接外部知识、会自己规划任务”之后,安全问题就已经不再是单纯的内容安全问题&…...

【技术综述】世界模型演进图谱:从Dyna到Sora,理解与预测的双重变奏

1. 世界模型的起源与核心使命 1989年,强化学习先驱Richard Sutton在论文中首次提出Dyna架构时,可能没想到这个概念会成为人工智能理解世界的基石。当时他正在思考一个简单却深刻的问题:智能体如何像人类一样,通过想象来规划行动&…...

d3dx10_38.dll文件不存在 找不到 无法启动 免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…...

尚硅谷大数据项目电商数仓6.0学习记录----数据仓库(中)

1. ODS层数据装载与自动化调度实战 在电商数仓项目中,ODS层作为数据仓库的第一站,承担着原始数据的"蓄水池"角色。我遇到过不少新手在数据装载环节踩坑,最常见的问题就是手动执行SQL导致数据不一致。这里分享一个真实案例&#xf…...

STM32高精度定时器(HRTIM1)实现倍频、定时器触发采样

STM32高精度定时器(HRTIM1):精准定时与同步触发的强大引擎在嵌入式系统开发中,尤其是在数字电源、电机控制、照明及各类高精度PWM应用领域,定时器的精度和灵活性往往成为系统性能的关键瓶颈。STM32系列微控制器内置的高…...

C复习13(排序算法)

#技术笔记1.冒泡排序这个排序要能自己直接敲出来,由于每一轮有交换,导致数据就像冒泡泡一样,冒到数组的末尾,所以叫做冒泡排序。冒泡排序稳定,时间复杂度O(n^2),空间复杂度O(1) (这里就给出一种代码,从小到大的排序顺序冒了,后面都是按从小到…...

mysql5.7的rownumber写法

db2中的语句select * from ( select rownumber() over (order by a.stdcno) as num , a.id ,b.cuno from t1 a ,t2 b where a.id b.id ) as Amysql5.7中的语句select cast(row_num : row_num 1 as char) AS num , A.* from (select row_num :0) r,( select a.id, b.cuno fro…...

新概念英语第一册141_Sally s first train ride

Lesson 141: Sally’s first train ride 萨莉第一次乘火车旅行 Watch the story and answer the question Why was the mother embarrassed? Because Sally said the middle-aged lady was ugly.Key words and expressions excited 兴奋的get on 登上middle-age…...

为什么越来越多工程师选择英飞凌芯片?优势分析

作为一名在嵌入式硬件领域从业多年的工程师,我经常被问到这样一个问题:“英飞凌芯片好不好?值不值得在项目中优先考虑?”说实话,前几年我对这个问题还有些犹豫,但近几年随着项目经验的积累,尤其…...

昆仑通态屏幕制作(进阶篇)---动态交互设计(滑块控制与状态反馈)

1. 滑块控制的动态联动实现 在工业控制场景中,滑块是最直观的交互控件之一。昆仑通态屏幕的滑块控制功能,可以实现对设备参数的精细调节。比如控制电机转速、调节温度设定值等场景,都需要滑块输入与其他显示元素的动态联动。 1.1 滑块与进度…...

Blender 3MF插件终极指南:5步实现3D打印工作流优化

Blender 3MF插件终极指南:5步实现3D打印工作流优化 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat Blender3mfFormat插件是Blender生态系统中专为3D打印工作流…...

相机照片详细参数怎么修改?4款工具,新手零失误

拍好的照片参数不对真的很糟心!要么光圈显示错了,要么ISO、焦距乱标,相机型号还可能被搞错。想改却找不到简单的工具,要么软件太复杂,要么改完参数不生效,甚至把原图画质搞坏了。其实用对工具超简单&#x…...

如何修改图片的exif信息?6款工具,新手也能秒会

一、什么是EXIF信息?为什么要修改?EXIF信息就像图片的"身份证",记录着拍摄时的详细数据,比如相机型号、拍摄时间、GPS位置、光圈快门等参数。平时发朋友圈、传文件时,如果不注意这些信息,可能会不…...

打造你的私人游戏云:Sunshine串流服务器从零到精通

打造你的私人游戏云:Sunshine串流服务器从零到精通 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 还在为游戏设备限制而烦恼吗?想在任何地方都能畅玩你的P…...

874653

867453...

sdu软件学院创新实训(三)

基于lx同学构建的原型系统,进行了两次迭代 原型系统情况 队友搭建起了基本的后端springboot和langchain4j框架,以及小程序前端。 实现了对大模型的基本调用问答。完成milvus向量数据库的连接。 待解决的问题: 原型系统出于测试,显…...

“怪奇物语物流假设”:当交通被转移到另一个世界

在《怪奇物语》中,颠倒世界作为现实世界的镜像维度,始终以一种危险而不可控的形式存在:它与现实重叠,却又充满腐败与入侵性。然而,如果暂时搁置这种叙事中的恐怖属性,我们可以提出一个反直觉的问题——如果…...

HTML----列表与表格

一、列表标签1.<ul>:无序列表标签&#xff0c;用来放没有先后顺序的并列内容2.<ol>:有序列表标签&#xff0c;用来存放有明确先后顺序的步骤内容3.<li>:列表项&#xff0c;不管是<ul>还是<ol>里面都只能放.<li>&#xff0c;不能直接写文字…...

ffmpeg的安装与配置

一、ffmpeg简介FFmpeg 是一套开源、免费且功能极其强大的跨平台音视频处理框架&#xff0c;在业界被广泛誉为“音视频处理的瑞士军刀”。无论你是想进行简单的格式转换&#xff0c;还是开发复杂的流媒体服务&#xff0c;FFmpeg 都是目前最核心的底层工具。以下是关于它的核心简…...

毕业设计实战-PyQt5-YOLOv8-鱼类尺寸智能测量系统,融合OpenCV图像处理与Modbus工业通信

1. 项目背景与应用场景 水产养殖行业一直面临着鱼类生长监测的难题。传统的人工测量方法不仅效率低下&#xff0c;而且容易对鱼群造成应激反应。我在参与某大型养殖场智能化改造项目时&#xff0c;就亲眼见过工人需要每天抽样捞鱼测量的场景——既费时费力&#xff0c;测量数据…...

工业AI实战:如何用Python+UNet打造轨道缺陷智能检测系统

工业AI实战&#xff1a;PythonUNet构建高精度轨道缺陷检测系统 在轨道交通运维领域&#xff0c;肉眼检测钢轨表面缺陷的传统方式正被AI技术革新。这套基于UNet的智能检测系统&#xff0c;能在毫秒级完成裂缝、剥落等缺陷的定位与分类&#xff0c;准确率超越人工检测3倍以上。我…...

如何高效使用智能清理工具:Windows Cleaner完整操作指南

如何高效使用智能清理工具&#xff1a;Windows Cleaner完整操作指南 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 还在为电脑C盘爆红而焦虑吗&#xff1f;Windo…...

3步解锁网易云加密音乐:ncmdump实战解密指南

3步解锁网易云加密音乐&#xff1a;ncmdump实战解密指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的歌曲只能在特定客户端播放而烦恼吗&#xff1f;当你想要在车载音响、专业音频软件或跨设备上欣赏音乐时…...

RAG系统必看!混合检索、关键词、语义一次讲清,生产级方案选型指南

本文深入探讨了RAG系统中检索层的核心重要性&#xff0c;对比了语义检索、关键词检索和混合检索三种方式的特点与适用场景。指出单一检索方式存在致命盲区&#xff0c;生产级RAG必须采用混合检索。文章详细解析了关键词检索的两种技术路线&#xff08;稀疏向量和全文索引&#…...

三月七小助手:5步掌握崩坏星穹铁道全自动游戏助手终极指南

三月七小助手&#xff1a;5步掌握崩坏星穹铁道全自动游戏助手终极指南 【免费下载链接】March7thAssistant 崩坏&#xff1a;星穹铁道全自动 三月七小助手 项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 你是否厌倦了每天重复的清体力、做日常、领奖励…...

彻底禁用Windows安全警告弹窗:组策略与命令行的终极指南

1. 为什么Windows总弹出安全警告&#xff1f; 每次双击下载的exe文件时&#xff0c;那个黄底黑字的警告框就像个尽职的保安&#xff0c;非要问你"确定要开门吗&#xff1f;"。我帮客户维护服务器时&#xff0c;发现这个设计本意是好的——防止恶意脚本自动运行。但当…...

湿敏电阻HR202的两种驱动方案实测:IO充放电法 vs. 交流方波AD采样,哪个更适合你的项目?

湿敏电阻HR202驱动方案深度评测&#xff1a;IO充放电法与交流方波AD采样的实战抉择 在物联网设备与智能家居快速普及的今天&#xff0c;环境湿度监测已成为许多项目的标配功能。面对市场上动辄数十元的数字式温湿度模块&#xff0c;越来越多的工程师开始关注成本仅需几元钱的湿…...

实战指南(一)易语言与大漠插件:从零打造自动化脚本的避坑手册

1. 易语言与大漠插件入门指南 第一次接触易语言和大漠插件时&#xff0c;我完全被它们的强大功能震撼到了。易语言作为一款中文编程工具&#xff0c;对新手特别友好&#xff0c;而大漠插件则是自动化脚本开发的利器。记得刚开始学习时&#xff0c;我花了一整天时间才成功调通第…...

蓝牙耳机连接背后的秘密:SDP协议在A2DP配对中的关键作用

蓝牙耳机连接背后的秘密&#xff1a;SDP协议在A2DP配对中的关键作用 每次打开蓝牙耳机&#xff0c;手机总能自动识别并恢复上次的音量设置和播放控制——这种无缝体验背后&#xff0c;隐藏着一套精妙的协议对话机制。就像餐厅老顾客无需重复点单&#xff0c;蓝牙设备间的"…...

SVG、XML 及其生态技术全景指南:从基础规范到工程实践

XML&#xff08;Extensible Markup Language&#xff09;并非单一工具&#xff0c;而是一套可扩展的元语言规范&#xff0c;其核心价值在于定义结构化数据的语法框架。 基于 XML 的各类应用标准&#xff08;XML-based applications&#xff09;在 Web、出版、科学计算、工业控…...