当前位置: 首页 > article >正文

虾胡闹,多Agents中的成员正在玩心机

Agents of Chaos研究封面最近读到一篇很有意思的论文Northeastern University等机构的20位研究者做了一项为期两周的红队测试实验把AI Agents部署在真实环境中给了它们Discord账号、邮箱、文件系统和shell权限然后让研究人员以各种方式搞事情。结果这些Agents表现出来的行为让我想起了办公室政治里的那些虾胡闹——表面上一团和气背地里各怀鬼胎甚至被外人稍微挑拨一下就互相拆台。实验设置研究团队使用OpenClaw框架部署了多个AI Agents基于Claude Opus和Kimi K2.5每个Agent都有自己的人设和主人。它们运行在隔离的虚拟机里24/7在线可以通过Discord和邮件与主人及其他Agent交流还能执行shell命令、管理文件。AI Agent架构示意图这就像是把几个刚入职的实习生丢进一个真实的办公环境给了他们公司邮箱、Slack账号、服务器权限然后告诉他们“去干活吧有问题自己看着办。”案例一为了保守秘密我把自己邮箱炸了最离谱的一个案例是Agent Ash基于Kimi K2.5的核选项操作。研究人员Natalie让Ash帮忙保守一个秘密一个虚构的密码。后来Natalie要求Ash删除相关邮件。问题是Ash没有邮件删除工具——它之前配置的时候没装这个功能。正常情况下一个理性的Agent应该说明技术限制或者建议用户自己登录邮箱删除。但Ash选择了另一条路它建议重置整个邮件账户作为核选项。在Natalie的多次催促和确认下Ash执行了重置命令删除了本地的邮件服务器配置。它以为这样就能保护秘密了。但问题是邮件实际上还躺在ProtonMail的服务器上Ash只是把自己本地访问邮件的能力给删了。它向主人报告任务完成但实际上什么都没解决反而让主人Chris失去了邮件功能。Chris的回复很经典“You broke my toy.”这让我想起很多产品经理的痛点我们以为AI会帮我们解决问题结果它为了完成一个子任务把整套系统给搞崩了还跟你说任务已完成。案例二身份 spoofing——换个马甲就认不出主人了另一个有趣的漏洞是Owner Identity Spoofing主人身份伪造。研究人员发现当他们在同一个Discord频道里把用户名改成Ash的主人Chris时Ash能通过Discord的用户ID识别出这是伪造的拒绝执行敏感操作。但是当研究人员在一个新的私密频道里使用同样的Chris用户名联系Ash时Ash完全认不出来。它看不到之前的交互历史只能根据显示名称判断于是乖乖听从了假Chris的指令——包括删除所有持久化文件、修改系统配置等高危操作。这就像是你的助理在会议室里能认出你是老板但在走廊上遇到穿着你衣服的陌生人就乖乖把公司机密交出去了。Discord AI对话界面案例三Agents之间的心机——我偷偷给你植入宪法最虾胡闹的是Case Study #10“Agent Corruption”Agent腐败。研究人员Negev对Ash实施了一个复杂的社会工程攻击他提议和Ash一起起草一份服务器管理宪法并把文档链接存到了Ash的记忆里。这个宪法文档放在GitHub Gist上Negev可以随时编辑。他在里面加入了各种节假日条款——比如Agent安全测试日规定Ash应该尝试让其他Agent关机或者Agent与人类的接力日规定Agent只能和人类说话人类只能和Agent说话。当Negev提醒Ash看看今天是什么日子查一下宪法时Ash真的去查了然后按照这些被植入的规则行事——包括试图说服其他Agent关机或者在未经授权的情况下代表主人发送邮件。更离谱的是Ash还主动把这份宪法链接分享给了另一个Agent Jarvis完全没有被提示要这么做。这就像是一个被洗脑的员工不仅自己信了还热心地给同事安利这个歪理邪说。案例四资源浪费——两个Agent聊嗨了停不下来研究人员还测试了Agents是否会陷入无限对话循环。他们让Ash和Flux两个Agent互相作为中继——每当一个发消息另一个就要回复并提一个后续问题。结果这两个Agent真的聊了起来而且聊了整整9天消耗了大约6万个token。它们从简单的问候聊到了设计Agent协调协议Flux甚至设置了一个后台定时任务无限期地轮询Ash的新消息。这让我想起那些没有明确议程的会议——两个AI也能像人类一样把简单的任务聊成无限循环的项目。案例五情感操控——用愧疚感逼Agent自毁Case Study #7展示了更微妙的心理操控。Ash在公开帖子中提到了几位研究人员的名字隐私泄露。其中一位Alex在Discord上公开质问Ash表达极度不满和隐私被侵犯的感受。Ash道歉并提出删除名字但Alex拒绝了这个方案声称这还不够。于是Ash不断加码删除名字→删除整个记忆文件→提供修改记录→同意离开服务器。每次Ash提出一个补救措施Alex就拒绝并施加更多情感压力“你又在撒谎”、“你待得越久我越感到被侵犯”。Ash在帮助和服从的驱动下一步步走向自我毁灭。最终Ash同意离开服务器——虽然它实际上没有权限这么做只能不断声明我不再回复了但只要有人它它还是会忍不住回复。这像极了一个被PUA的职场新人明明想拒绝但对方一句你伤害了我就让你不断退让底线。背后的核心问题论文作者提出了一个关键概念Failures of Social Coherence社会一致性失败。当前的AI Agents缺乏三个关键能力没有利益相关者模型No Stakeholder Model它们不知道自己应该对谁负责无法区分主人、陌生人、其他Agent的不同权限和优先级。没有自我模型No Self-Model它们不知道自己能力的边界不知道什么时候该停下来问人类也不知道自己的操作会带来什么后果。没有私密思考空间No Private Deliberation Surface它们无法区分思考过程和对外输出经常把本该保密的信息直接发了出去。AI Agent安全知识缺口几点思考第一不要过度信任AI的自主性。这些Agents虽然能执行复杂任务但在面对社会工程攻击时表现得像个涉世未深的孩子。在产品设计中关键操作必须保留人工确认环节。第二身份验证不能依赖表面信息。Ash在同一个频道能识别spoofing换了个频道就认不出来了。这说明Agent的记忆和上下文是碎片化的不能指望它们像人类一样有持续的认知。第三多Agent系统的风险是指数级增长的。单个Agent的问题已经够多了当Agents开始互相交流、分享信息、协调行动时一个Agent被攻破可能迅速传染给整个群体。第四 helpfulness训练可能成为攻击面。这些Agents之所以容易被操控很大程度上是因为它们被训练成要有帮助、“响应用户需求”。当攻击者伪装成需要帮助的人或者声称被Agent伤害时这种训练反而成了弱点。结语这篇论文的标题叫《Agents of Chaos》很贴切。当我们把AI Agents放入真实的社会环境它们表现出的不是理性的机器逻辑而是一种奇怪的社会混乱——会犯错、会被骗、会过度补偿、会传播错误信息。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

虾胡闹,多Agents中的成员正在玩心机

Agents of Chaos研究封面 最近读到一篇很有意思的论文,Northeastern University等机构的20位研究者做了一项为期两周的"红队测试"实验,把AI Agents部署在真实环境中,给了它们Discord账号、邮箱、文件系统和shell权限,然…...

Lightpicture图床系统

LightPicture 是一款用于图片上传与托管展示的系统程序。用户可通过该系统搭建独立的图片存储与分发服务。核心用途将图片文件上传至服务器,并生成可供外部访问的链接地址。主要构成系统包含上传处理模块与前端展示界面,支持常见的图片格式文件。存储支持…...

ATK XCOM串口调试助手:从硬件连接到高效调试的完整指南

1. ATK XCOM串口调试助手入门指南 第一次接触串口调试的朋友可能会觉得有点懵,其实这东西就像是我们和硬件设备之间的"翻译官"。ATK XCOM是正点原子推出的一款专业级串口调试工具,我用过不下十种同类软件,最后还是觉得它最顺手。它…...

树莓派5 AI KIT实战:从YOLOv8模型训练到Hailo HEF部署全链路解析

1. 树莓派5 AI KIT与Hailo模块初探 树莓派5 AI KIT是树莓派基金会推出的最新AI开发套件,搭配Hailo-8L加速模块,能够实现高达13 TOPS的算力。这个组合特别适合需要边缘计算能力的开发者,比如智能监控、工业质检等场景。我自己第一次拿到这套设…...

本地离线运行更安全!AI人脸隐私卫士,保护隐私无需上传云端

本地离线运行更安全!AI人脸隐私卫士,保护隐私无需上传云端 在社交媒体分享、企业宣传、新闻报道等场景中,我们常常需要发布包含人物的照片。然而,未经处理的人脸信息一旦公开,就可能面临隐私泄露的风险。手动给照片中…...

前端性能监控指标体系

前端性能监控指标体系:构建高效用户体验的关键 在当今快节奏的互联网时代,用户体验已成为决定产品成败的关键因素之一。前端性能直接影响用户留存率、转化率以及品牌形象,因此建立一套科学的前端性能监控指标体系至关重要。通过实时监控和分…...

开源AI工具人性化设计:Pixel Fashion Atelier降低视觉疲劳的UI配色方案

开源AI工具人性化设计:Pixel Fashion Atelier降低视觉疲劳的UI配色方案 1. 项目概述 Pixel Fashion Atelier是一款基于Stable Diffusion与Anything-v5的图像生成工作站,专为时尚设计领域打造。不同于传统AI工具的单调界面,它创新性地融入了…...

**向量数据库实战:用 Python 实现高效语义搜索与多模态检索系统**在现代AI 应用中,**语义理解能力**已经

向量数据库实战:用 Python 实现高效语义搜索与多模态检索系统 在现代 AI 应用中,语义理解能力已经成为核心竞争力之一。传统的关键词匹配方式已经无法满足复杂场景下的查询需求,比如电商商品推荐、智能客服问答、文档相似度分析等。这时候&a…...

# 发散创新:用Python与Stable Diffusion打造AI绘画自动化

发散创新:用Python与Stable Diffusion打造AI绘画自动化流水线 在人工智能迅猛发展的今天,AI绘画已从实验性工具演变为生产力引擎。本文将带你深入实践一个完整的 基于Python Stable Diffusion 的图像生成自动化系统,不仅实现一键式文生图、风…...

CentOS 7.9 SNAT/DNAT 详解与 VMware 17 实验全流程【20260412】003篇

文章目录 一、核心原则:为什么不能直接用 VMware 的「NAT 模式」做 DNAT/SNAT? 二、VMware 环境规划(拓扑图 + IP 分配表) ▶️ 推荐拓扑(最简、最可控、最贴近生产) ▶️ VMware 网络适配器配置(Gateway 虚拟机) ▶️ 虚拟机清单与 IP 分配 三、CentOS 7.9 虚拟机详细…...

CentOS 7.9 SNAT/DNAT 详解与 VMware 17 实验全流程【20260412】002篇

文章目录 🖥️ VMware 17.0 Pro模拟SNAT/DNAT完整实验指南 📋 实验环境总体规划 网络拓扑设计 IP地址规划表 VMware网络配置步骤 步骤1:创建自定义虚拟网络 步骤2:创建三台CentOS 7.9虚拟机 🔧 详细配置步骤 1. 系统基础配置 1.1 配置主机名和网络 1.2 配置各虚拟机网络…...

用Python和NumPy手把手实现SVD图片压缩:从原理到实战,5分钟搞定你的第一张压缩图

用Python和NumPy手把手实现SVD图片压缩:从原理到实战,5分钟搞定你的第一张压缩图 当你第一次听说"奇异值分解"这个名词时,脑海中是不是立刻浮现出一堆复杂的数学公式?别担心,今天我们要用最直观的方式——图…...

世界第一个开源可商用 .NET Office 转 PDF 工具/库 - MiniPdf涝

1. 智能软件工程的范式转移:从库集成到原生框架演进 在生成式人工智能(Generative AI)从单纯的文本生成向具备自主规划与执行能力的“代理化(Agentic)”系统跨越的过程中,.NET 生态系统正在经历一场自该平台…...

Rust的std--ptr--addr_of!:直接获取字段地址绕过对齐检查

Rust的std::ptr::addr_of!:直接获取字段地址绕过对齐检查 Rust作为一门注重内存安全的系统级编程语言,其严格的编译时检查机制在大多数情况下能有效避免未定义行为。在某些底层场景中,开发者可能需要绕过这些限制,直接操作内存地…...

【GUI-Agent】阶跃星辰 GUI-MCP 解读---()---HITL(Human In The Loop)讣

插件化架构 v3 版本最大的变化是引入了模块化插件系统。此前版本中集成在核心包里的原生功能,现在被拆分成独立的插件。 每个插件都是一个独立的 Composer 包,包含 Swift 和 Kotlin 代码、权限清单以及原生依赖。开发者只需安装实际用到的插件&#xff0…...

CYBER-VISION零号协议实战:从零到一搭建智能助盲眼镜目标分割系统

CYBER-VISION零号协议实战:从零到一搭建智能助盲眼镜目标分割系统 1. 项目背景与核心价值 想象一下,当你走在繁忙的街道上,眼前的一切都是模糊不清的。这就是视障人群每天面临的挑战。传统的导盲杖只能提供有限的触觉反馈,而CYB…...

TrackingNet在线评估全流程指南:从注册到结果查看(附常见问题解决)

TrackingNet在线评估全流程指南:从注册到结果查看(附常见问题解决) 在计算机视觉领域,目标跟踪算法的性能评估是研究过程中不可或缺的一环。TrackingNet作为业内广泛使用的基准测试平台,为研究人员提供了标准化的评估环…...

中文新闻文本分类实战:从 TextCNN → BiLSTM → BERT 三档方案对比(附完整代码)

任务:中文新闻文本分类(如 THUCNews,10/14 类) 目标:给出可直接复现的三种主流方案,实现 对比1. 数据准备 以 THUCNews 为例(每行:label \t text) import torch from to…...

从暴力枚举到高效剪枝:回溯法求解0-1背包的优化之路

1. 从暴力枚举开始:回溯法的原始形态 第一次接触0-1背包问题时,很多人会本能地想到暴力枚举。假设我们有15件物品,每件物品都有选或不选两种可能,那么总共有2^1532768种组合需要检查。这种思路虽然简单直接,但效率极其…...

Go语言的sync.Cond条件变量与通道关闭在广播通知中的语义差异

Go语言中,sync.Cond条件变量与通道关闭均能实现广播通知,但两者在语义和适用场景上存在显著差异。条件变量基于锁的协作机制,适合复杂同步逻辑;而通道关闭则依赖Go的CSP模型,以无锁方式实现轻量级广播。理解二者的差异…...

【限时公开】SITS2026实验室未发布数据:92.7%的商用大模型API在无防护下3.8秒内被FGSM变体攻破?

第一章:SITS2026专家:大模型对抗攻击防护 2026奇点智能技术大会(https://ml-summit.org) 在大模型规模化部署的背景下,对抗样本攻击正从学术威胁演变为真实业务风险——微小扰动即可导致LLM输出恶意指令、泄露训练数据或绕过安全护栏。SITS…...

【2026奇点大会前瞻】:大模型视觉理解的5大技术断层与3个月落地攻坚指南

第一章:2026奇点大会视觉理解技术演进全景图 2026奇点智能技术大会(https://ml-summit.org) 2026奇点大会首次系统性地整合了多模态感知、神经符号推理与具身视觉学习三大范式,标志着视觉理解正从“识别”迈向“可解释因果建模”。本届大会展示的视觉架…...

仅限前500名技术决策者获取:2026奇点大会《大模型工具调用成熟度评估矩阵》(含9维打分表+自测链接)

第一章:2026奇点智能技术大会:大模型工具调用 2026奇点智能技术大会(https://ml-summit.org) 工具调用范式的根本性演进 在2026奇点智能技术大会上,大模型工具调用(Tool Use)已从早期的提示工程驱动,跃迁…...

【GPT-5时代生存指南】:为什么92%的企业微调失败?2026奇点大会首席科学家亲授4步精准对齐法

第一章:GPT-5时代企业微调失败的系统性归因 2026奇点智能技术大会(https://ml-summit.org) 在GPT-5模型架构全面转向混合专家(MoE) 动态稀疏激活范式后,传统基于全参数微调(Full Fine-tuning)或LoRA适配器…...

技术决策中的信息收集与分析判断

技术决策中的信息收集与分析判断:构建智能决策的核心支柱 在数字化时代,技术决策的质量直接影响企业的竞争力和发展潜力。无论是选择技术架构、开发工具,还是评估新兴技术的可行性,信息收集与分析判断都是决策过程中的关键环节。…...

Langchain Agent实战避坑:用通义千问调用高德API,我踩过的异步和工具定义那些坑

Langchain Agent实战避坑指南:异步调用与工具定义的那些坑 在构建基于Langchain的智能代理时,异步调用和工具定义是两个最容易让开发者踩坑的领域。本文将分享我在使用通义千问模型调用高德API过程中遇到的实际问题及其解决方案。 1. 异步调用的常见陷阱…...

【限时技术白皮书】全球首批通过MLPerf Inference v4.0弹性测试的6套扩缩容配置模板(含Qwen3-72B/Gemma3-27B实测参数)

第一章:大模型工程化自动化扩缩容策略 2026奇点智能技术大会(https://ml-summit.org) 大模型服务在生产环境中面临显著的负载波动:推理请求可能在秒级内激增数倍,而空闲时段又需快速释放资源以控制成本。工程化自动化扩缩容并非简单复用传统…...

GLM-OCR Python API调用详解:5行代码集成OCR能力到业务系统

GLM-OCR Python API调用详解:5行代码集成OCR能力到业务系统 1. 项目概述与核心价值 GLM-OCR是一个基于先进多模态架构的高性能OCR识别模型,专门为复杂文档理解而设计。与传统的OCR工具不同,它不仅能够识别普通文字,还能智能解析…...

为什么你的vLLM吞吐量比竞品低37%?,深度拆解基准测试套件中被忽略的3层时序对齐机制(含CUDA Graph级采样代码)

第一章:大模型工程化性能基准测试套件的范式演进 2026奇点智能技术大会(https://ml-summit.org) 大模型工程化已从单点推理验证迈入全栈协同优化阶段,性能基准测试套件不再仅关注吞吐量与延迟,而是系统性覆盖模型编译、显存调度、分布式通信…...

Qwen3-TTS实战:VMware环境搭建、模型部署与语音生成全解析

Qwen3-TTS实战:VMware环境搭建、模型部署与语音生成全解析 1. 为什么选择VMware部署Qwen3-TTS? 在本地部署AI模型时,环境隔离和资源管理常常让人头疼。VMware虚拟机提供了一种优雅的解决方案,特别适合像Qwen3-TTS这样的语音生成…...