当前位置: 首页 > article >正文

# 040、实战项目五:多 Agent 协作系统 —— 项目经理、开发者、测试者角色模拟

从一次凌晨三点的事故说起去年做智能客服系统重构我犯了个低级错误——让单个Agent既写代码又自测。结果上线当天它把“用户退款”的SQL写成了DELETE FROM orders WHERE status‘refund’还自信满满地标注“测试通过”。凌晨三点被运维电话叫醒看着后台2000条订单被物理删除我盯着屏幕骂了句“这Agent要是能分角色干活至于出这种幺蛾子”后来我花了三周时间用LangGraph搭了一套多Agent协作框架让三个Agent分别扮演项目经理、开发者和测试者。今天这篇笔记就是这套系统的核心实现——代码可以直接跑但坑我已经替你们踩过了。系统架构别把Agent当人当微服务多Agent协作最忌讳“拟人化”。别想着让Agent像人类团队那样开会、投票、写周报那是浪费token。我的设计原则是每个Agent是一个有状态的计算节点通过结构化消息总线通信。核心组件就三个Orchestrator编排器负责任务分解、状态机流转、异常重试Message Bus消息总线基于Redis Stream的异步队列保证消息不丢Agent Worker Pool每个角色独立部署通过gRPC调用LLM# 别这样写把Agent当对象互相调用耦合度爆炸# class ProjectManager:# def assign_task(self, developer):# developer.do_work()# 正确的做法通过消息总线解耦classOrchestrator:def__init__(self):self.state_machine{INIT:self._handle_init,REQUIREMENT:self._handle_requirement,DEVELOPMENT:self._handle_development,TESTING:self._handle_testing,REVIEW:self._handle_review,COMPLETED:self._handle_completed}self.message_queueRedisStream(hostlocalhost,port6379)self.task_storeSQLiteStore(agent_tasks.db)# 这里踩过坑用内存存储进程重启全丢defrun(self,user_request:str):task_idself._create_task(user_request)self.message_queue.publish(pm_channel,{task_id:task_id,action:ANALYZE_REQUIREMENT,payload:user_request})returntask_id项目经理Agent别让它写需求文档让它拆任务项目经理Agent最容易犯的错是“过度规划”。我见过一个PM Agent写了30页PRD结果开发者Agent根本读不完。PM Agent的核心能力是任务分解和优先级排序不是写文档。classPMAgent:def__init__(self,llm_client):self.llmllm_client self.task_template 你是一个资深项目经理擅长将复杂需求拆解为可执行的任务。 当前需求{user_request} 请按以下格式输出任务列表JSON格式 {{ tasks: [ {{ id: T001, description: 具体任务描述不超过50字, dependencies: [], // 前置任务ID列表 estimated_hours: 4, priority: HIGH|MEDIUM|LOW, acceptance_criteria: 验收标准一句话说清楚 }} ], architecture_notes: 技术架构建议不超过100字 }} 注意 - 任务粒度控制在2-8小时别拆太细 - 依赖关系必须形成DAG不能有循环依赖 - 优先级只给一个HIGH其他都是MEDIUM或LOW defanalyze_requirement(self,user_request:str)-dict:# 这里踩过坑直接让LLM输出JSON经常格式错误# 改用function calling强制结构化输出responseself.llm.chat.completions.create(modelgpt-4,messages[{role:user,content:self.task_template.format(user_requestuser_request)}],response_format{type:json_object}# 强制JSON输出别这样写用正则解析)tasksjson.loads(response.choices[0].message.content)# 验证DAG无环ifnotself._validate_dag(tasks[tasks]):raiseValueError(任务依赖存在循环重新生成)returntasks经验PM Agent的输出一定要结构化别让它写自然语言。我后来把输出格式改成了Pydantic模型配合LangChain的with_structured_output错误率从30%降到了2%。开发者Agent代码生成不是重点上下文管理才是开发者Agent最容易翻车的地方是“忘记上下文”。比如PM说“实现用户登录”开发者写了个登录接口但没考虑PM之前说的“需要支持OAuth2.0”。解决方案是给开发者Agent一个“上下文快照”包含所有相关任务和依赖。classDeveloperAgent:def__init__(self,llm_client,code_repo:str):self.llmllm_client self.repo_pathcode_repo self.context_window[]# 维护最近5个任务的上下文defimplement_task(self,task:dict,project_context:dict):# 构建上下文包含当前任务、依赖任务、架构说明context{current_task:task,dependency_tasks:self._get_dependency_tasks(task[dependencies]),architecture_notes:project_context.get(architecture_notes,),existing_code:self._read_relevant_files(task[description])# 这里踩过坑读整个项目token爆炸}# 限制上下文大小只读取与任务相关的文件promptf 你是一个资深后端开发者正在实现以下任务 任务描述{task[description]}验收标准{task[acceptance_criteria]}项目架构说明{context[architecture_notes]}依赖任务代码摘要{self._summarize_code(context[dependency_tasks])}请生成实现代码注意 1. 遵循项目现有的代码风格从已有代码中学习 2. 添加必要的错误处理和日志 3. 不要重复实现依赖任务中已有的功能 4. 输出格式文件名和完整代码 已有相关代码{context[existing_code]}responseself.llm.chat.completions.create(modelgpt-4,messages[{role:user,content:prompt}],temperature0.3# 代码生成用低温度别这样写用0.7会生成花里胡哨的代码)# 解析代码并写入文件code_blocksself._parse_code_blocks(response.choices[0].message.content)forfilename,codeincode_blocks.items():filepathos.path.join(self.repo_path,filename)os.makedirs(os.path.dirname(filepath),exist_okTrue)withopen(filepath,w)asf:f.write(code)# 更新上下文窗口self.context_window.append({task_id:task[id],files:list(code_blocks.keys()),summary:self._generate_summary(code_blocks)})iflen(self.context_window)5:self.context_window.pop(0)return{status:completed,files:list(code_blocks.keys())}血泪教训开发者Agent的temperature一定要低。我试过0.7它给我生成了带emoji注释的代码还自作主张加了“智能缓存”功能结果把Redis搞崩了。测试者Agent别只测功能要测边界和异常测试者Agent最容易变成“点头机器”——开发者说“我写好了”测试者说“好的通过”。真正的测试Agent应该是个“杠精”专门找茬。classTesterAgent:def__init__(self,llm_client,test_frameworkpytest):self.llmllm_client self.test_frameworktest_framework self.bug_report_template 缺陷报告 #{bug_id} 严重程度{severity} (CRITICAL/MAJOR/MINOR) 任务ID{task_id} 缺陷描述{description} 复现步骤{steps} 期望结果{expected} 实际结果{actual} 建议修复{suggestion} deftest_task(self,task:dict,code_files:list,test_cases:listNone):# 先执行已有的单元测试test_resultsself._run_existing_tests(code_files)# 再让LLM生成边界测试用例ifnottest_cases:test_casesself._generate_test_cases(task,code_files)# 执行新生成的测试new_resultsself._run_generated_tests(test_cases)# 汇总缺陷bugs[]forresultintest_resultsnew_results:ifresult[status]FAILED:bug_reportself._analyze_failure(result,task)bugs.append(bug_report)# 这里踩过坑只报告错误不报告警告# 后来加了代码质量检查quality_issuesself._code_review(code_files)forissueinquality_issues:ifissue[severity]in[CRITICAL,MAJOR]:bugs.append(issue)return{task_id:task[id],passed:len(bugs)0,bugs:bugs,coverage:self._calculate_coverage(code_files)}def_generate_test_cases(self,task:dict,code_files:list)-list:promptf 你是一个严格的测试工程师正在测试以下代码 任务描述{task[description]}验收标准{task[acceptance_criteria]}代码文件{self._read_code_files(code_files)}请生成测试用例重点关注 1. 正常路径Happy Path 2. 边界条件空值、最大值、最小值 3. 异常情况网络超时、数据库连接失败、权限不足 4. 并发场景如果适用 每个测试用例格式 {{ name: test_xxx, type: unit|integration|e2e, input: {{}}, expected_output: {{}}, setup: 前置条件, teardown: 清理操作 }} 至少生成5个测试用例其中至少2个是异常场景。 responseself.llm.chat.completions.create(modelgpt-4,messages[{role:user,content:prompt}],temperature0.5# 测试用例生成可以稍微高一点增加多样性)returnjson.loads(response.choices[0].message.content)关键点测试Agent必须能“自举”——自己生成测试用例自己执行自己报告。我见过最蠢的设计是测试Agent只调用pytest结果开发者没写测试测试Agent就报告“全部通过”。协作流程状态机 重试机制三个Agent不是并行跑的而是通过状态机串行部分并行。核心流程INIT - REQUIREMENT (PM) - DEVELOPMENT (Dev) - TESTING (Tester) - REVIEW (PMDevTester) - COMPLETED如果测试失败状态回退到DEVELOPMENT并带上缺陷报告。classCollaborationEngine:def__init__(self):self.pmPMAgent(llm_client)self.devDeveloperAgent(llm_client,/tmp/repo)self.testerTesterAgent(llm_client)self.max_retries3# 每个任务最多重试3次defexecute_project(self,user_request:str):task_idstr(uuid.uuid4())stateINITretry_count0whilestate!COMPLETED:ifstateINIT:# PM分析需求tasksself.pm.analyze_requirement(user_request)stateREQUIREMENTelifstateREQUIREMENT:# 按依赖顺序执行任务fortaskinself._topological_sort(tasks[tasks]):stateDEVELOPMENTbreakelifstateDEVELOPMENT:# 开发者实现resultself.dev.implement_task(current_task,{architecture_notes:tasks.get(architecture_notes)})stateTESTINGelifstateTESTING:# 测试者测试test_resultself.tester.test_task(current_task,result[files])iftest_result[passed]:stateREVIEWelse:retry_count1ifretry_countself.max_retries:# 这里踩过坑无限重试导致死循环# 超过重试次数标记为失败人工介入self._notify_human(fTask{current_task[id]}failed after{self.max_retries}retries)stateCOMPLETEDelse:# 把缺陷报告传给开发者self.dev.receive_bug_report(test_result[bugs])stateDEVELOPMENTelifstateREVIEW:# PM和测试者联合评审review_resultself._joint_review(current_task,result,test_result)ifreview_result[approved]:# 继续下一个任务stateself._next_task(tasks[tasks])else:stateDEVELOPMENTreturn{task_id:task_id,status:completed}注意状态机一定要有超时机制。我遇到过开发者Agent卡在“思考”状态半小时后来加了每个步骤的timeout超时后自动重试。踩坑记录这些错误我花了三天才定位消息丢失用Redis List做消息队列消费者挂了消息就丢了。换成Redis Stream Consumer Group配合ACK机制才解决。上下文污染开发者Agent的context_window如果不限制大小会越积越多最后token爆炸。我设了5个任务的窗口超过就丢弃最早的。测试用例重复测试者Agent每次测试都生成新的测试用例导致重复执行。后来加了测试用例缓存用任务ID代码hash作为key。PM过度拆分PM Agent把“实现登录”拆成了20个任务每个任务0.5小时。后来加了任务粒度约束最小2小时最大8小时。LLM幻觉开发者Agent经常“发明”不存在的API。解决方案是在prompt里明确说“只使用标准库和requirements.txt里列出的依赖”。性能优化别让Agent闲着多Agent协作最大的性能瓶颈是LLM调用。每个Agent调用一次LLM平均3-5秒一个项目下来可能上百次调用。优化方案# 异步调用别这样写串行调用一个卡住全卡住asyncdefexecute_task_async(self,task):pm_taskasyncio.create_task(self.pm.analyze_requirement_async(task))dev_taskasyncio.create_task(self.dev.implement_task_async(task))tester_taskasyncio.create_task(self.tester.test_task_async(task))# 并行执行不依赖的任务resultsawaitasyncio.gather(pm_task,dev_task,tester_task)returnresults另外缓存LLM响应。同样的prompt同样的输入结果应该一样。我用了Redis缓存TTL设24小时节省了约40%的API调用。个人经验别追求“全自动”留好人工接口这套系统跑了一个月成功率大概85%。剩下的15%包括PM拆任务不合理比如把“优化数据库”拆成“修改索引”和“重写查询”但两者强耦合开发者引入安全漏洞比如SQL注入测试者没测出来测试者漏测边界条件比如并发写入导致数据不一致我的建议多Agent协作系统一定要有“人工介入点”。我在每个关键节点都加了Webhook可以暂停、修改、回滚。比如PM拆完任务后会发到Slack让架构师审核测试发现CRITICAL缺陷时自动创建Jira工单。最后说句大实话多Agent协作不是银弹。如果你的需求是“写个Hello World”单Agent就够了。但如果你要构建一个需要多人协作的复杂系统这套架构能帮你把开发周期从两周缩短到两天——前提是你愿意花一周时间调prompt和修bug。下一篇我会写《Agent的长期记忆如何让Agent记住三个月前的代码逻辑》到时候聊聊向量数据库和知识图谱的坑。

相关文章:

# 040、实战项目五:多 Agent 协作系统 —— 项目经理、开发者、测试者角色模拟

从一次凌晨三点的事故说起 去年做智能客服系统重构,我犯了个低级错误——让单个Agent既写代码又自测。结果上线当天,它把“用户退款”的SQL写成了DELETE FROM orders WHERE status‘refund’,还自信满满地标注“测试通过”。凌晨三点被运维电…...

别再让电机乱跑了!用STM32CubeIDE配置TB6612驱动GB37-520电机,保姆级避坑指南

从零到精通的STM32电机控制实战:TB6612驱动GB37-520全流程解析 第一次尝试用STM32驱动电机时,我遇到了一个令人抓狂的现象——电机要么纹丝不动,要么突然疯狂旋转,甚至冒出可疑的青烟。这种经历在初学者中非常普遍,而…...

Obsidian 完整使用手册 — 目录与索引

Obsidian 完整使用手册 — 目录与索引 一份从入门到精通的 Obsidian 全面指南,涵盖基础操作、核心功能、插件生态、同步备份与进阶技巧。 手册列表 编号手册名称内容概要01基础入门篇软件安装、界面布局、库管理、核心设置02Markdown 语法篇格式化语法、扩展语法、…...

Vivado编译加速:Jobs与Threads参数配置实战指南

1. 项目概述:从一次编译卡顿说起那天下午,我正在赶一个FPGA项目的最后集成,Vivado里点下“Run Implementation”,进度条就像被冻住了一样,半天不动。电脑风扇倒是转得挺欢,可CPU占用率看着也就50%上下。我第…...

低代码平台推荐:零基础业务人员专属

在数字化转型加速的当下,低代码已成为打破IT资源瓶颈的关键抓手。本文专为零基础业务人员深度拆解零门槛低代码平台的选型逻辑与落地路径。通过7大核心问答,系统梳理从技能门槛、平台评估到架构融合的实战经验。据行业调研显示,采用成熟低代码…...

独立开发者如何通过 Taotoken Token Plan 套餐优化项目预算

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 独立开发者如何通过 Taotoken Token Plan 套餐优化项目预算 对于独立开发者或小型团队而言,在项目开发中引入大模型能力…...

米尔RK3562开发板深度评测:工业边缘AI网关的性价比之选

1. 项目概述:为什么关注米尔RK3562开发板?最近在给一个工业边缘计算项目选型,核心需求是在一个环境相对严苛的车间里,部署一个集成了视觉识别、多路传感器数据采集和本地轻量级推理的网关设备。性能不能太弱,否则处理不…...

不只是连线:深入理解模拟版图中电阻的‘Segment’与‘M’参数对实际阻值的影响

不只是连线:深入理解模拟版图中电阻的‘Segment’与‘M’参数对实际阻值的影响 在模拟集成电路设计中,电阻作为最基本的无源元件之一,其版图实现往往被初学者视为简单的金属连线问题。然而,当设计从原理图转向物理实现时&#xff…...

告别复制粘贴:如何在 Cursor / 各种 IDE 中丝滑接入本地 AI 模型?

引言:AI 编程时代的囚徒困境 2026 年,AI 编程助手已经像 Git 一样成为每个开发者的标配。Cursor 的订阅量持续暴涨,GitHub Copilot 的免费版已经吸引了上千万用户,JetBrains 全线 IDE 都深度集成了 AI Agent。但在这个表面繁荣的生态之下,每一位开发者都在不知不觉中交出…...

设计型vs工程型 宁波景区标识服务商怎么选不踩坑

宁波某4A景区标识升级踩坑案例:3类适配性问题汇总前段时间宁波一家本土4A自然景区完成标识系统升级,不料上线3个月就收到近百条游客投诉,运营方不得不二次招标重做,前后浪费近百万预算。复盘整个项目,核心暴露了3类行业…...

从通信系统设计视角:如何用Xilinx DDS Compiler v6.0高效搭建数字上变频(DUC)链路原型

基于Xilinx DDS Compiler v6.0的数字上变频链路设计与优化实战 在软件无线电(SDR)和雷达信号处理系统中,数字上变频(DUC)是实现基带信号到中频转换的核心环节。作为DUC链路中的本振信号发生器,Xilinx LogiC…...

Perplexity计算原理与业务落地脱节?——资深算法架构师亲授7步校准法,避免模型上线翻车

更多请点击: https://codechina.net 第一章:Perplexity的本质定义与数学直觉 Perplexity(困惑度)是衡量概率模型对未知序列预测能力的核心指标,其本质是交叉熵的指数形式,直观反映了模型在面对真实数据时的…...

手把手教你创建CST自定义材料:以吸波材料为例,导入厂家S参数曲线

手把手教你创建CST自定义材料:以吸波材料为例,导入厂家S参数曲线 在电磁仿真领域,材料参数的精确建模往往是决定仿真结果可靠性的关键因素。当我们需要模拟特殊频段的吸波材料、频率色散介质或各向异性材料时,仅依赖CST内置材料库…...

2026 年 AI 编程工具横评:Claude Code、Cursor、Copilot、Codex 谁才是真正的生产力?

爆款标题备选我把五个 AI 编程工具全装了一遍,只有一个让我想付费Claude Code vs Cursor vs Copilot:2026 开发者选型实战指南Copilot 的垄断结束了——2026 AI 编程工具真实横评花了一周用 AI 编程 Agent 写项目,最后留下了这一个AI 编程工具…...

手把手教你定制专属标注工具:基于Python3+Tkinter打造你的实体关系标注器

从零构建领域专用标注工具:Python3Tkinter实战指南 在自然语言处理项目中,高质量标注数据是模型效果的基石。当面对法律条文、医疗报告等专业领域时,通用标注工具往往难以满足特定实体关系和输出格式需求。本文将带你深入开发一个完全可控的实…...

除了连接模拟器,AppInventor开发者还应该知道的3个‘坑’:录音、短信模块与API调用限制

避开AppInventor开发中的三大隐形陷阱:录音、短信与API调用实战指南 当你成功连接AppInventor模拟器,准备大展拳脚开发应用时,可能会突然发现某些功能"神秘失效"——录音按钮点击无反应、短信发送模块形同虚设、API调用慢如蜗牛。这…...

vscode过滤文件

const fs require(fs); const { exec } require(child_process);// 在这里输入你的关键词,每行一个 const keywordsStr BV1wmXwBCEsZ BV1MR6wBREhY BV1DuoSYuEpX ; // // 将多行字符串按换行符分割,过滤掉空行 const keywords keywordsStr.trim()…...

百考通AI让开题报告成为研究助力,而非负担

开题报告是毕业论文或学位研究的“第一块基石”,它不仅决定你的选题能否通过,更直接影响后续研究的深度、逻辑与可行性。然而,许多学生在撰写时常常陷入困境:问题意识模糊、文献综述堆砌无主线、研究方法描述空泛、结构松散不规范…...

Linux用户与权限管理实战:从基础命令到SELinux/ACL高级应用

1. 项目概述:为什么用户管理是Linux系统的基石在Linux世界里,无论你是管理一台个人服务器,还是运维一个庞大的集群,用户和组的管理都是你绕不开的第一课。很多人觉得这无非就是useradd和passwd几个命令,但真正踩过坑的…...

校园网/内网服务器远程登录指南:frp + 云服务器实现 SSH 穿透

内网本地算力服务器如何通过 frp 实现任意电脑 SSH 访问 适用场景:实验室、校园网、公司内网、家庭宽带等环境下,本地 GPU/算力服务器没有公网 IP,外部电脑无法直接 SSH 登录。本文介绍如何借助一台有公网 IP 的云服务器,使用 frp…...

快速完成一篇重复率和AI率都很低的英文论文!(亲测有效)

写英文论文对于很多同学来说比较困难,今天给大家分享一下如何快速完成一篇英文论文。 直接说操作方法: 一、打开任何一个AI工具,输入指令:我是英文专业的毕业生,我的论文题目是《XXXX》,论文正文8000字&a…...

基于AVR单片机的无线图像侦检系统:从硬件选型到软件实现

1. 项目概述与核心价值最近在整理过去的项目资料,翻到了一个挺有意思的老项目——基于Atmel AVR单片机的无线图像侦检系统。虽然现在STM32、ESP32满天飞,各种高性能MCU和无线模块层出不穷,但这个项目在当年(以及现在某些特定场景下…...

突破Windows资源管理器性能瓶颈:智能缩略图预加载解决方案

突破Windows资源管理器性能瓶颈:智能缩略图预加载解决方案 【免费下载链接】WinThumbsPreloader-V2 WinThumbsPreloader is a powerful open source tool for quickly preloading thumbnails in Windows Explorer. 项目地址: https://gitcode.com/gh_mirrors/wi/W…...

Webhook测试工具终极对决:开源自建与云端托管的决策指南

Webhook测试工具终极对决:开源自建与云端托管的决策指南 【免费下载链接】webhook.site ⚓️ Easily test HTTP webhooks with this handy tool that displays requests instantly. 项目地址: https://gitcode.com/gh_mirrors/we/webhook.site 在当今API驱动…...

MifareOneTool完全指南:零基础掌握Windows最强NFC卡片管理工具

MifareOneTool完全指南:零基础掌握Windows最强NFC卡片管理工具 【免费下载链接】MifareOneTool A GUI Mifare Classic tool on Windows(停工/最新版v1.7.0) 项目地址: https://gitcode.com/gh_mirrors/mi/MifareOneTool 你是否曾经面对…...

联想笔记本BIOS隐藏设置终极解锁指南:3步开启高级功能

联想笔记本BIOS隐藏设置终极解锁指南:3步开启高级功能 【免费下载链接】LEGION_Y7000Series_Insyde_Advanced_Settings_Tools 支持一键修改 Insyde BIOS 隐藏选项的小工具,例如关闭CFG LOCK、修改DVMT等等 项目地址: https://gitcode.com/gh_mirrors/l…...

终极全面战争模组制作指南:RPFM开源编辑器完全教程

终极全面战争模组制作指南:RPFM开源编辑器完全教程 【免费下载链接】rpfm Rusted PackFile Manager (RPFM) is a... reimplementation in Rust and Qt6 of PackFile Manager (PFM), one of the best modding tools for Total War Games. 项目地址: https://gitcod…...

Tina Linux嵌入式系统开发实战:从SDK结构到应用部署全解析

1. 项目概述:从零开始理解 Tina Linux 系统开发如果你正在为一个嵌入式设备寻找一个稳定、开源且高度可定制的操作系统,那么 Tina Linux 很可能已经进入了你的视野。它不是一个凭空出现的全新系统,而是基于 OpenWrt 和 Linux 内核深度定制而来…...

Java 数组

Java 数组详细教程数组是 Java 中一种基本且重要的数据结构,用于存储固定大小的同类型元素的集合。所有元素在内存中是连续存储的,可以通过索引(下标)快速访问。1. 数组的基本概念元素: 数组中存储的每一个数据项。长度…...

手把手教你用MATLAB图形放大法找方程根:从画图到定位,解决迭代法初值难题

手把手教你用MATLAB图形放大法找方程根:从画图到定位,解决迭代法初值难题 在数值计算的世界里,寻找方程的根就像在黑暗森林中探险——没有地图的指引,盲目选择起点可能导致算法陷入无限循环或收敛到错误解。而MATLAB的图形放大法&…...