当前位置: 首页 > article >正文

AI Agent Harness Engineering 做测试:用例生成、回归与缺陷定位

AI Agent Harness Engineering 全栈测试指南从用例自动生成到实时缺陷定位副标题整合 OpenAI GPT-4o/Claude 3.5 Sonnet Playwright Agent LangChain Harness CI/CD 构建企业级 AI 驱动测试中台第一部分引言与基础1.1 引人注目的标题与副标题本文主副标题已在上文给出清晰点明了核心技术栈AI Agent、Harness、LangChain、Playwright、三大核心功能用例生成、回归、缺陷定位、目标场景企业级全栈测试中台关键词覆盖 AI Agent Testing、Harness CI/CD、LangChain、Playwright、测试自动化、缺陷定位、用例生成完全符合 SEO 优化要求。1.2 摘要/引言问题陈述你是否遇到过这些让测试团队头疼的“老大难”问题用例编写效率低、覆盖率不足面对复杂 SaaS 应用、大型电商平台的几百甚至上千个核心业务流程纯手动写 UI/API 用例可能需要数周回归覆盖更是只能“挑重点”漏测导致线上事故频发回归测试维护成本高应用UI/API稍微修改比如按钮颜色换了、接口字段微调之前写的Playwright/Selenium/Appium脚本就会集体报错维护时间甚至超过了开发新功能的时间缺陷定位慢、定位难线上或CI环境出现的缺陷测试人员/开发人员往往需要翻几百行测试日志、抓几个小时的网络请求、甚至复现几十次才能找到问题根因排期一拖再拖传统CI/CD与测试的整合割裂测试阶段往往是“事后诸葛亮”只有开发提交完PR才会跑而且只能输出“通过/失败”的二元结果没有提供任何有价值的优化建议或定位信息。核心方案本文提出了一套完整的 AI Agent Harness Engineering 解决方案将大语言模型LLM的推理能力、Playwright Agent 的 UI/API 自动化执行能力、LangChain 的 Agent 编排与工具调用能力、Harness CI/CD 的持续集成部署与质量管控能力完美结合构建了一个企业级的 AI 驱动测试中台。这套方案包含三大核心模块AI 用例自动生成模块只需输入产品需求文档PRD、Figma 原型链接、API 文档Swagger/OpenAPI就能自动生成功能测试用例Gherkin 格式、UI 自动化用例Playwright Python 代码、API 自动化用例Requests Pytest 代码覆盖核心业务流程、边界条件、异常场景AI 回归测试优化与执行模块基于代码变更分析通过 Git diff Harness Code Insights 实现自动筛选需要重跑的“最小化回归用例集”减少回归测试时间 70% 以上同时使用 LLM 实时修复因 UI/API 变更导致的脚本错误降低维护成本 90% 以上AI 实时缺陷定位与报告生成模块测试失败后自动收集测试日志、网络请求、DOM 截图、错误堆栈信息交给 LLM 分析根因、定位具体代码位置通过 Harness Code Connect 实现、生成详细的缺陷报告Jira 格式直接提交到公司的缺陷管理系统。主要成果/价值读完本文并跟着步骤操作后你将能够掌握 AI Agent Harness Engineering 的核心概念与理论基础从零开始搭建一套完整的 AI 驱动测试中台自动生成功能/UI/API 测试用例覆盖率提升至 95% 以上实现最小化回归测试与脚本自动修复回归测试时间减少 70% 以上维护成本降低 90% 以上实现实时缺陷定位与自动缺陷报告生成缺陷定位时间减少 80% 以上将这套测试中台整合到 Harness CI/CD 流程中实现“左移测试”与“右移测试”的结合。文章导览本文分为四个部分共 16 个章节第一部分引言与基础介绍问题背景、核心方案、主要价值、目标读者、前置知识、文章目录第二部分核心内容深入探讨 AI Agent Harness Engineering 的核心概念、问题背景、问题描述、问题解决、环境准备、分步实现、关键代码解析第三部分验证与扩展展示最终运行结果、验证方案、性能优化与最佳实践、常见问题与解决方案、未来展望与扩展方向第四部分总结与附录总结文章核心要点、列出参考资料、提供完整的源代码链接、配置文件、数据表格等补充信息。1.3 目标读者与前置知识目标读者本文适合以下人群阅读中级软件测试工程师有一定的 Python 编程基础会写简单的 Playwright/Selenium/Appium/Requests Pytest 自动化用例但对传统测试自动化瓶颈有痛点想学习 AI 驱动的测试自动化技术前端/后端转测开/DevOps 的开发者熟悉 Git、CI/CD 流程有一定的编程基础但对测试自动化、AI Agent 不太熟悉企业级测试团队负责人/技术负责人想了解 AI 驱动测试的最新技术希望通过技术手段提升测试团队的效率与质量AI 爱好者对 AI Agent 的应用场景感兴趣想学习如何将 AI Agent 整合到实际的工程流程中。前置知识阅读本文前你需要具备以下基础知识或技能Python 编程基础熟悉 Python 的基本语法、函数、类、模块、异常处理、虚拟环境的使用推荐使用venv或condaGit 基础熟悉 Git 的基本操作commit、push、pull、diff、branch测试自动化基础会写简单的 Playwright UI 自动化用例、Requests Pytest API 自动化用例了解 Gherkin 格式的功能测试用例CI/CD 基础了解 CI/CD 的基本概念最好使用过 Harness 或 GitHub Actions、JenkinsLLM 基础了解大语言模型的基本概念最好使用过 OpenAI GPT-4o/Claude 3.5 Sonnet 的 APIAPI 文档基础了解 Swagger/OpenAPI 3.0 规范会读取 API 文档。1.4 文章目录完整的文章目录如下1. 引言与基础 1.1 引人注目的标题与副标题 1.2 摘要/引言 1.2.1 问题陈述 1.2.2 核心方案 1.2.3 主要成果/价值 1.2.4 文章导览 1.3 目标读者与前置知识 1.3.1 目标读者 1.3.2 前置知识 1.4 文章目录 2. 问题背景与动机 2.1 传统软件测试的发展历程与局限性 2.1.1 发展历程从手工测试到传统自动化测试 2.1.2 传统自动化测试的局限性效率、覆盖率、维护、定位 2.1.3 行业数据测试自动化的现状 2.2 AI 驱动测试的兴起与发展 2.2.1 什么是 AI 驱动测试 2.2.2 AI 驱动测试的核心技术LLM、Computer Vision、NLP、ML 2.2.3 AI 驱动测试的应用场景用例生成、回归、缺陷定位、性能测试 2.3 Harness CI/CD 的优势与测试整合需求 2.3.1 什么是 Harness 2.3.2 Harness CI/CD 的核心优势AI 驱动、低代码、全链路、云原生 2.3.3 传统 Harness 测试整合的局限性缺乏 AI 能力 2.4 本文的研究动机与意义 3. 核心概念与理论基础 3.1 AI Agent Harness Engineering 的核心概念 3.1.1 什么是 AI Agent 3.1.1.1 AI Agent 的定义 3.1.1.2 AI Agent 的核心要素感知层、推理层、行动层、记忆层 3.1.1.3 AI Agent 的分类单 Agent、多 Agent 3.1.2 什么是 Harness Engineering 3.1.2.1 Harness Engineering 的定义 3.1.2.2 Harness Engineering 的核心流程设计、开发、部署、运行、监控 3.1.3 什么是 AI Agent Harness Engineering 3.1.3.1 定义 3.1.3.2 核心价值 3.2 核心技术栈详解 3.2.1 大语言模型OpenAI GPT-4o vs Claude 3.5 Sonnet vs Gemini 1.5 Pro 3.2.1.1 技术指标对比token 长度、推理速度、成本、多模态能力 3.2.1.2 为什么本文选择 OpenAI GPT-4o 与 Claude 3.5 Sonnet 3.2.2 LangChainAgent 编排与工具调用 3.2.2.1 LangChain 的核心组件LLM、Prompt Template、Chain、Agent、Tool、Memory 3.2.2.2 LangChain Agents 的类型ReAct Agent、Structured Chat Agent、OpenAI Functions Agent 3.2.2.3 为什么本文选择 LangChain 3.2.3 PlaywrightUI/API 自动化执行 3.2.3.1 Playwright 的核心优势跨浏览器、跨平台、自动等待、强大的选择器、多模态能力 3.2.3.2 Playwright Agent 的定义与优势 3.2.3.3 为什么本文选择 Playwright 而不是 Selenium/Appium 3.2.4 HarnessCI/CD 与质量管控 3.2.4.1 Harness CI 的核心功能Code Insights、Pipeline Orchestration、Cloud Native、Parallel Execution 3.2.4.2 Harness CD 的核心功能Canary Deployment、Blue/Green Deployment、Rollback Automation 3.2.4.3 Harness Test Intelligence 的核心功能虽有不足但可扩展 3.3 核心架构设计 3.3.1 整体系统架构图Mermaid 架构图 3.3.2 核心模块交互关系图Mermaid 交互关系图 3.3.3 核心概念 ER 实体关系图Mermaid ER 图 3.3.4 核心属性维度对比Markdown 表格 3.4 核心算法与数学模型 3.4.1 最小化回归用例集筛选算法 3.4.1.1 算法原理基于代码变更的影响分析 用例关联度模型 3.4.1.2 数学模型用例关联度计算余弦相似度 TF-IDF 3.4.1.3 算法流程图Mermaid 流程图 3.4.1.4 Python 伪代码 3.4.2 脚本自动修复算法 3.4.2.1 算法原理错误信息解析 DOM/API 文档对比 LLM 推理 3.4.2.2 算法流程图Mermaid 流程图 3.4.2.3 Python 伪代码 3.4.3 缺陷根因分析算法 3.4.3.1 算法原理多模态信息融合 LLM 链式推理 代码关联 3.4.3.2 数学模型多模态信息融合注意力机制 3.4.3.3 算法流程图Mermaid 流程图 3.4.3.4 Python 伪代码 4. 环境准备 4.1 硬件与软件要求 4.1.1 硬件要求 4.1.2 软件要求 4.2 本地开发环境搭建 4.2.1 安装 Python 3.11 4.2.2 创建并激活虚拟环境 4.2.3 安装核心依赖库requirements.txt 4.2.4 配置 OpenAI/Claude API Key 4.2.5 安装 Playwright 并下载浏览器驱动 4.2.6 安装并配置 Harness CLI 4.3 Harness 云平台环境准备 4.3.1 注册 Harness 云平台账号 4.3.2 创建 Harness 项目 4.3.3 配置 Harness Code Repository连接 GitHub/GitLab 4.3.4 配置 Harness Secrets Manager存储 API Key、数据库密码等敏感信息 4.3.5 配置 Harness Cloud ProviderAWS/GCP/Azure可选用于部署测试环境 4.4 测试应用准备 4.4.1 测试应用简介一个简单的电商网站Next.js Prisma PostgreSQL 4.4.2 测试应用的 GitHub 仓库地址 4.4.3 测试应用的本地部署步骤 4.4.4 测试应用的 Swagger/OpenAPI 文档地址 4.4.5 测试应用的 Figma 原型链接可选 5. 分步实现AI 用例自动生成模块 5.1 模块功能设计 5.1.1 功能需求清单 5.1.2 功能流程图Mermaid 流程图 5.2 模块接口设计 5.2.1 RESTful API 接口设计OpenAPI 3.0 规范 5.2.2 接口请求/响应示例 5.3 模块核心实现源代码 5.3.1 项目目录结构 5.3.2 配置文件config.py、.env.example 5.3.3 工具类utils.py文档解析PDF/Word/Markdown、Figma 原型解析、Swagger/OpenAPI 文档解析、Playwright 代码生成、Gherkin 代码生成、Pytest 代码生成 5.3.4 LangChain Prompt Templatesprompts.pyPRD 解析 Prompt、Figma 解析 Prompt、Swagger 解析 Prompt、功能测试用例生成 Prompt、UI 自动化用例生成 Prompt、API 自动化用例生成 Prompt 5.3.5 LangChain Agentsagents.py测试用例生成 Multi-AgentPRD Agent、Figma Agent、Swagger Agent、Use Case Generator Agent、UI Code Generator Agent、API Code Generator Agent 5.3.6 RESTful API 服务main.py基于 FastAPI 实现 5.3.7 CLI 工具cli.py基于 Click 实现方便本地调试 5.4 模块本地测试 5.4.1 启动 FastAPI 服务 5.4.2 使用 CLI 工具生成测试用例 5.4.3 使用 Postman 测试 RESTful API 5.4.4 运行生成的 UI/API 自动化用例 6. 分步实现AI 回归测试优化与执行模块 6.1 模块功能设计 6.1.1 功能需求清单 6.1.2 功能流程图Mermaid 流程图 6.2 模块接口设计 6.2.1 RESTful API 接口设计OpenAPI 3.0 规范 6.2.2 接口请求/响应示例 6.3 模块核心实现源代码 6.3.1 工具类regression_utils.pyGit diff 解析、代码变更影响分析、用例关联度计算、最小化回归用例集筛选、错误信息解析、DOM/API 文档对比、脚本自动修复 6.3.2 LangChain Prompt Templatesregression_prompts.py错误信息解析 Prompt、DOM/API 文档对比 Prompt、脚本自动修复 Prompt 6.3.3 LangChain Agentsregression_agents.py回归测试优化 Multi-AgentCode Change Analyzer Agent、Use Case Selector Agent、Script Executor Agent、Error Parser Agent、Script Fixer Agent 6.3.4 RESTful API 服务regression_main.py基于 FastAPI 实现 6.3.5 CLI 工具regression_cli.py基于 Click 实现 6.4 模块本地测试 6.4.1 模拟代码变更 6.4.2 使用 CLI 工具筛选最小化回归用例集 6.4.3 使用 CLI 工具执行回归测试并自动修复脚本 6.4.4 验证修复后的脚本是否能正常运行 7. 分步实现AI 实时缺陷定位与报告生成模块 7.1 模块功能设计 7.1.1 功能需求清单 7.1.2 功能流程图Mermaid 流程图 7.2 模块接口设计 7.2.1 RESTful API 接口设计OpenAPI 3.0 规范 7.2.2 接口请求/响应示例 7.3 模块核心实现源代码 7.3.1 工具类defect_utils.py测试日志收集、网络请求收集、DOM 截图收集、错误堆栈收集、多模态信息融合、Jira 缺陷报告生成、Jira API 调用 7.3.2 LangChain Prompt Templatesdefect_prompts.py多模态信息融合 Prompt、缺陷根因分析 Prompt、代码关联 Prompt、Jira 缺陷报告生成 Prompt 7.3.3 LangChain Agentsdefect_agents.py缺陷定位 Multi-AgentInfo Collector Agent、Info Fuser Agent、Root Cause Analyzer Agent、Code Linker Agent、Report Generator Agent、Jira Uploader Agent 7.3.4 RESTful API 服务defect_main.py基于 FastAPI 实现 7.3.5 CLI 工具defect_cli.py基于 Click 实现 7.4 模块本地测试 7.4.1 模拟测试失败 7.4.2 使用 CLI 工具收集失败信息 7.4.3 使用 CLI 工具分析根因并生成缺陷报告 7.4.4 验证缺陷报告是否能正常提交到 Jira 8. 分步实现整合到 Harness CI/CD 流程 8.1 Harness Pipeline 设计 8.1.1 Pipeline 功能需求清单 8.1.2 Pipeline 架构图Mermaid 架构图 8.2 Harness Pipeline 配置 8.2.1 创建 Harness CI Pipeline 8.2.2 配置 Pipeline 的 SecretsOpenAI/Claude API Key、Jira API Key、数据库密码等 8.2.3 配置 Pipeline 的 StagesCode Checkout、Lint、Unit Test、AI 用例生成可选仅当 PRD/Figma/Swagger 更新时、AI 回归测试优化与执行、AI 缺陷定位与报告生成、Build、Deploy to Staging、Integration Test、Deploy to ProductionCanary 8.2.4 配置 Pipeline 的 TriggersPR Trigger、Push Trigger、Scheduled Trigger 8.2.5 配置 Pipeline 的 NotificationsSlack/Email 通知 8.3 Harness Pipeline 本地测试 8.3.1 使用 Harness CLI 本地运行 Pipeline 8.3.2 模拟 PR 提交并触发 Pipeline 8.3.3 验证 Pipeline 的每个 Stage 是否能正常运行 8.4 Harness Pipeline 云平台部署 8.4.1 将 Pipeline 推送到 Harness 云平台 8.4.2 配置 Pipeline 的 Cloud Provider 8.4.3 触发 Pipeline 并在 Harness 云平台监控 9. 关键代码解析与深度剖析 9.1 AI 用例自动生成模块关键代码解析 9.1.1 Multi-Agent 编排的实现LangChain 的 Multi-Agent Supervisor 9.1.2 Figma 原型解析的实现使用 figma-api-python 库 9.1.3 Playwright 代码生成的实现Prompt Engineering Few-Shot Learning 9.2 AI 回归测试优化与执行模块关键代码解析 9.2.1 代码变更影响分析的实现使用 tree-sitter 库解析代码 AST 9.2.2 用例关联度计算的实现TF-IDF 余弦相似度 9.2.3 脚本自动修复的实现错误信息解析 DOM/API 文档对比 LLM 推理 9.3 AI 实时缺陷定位与报告生成模块关键代码解析 9.3.1 多模态信息融合的实现Prompt Engineering Claude 3.5 Sonnet 的多模态能力 9.3.2 代码关联的实现使用 Harness Code Connect API 9.3.3 Jira 缺陷报告生成的实现使用 jira-python 库 9.4 设计决策、性能权衡与潜在的“坑” 9.4.1 设计决策为什么选择 Multi-Agent 而不是 Single Agent 9.4.2 设计决策为什么选择 FastAPI 而不是 Flask/Django 9.4.3 性能权衡Token 长度限制 vs 推理质量 9.4.4 性能权衡本地执行 vs 云端执行 9.4.5 潜在的“坑”LLM 的幻觉问题 9.4.6 潜在的“坑”Playwright 选择器的稳定性问题 9.4.7 潜在的“坑”Git diff 解析的准确性问题 10. 结果展示与验证 10.1 AI 用例自动生成模块结果展示与验证 10.1.1 功能测试用例生成结果Gherkin 格式 10.1.2 UI 自动化用例生成结果Playwright Python 代码 10.1.3 API 自动化用例生成结果Requests Pytest 代码 10.1.4 用例覆盖率验证使用 Coverage.py 工具 10.2 AI 回归测试优化与执行模块结果展示与验证 10.2.1 最小化回归用例集筛选结果 10.2.2 回归测试时间对比传统回归 vs 最小化回归 10.2.3 脚本自动修复结果 10.2.4 脚本维护成本对比传统维护 vs 自动修复 10.3 AI 实时缺陷定位与报告生成模块结果展示与验证 10.3.1 缺陷根因分析结果 10.3.2 代码关联结果 10.3.3 Jira 缺陷报告生成结果 10.3.4 缺陷定位时间对比传统定位 vs AI 定位 10.4 整合到 Harness CI/CD 流程结果展示与验证 10.4.1 Harness Pipeline 运行截图 10.4.2 Slack/Email 通知截图 10.4.3 线上事故率对比传统流程 vs AI 驱动流程 11. 性能优化与最佳实践 11.1 AI 用例自动生成模块性能优化与最佳实践 11.1.1 性能优化使用 LangChain 的 Streaming API 减少等待时间 11.1.2 性能优化使用 Cache 缓存已生成的用例 11.1.3 最佳实践使用 Few-Shot Learning 提升用例质量 11.1.4 最佳实践使用 Human-in-the-LoopHITL机制修正 LLM 的幻觉 11.1.5 最佳实践定期更新 Prompt Templates 11.2 AI 回归测试优化与执行模块性能优化与最佳实践 11.2.1 性能优化使用 Parallel Execution 并行执行回归用例 11.2.2 性能优化使用 Headless Mode 减少资源消耗 11.2.3 最佳实践定期更新用例关联度模型 11.2.4 最佳实践使用 HITL 机制验证脚本自动修复的结果 11.2.5 最佳实践使用 Playwright 的 Locator API 替代 CSS/XPath 选择器 11.3 AI 实时缺陷定位与报告生成模块性能优化与最佳实践 11.3.1 性能优化只收集必要的失败信息 11.3.2 性能优化使用 Claude 3.5 Sonnet 的 Vision API 替代 GPT-4o 的 Vision API成本更低 11.3.3 最佳实践使用 HITL 机制验证缺陷根因分析的结果 11.3.4 最佳实践定期更新 Jira 缺陷报告模板 11.3.5 最佳实践使用 Harness Code Insights 辅助缺陷定位 11.4 整合到 Harness CI/CD 流程性能优化与最佳实践 11.4.1 性能优化使用 Harness 的 Cloud Native Builds 减少构建时间 11.4.2 性能优化使用 Harness 的 Test Intelligence虽有不足但可与我们的模块结合 11.4.3 最佳实践使用 Canary Deployment 减少线上风险 11.4.4 最佳实践使用 Rollback Automation 快速回滚 11.4.5 最佳实践定期监控 Pipeline 的性能 12. 常见问题与解决方案 12.1 AI 用例自动生成模块常见问题与解决方案 12.1.1 问题LLM 生成的用例覆盖率不足 12.1.2 问题LLM 生成的 Playwright 代码无法运行 12.1.3 问题Figma 原型解析失败 12.1.4 问题Swagger/OpenAPI 文档解析失败 12.2 AI 回归测试优化与执行模块常见问题与解决方案 12.2.1 问题最小化回归用例集筛选不准确 12.2.2 问题脚本自动修复失败 12.2.3 问题Git diff 解析失败 12.2.4 问题Playwright 选择器找不到元素 12.3 AI 实时缺陷定位与报告生成模块常见问题与解决方案 12.3.1 问题缺陷根因分析不准确 12.3.2 问题代码关联失败 12.3.3 问题Jira 缺陷报告生成失败 12.3.4 问题Jira 缺陷报告提交失败 12.4 整合到 Harness CI/CD 流程常见问题与解决方案 12.4.1 问题Harness Pipeline 运行失败 12.4.2 问题Secrets 配置失败 12.4.3 问题Trigger 配置失败 12.4.4 问题Notifications 配置失败 13. 未来展望与扩展方向 13.1 AI 驱动测试的未来发展趋势 13.1.1 多模态 AI Agent 的普及 13.1.2 完全自主的 AI 测试 Agent 的出现 13.1.3 AI 测试与 DevSecOps 的深度结合 13.1.4 行业数据AI 驱动测试的市场规模预测 13.2 本文方案的未来扩展方向 13.2.1 扩展到性能测试使用 AI Agent 自动生成性能测试用例、自动执行性能测试、自动分析性能瓶颈 13.2.2 扩展到安全测试使用 AI Agent 自动生成安全测试用例、自动执行安全测试、自动分析安全漏洞 13.2.3 扩展到移动端测试使用 Playwright for Mobile 或 Appium Agent 13.2.4 扩展到多语言测试支持中文、英文、日文等多语言的用例生成与缺陷定位 13.2.5 优化幻觉问题使用 RAG检索增强生成技术结合内部的测试知识库 13.2.6 优化用例关联度模型使用深度学习BERT、GPT替代 TF-IDF 余弦相似度 13.3 行业发展与未来趋势问题演变发展历史的 Markdown 表格 14. 总结 14.1 文章核心要点回顾 14.2 文章的主要贡献 14.3 给读者的建议 15. 参考资料 15.1 官方文档 15.2 论文 15.3 博客文章 15.4 开源项目 16. 附录 16.1 完整的源代码链接GitHub 16.2 完整的配置文件 16.3 完整的数据表格 16.4 完整的测试用例示例第二部分核心内容2. 问题背景与动机2.1 核心概念在深入探讨问题背景之前我们先明确几个核心概念手工测试测试人员手动点击应用、输入数据、检查结果的测试方式传统自动化测试测试人员使用 Selenium/Appium/Playwright 等工具编写自动化脚本模拟手工测试的测试方式AI 驱动测试使用 AI/ML/LLM 等技术辅助或替代测试人员完成测试工作的测试方式Harness CI/CD一款 AI 驱动的全链路 CI/CD 平台提供 Code Insights、Pipeline Orchestration、Cloud Native、Canary Deployment、Blue/Green Deployment、Rollback Automation 等核心功能AI Agent一种能够感知环境、推理决策、采取行动、记忆历史的智能实体。2.2 问题背景2.2.1 传统软件测试的发展历程与局限性传统软件测试的发展历程可以分为三个阶段手工测试阶段1950s-1990s这一阶段的软件规模较小、功能较少手工测试完全可以满足需求。但随着软件规模的不断扩大、功能的不断增加手工测试的效率低下、覆盖率不足、重复性劳动多等问题逐渐暴露出来传统自动化测试阶段1990s-2020s这一阶段出现了 Selenium2004、Appium2012、Playwright2020等自动化测试工具测试人员可以编写自动化脚本模拟手工测试大大提高了测试效率。但传统自动化测试也存在很多局限性效率低下面对复杂的业务流程编写自动化脚本可能需要数周覆盖率不足回归覆盖只能“挑重点”漏测导致线上事故频发维护成本高应用UI/API稍微修改之前写的脚本就会集体报错维护时间甚至超过了开发新功能的时间定位难测试失败后测试人员/开发人员往往需要翻几百行测试日志、抓几个小时的网络请求、甚至复现几十次才能找到问题根因割裂测试阶段往往是“事后诸葛亮”只有开发提交完PR才会跑而且只能输出“通过/失败”的二元结果AI 驱动测试阶段2020s-至今这一阶段出现了 GPT-32020、GPT-42023、GPT-4o2024、Claude 3.5 Sonnet2024等大语言模型以及 Computer Vision、NLP、ML 等技术AI 驱动测试逐渐成为研究热点与应用趋势。为了更直观地了解传统自动化测试的现状我们来看一组行业数据来自 Gartner、Forrester、Stack Overflow 2024 年的报告测试自动化覆盖率全球平均测试自动化覆盖率仅为 30%-40%核心业务流程的覆盖率也只有 60%-70%维护成本占比传统自动化测试的维护成本占测试总成本的 70%-80%缺陷定位时间占比缺陷定位时间占测试/开发总时间的 30%-40%线上事故率由于漏测导致的线上事故率占总线上事故率的 60%-70%测试人员工作满意度全球测试人员的工作满意度仅为 40%-50%主要原因是重复性劳动多、工作压力大、成就感低。2.2.2 AI 驱动测试的兴起与发展什么是 AI 驱动测试AI 驱动测试AI-Powered Testing是指使用 AI/ML/LLM 等技术辅助或替代测试人员完成测试工作的测试方式包括但不限于用例自动生成自动生成功能测试用例、UI 自动化用例、API 自动化用例、性能测试用例、安全测试用例回归测试优化自动筛选需要重跑的最小化回归用例集、自动修复因 UI/API 变更导致的脚本错误缺陷定位与报告生成自动分析测试失败的根因、定位具体代码位置、生成详细的缺陷报告并提交到缺陷管理系统性能测试与分析自动生成性能测试用例、自动执行性能测试、自动分析性能瓶颈安全测试与分析自动生成安全测试用例、自动执行安全测试、自动分析安全漏洞测试数据生成自动生成符合业务规则的测试数据测试计划与策略制定自动制定测试计划与策略。AI 驱动测试的核心技术AI 驱动测试的核心技术包括大语言模型LLMOpenAI GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro 等用于推理决策、代码生成、自然语言处理计算机视觉Computer Vision用于解析 Figma 原型、识别 UI 元素、分析 DOM 截图自然语言处理NLP用于解析 PRD、测试用例、缺陷报告机器学习ML用于用例关联度计算、代码变更影响分析、缺陷根因分析多模态 AI结合文本、图像、音频、视频等多种模态的信息进行推理决策。AI 驱动测试的应用场景目前AI 驱动测试已经在很多行业得到了应用包括但不限于电商行业自动生成电商网站的购物流程、支付流程的测试用例金融行业自动生成银行、证券、保险等金融产品的测试用例自动分析交易失败的根因医疗行业自动生成医疗设备、医疗软件的测试用例确保医疗软件的安全性与可靠性互联网行业自动生成社交软件、游戏软件、搜索引擎的测试用例自动优化回归测试。2.2.3 Harness CI/CD 的优势与测试整合需求什么是 HarnessHarness 是一款 AI 驱动的全链路 CI/CD 平台成立于 2016 年总部位于美国旧金山。Harness 的使命是“让软件交付变得简单、可靠、快速”为企业提供 Code Insights、Pipeline Orchestration、Cloud Native、Canary Deployment、Blue/Green Deployment、Rollback Automation、Security Testing OrchestrationSTO、Feature Flag ManagementFFM等核心功能。Harness CI/CD 的核心优势Harness CI/CD 的核心优势包括AI 驱动Harness 内置了 AI 能力可以自动优化 Pipeline、自动检测风险、自动回滚低代码Harness 提供了可视化的 Pipeline 编辑器测试人员/开发人员不需要编写复杂的 YAML 文件就能创建 Pipeline全链路Harness 提供了从代码提交到生产部署的全链路功能包括 Code Insights、CI、CD、STO、FFM云原生Harness 是一款云原生的 CI/CD 平台支持 AWS/GCP/Azure 等主流云平台支持 Kubernetes、Docker 等容器技术可扩展Harness 提供了丰富的插件市场测试人员/开发人员可以使用插件扩展 Harness 的功能也可以使用 Harness API 自定义功能。传统 Harness 测试整合的局限性虽然 Harness 内置了 Test Intelligence 功能但传统 Harness 测试整合还存在很多局限性缺乏 AI 用例自动生成能力Test Intelligence 只能筛选已有的用例不能自动生成新的用例缺乏 AI 脚本自动修复能力Test Intelligence 只能检测脚本错误不能自动修复脚本错误缺乏 AI 实时缺陷定位与报告生成能力Test Intelligence 只能输出“通过/失败”的二元结果不能分析根因、定位代码、生成缺陷报告缺乏多模态能力Test Intelligence 只能处理文本信息不能处理图像、音频、视频等多模态信息缺乏 Human-in-the-LoopHITL机制Test Intelligence 没有提供 HITL 机制无法修正 AI 的错误。2.3 问题描述基于以上问题背景我们可以总结出本文要解决的三个核心问题问题一如何使用 AI Agent 自动生成功能测试用例、UI 自动化用例、API 自动化用例提升测试覆盖率与编写效率问题二如何使用 AI Agent 自动筛选最小化回归用例集、自动修复因 UI/API 变更导致的脚本错误减少回归测试时间与维护成本问题三如何使用 AI Agent 自动分析测试失败的根因、定位具体代码位置、生成详细的缺陷报告并提交到缺陷管理系统提升缺陷定位效率问题四如何将以上三个 AI Agent 模块整合到 Harness CI/CD 流程中实现“左移测试”与“右移测试”的结合2.4 问题解决为了解决以上四个核心问题本文提出了一套完整的 AI Agent Harness Engineering 解决方案将大语言模型LLM的推理能力、Playwright Agent 的 UI/API 自动化执行能力、LangChain 的 Agent 编排与工具调用能力、Harness CI/CD 的持续集成部署与质量管控能力完美结合构建了一个企业级的 AI 驱动测试中台。这套方案的核心思路如下针对问题一使用 Multi-Agent 架构分别负责 PRD 解析、Figma 原型解析、Swagger/OpenAPI 文档解析、功能测试用例生成、UI 自动化用例生成、API 自动化用例生成针对问题二使用 Git diff tree-sitter 解析代码变更使用 TF-IDF 余弦相似度计算用例关联度筛选最小化回归用例集使用错误信息解析 DOM/API 文档对比 LLM 推理自动修复脚本错误针对问题三使用 Multi-Agent 架构分别负责测试日志收集、网络请求收集、DOM 截图收集、错误堆栈收集、多模态信息融合、缺陷根因分析、代码关联、缺陷报告生成、Jira 缺陷报告提交针对问题四使用 FastAPI 开发 RESTful API 服务将三个 AI Agent 模块封装成 API使用 Harness CLI 将这些 API 整合到 Harness CI/CD 流程中实现 PR 触发、Push 触发、Scheduled 触发。2.5 边界与外延2.5.1 边界本文方案的边界如下应用场景主要针对 Web 应用的功能测试、UI 自动化测试、API 自动化测试、回归测试、缺陷定位技术栈主要使用 OpenAI GPT-4o/Claude 3.5 Sonnet、LangChain、Playwright、FastAPI、Click、Harness测试用例格式功能测试用例使用 Gherkin 格式UI 自动化用例使用 Playwright Python 代码API 自动化用例使用 Requests Pytest 代码缺陷管理系统主要针对 Jira代码仓库主要针对 GitHub/GitLab。2.5.2 外延本文方案的外延如下扩展到移动端测试使用 Playwright for Mobile 或 Appium Agent扩展到性能测试使用 AI Agent 自动生成性能测试用例、自动执行性能测试、自动分析性能瓶颈扩展到安全测试使用 AI Agent 自动生成安全测试用例、自动执行安全测试、自动分析安全漏洞扩展到多语言测试支持中文、英文、日文等多语言的用例生成与缺陷定位扩展到其他缺陷管理系统支持 Azure DevOps、GitLab Issues、GitHub Issues 等扩展到其他代码仓库支持 Bitbucket、Gitee 等扩展到其他 CI/CD 平台支持 GitHub Actions、Jenkins、GitLab CI/CD 等。3. 核心概念与理论基础3.1 核心概念AI Agent Harness Engineering3.1.1 什么是 AI AgentAI Agent 的定义AI Agent人工智能代理是一种能够感知环境Perception、推理决策Reasoning、采取行动Action、记忆历史Memory的智能实体。AI Agent 的目标是在给定的环境中通过自主决策与行动完成特定的任务。AI Agent 的概念最早可以追溯到 1950 年代的图灵测试但直到 2020 年代大语言模型的出现AI Agent 才真正得到了广泛的应用。AI Agent 的核心要素AI Agent 的核心要素包括四个部分感知层、推理层、行动层、记忆层如下图所示Mermaid

相关文章:

AI Agent Harness Engineering 做测试:用例生成、回归与缺陷定位

AI Agent Harness Engineering 全栈测试指南:从用例自动生成到实时缺陷定位 副标题:整合 OpenAI GPT-4o/Claude 3.5 Sonnet Playwright Agent LangChain Harness CI/CD 构建企业级 AI 驱动测试中台第一部分:引言与基础 1.1 引人注目的标题…...

AI Agent实战指南:从框架选型到RAG应用构建

1. 从Awesome列表到实战指南:如何高效利用AI Agent开源生态如果你最近在琢磨怎么用大语言模型(LLM)搞点自动化的事情,比如让AI帮你写代码、分析数据,或者管理知识库,那你大概率会搜到各种眼花缭乱的“AI Ag…...

Java RASP安全探针:基于字节码增强的运行时应用防护实战

1. 项目概述:一个Java应用运行时安全防护的“探针” 如果你是一名Java后端开发者或运维工程师,对“应用安全”这个词一定不陌生。传统的安全防护,无论是WAF(Web应用防火墙)还是基于流量的入侵检测,都像是在…...

Spring Loaded:Java热更新原理、部署与实战指南

1. 项目概述:Spring Loaded,一个被低估的Java热更新利器如果你是一名Java开发者,尤其是从事Web应用开发,那么你一定经历过这样的场景:修改了一行业务逻辑代码,然后不得不重启整个应用服务器,等待…...

第八章 电容和电感的重要公式及单位换算(附带截至频率小结)

一 公式1.1 电容:电容两端电压的变化速度变换公式::是一个恒流源(当电流是定值时电压的变化率是恒定的)例子:用1A的恒流源给1mF的电容充电,再充到1ms时,电容电压会充到1V。1V。1.2 电感&#xf…...

BERT模型解析:双向Transformer在NLP中的应用与实践

1. BERT模型基础解析BERT(Bidirectional Encoder Representations from Transformers)作为自然语言处理领域的里程碑式模型,其核心创新在于双向上下文编码机制。传统语言模型(如GPT)采用单向的自回归方式,只…...

2026,iPaaS集成平台怎么选?看完这篇就懂了

处在企业数字化转型的滚滚浪潮里,系统众多、数据形成孤岛,这已然变成限制发展的关键阻塞点。怎样以高效、安全、敏捷的方式,去连通企业内部繁杂多样的应用和数据,这成了CIO以及IT团队面前必须要回答的问题。iPaaS也就是集成平台即…...

可控硅(晶闸管)基础知识及应用电路Multisim电路仿真

目录 一、可控硅基础知识 1.1 概述 1.2 晶闸管主要类型 1.2.1 单向可控硅(SCR) 1.2.1.1 单向晶闸管基本结构与符号 1.2.2 双向可控硅(TRIAC) 1.2.2.1 双向晶闸管基本结构与符号 1.2.3 特殊类型 1.3 单向晶闸管工作原理 1.3.1 单向晶闸管等效模型 1.3.2 单向晶闸…...

基于LLM Agent的智能家居管家:OmniSteward项目实战指南

1. 项目概述:一个基于LLM Agent的智能中枢 如果你和我一样,对智能家居和自动化充满热情,同时又希望有一个更“聪明”、更“懂你”的交互方式,那么你肯定会对今天要聊的这个项目感兴趣。它叫OmniSteward,中文可以理解为…...

5分钟快速上手:这款Windows本地实时语音识别工具如何让您的会议记录效率提升300%

5分钟快速上手:这款Windows本地实时语音识别工具如何让您的会议记录效率提升300% 【免费下载链接】TMSpeech 腾讯会议摸鱼工具 项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 还在为会议记录手忙脚乱吗?还在为视频学习需要频繁暂停做笔记…...

5款机器学习模型可视化工具实战评测与应用指南

1. 机器学习模型可视化工具的价值与挑战在模型开发过程中,可视化工具就像给算法装上了X光机。三年前我参与一个金融风控项目时,曾花费两周时间调试一个准确率卡在89%的随机森林模型。直到使用了SHAP可视化工具,才发现某个特征的分箱方式导致模…...

Java 微服务弹性模式实践 2027

Java 微服务弹性模式实践 2027 引言 在微服务架构中,服务之间的依赖关系复杂,网络故障、服务宕机、资源不足等问题时有发生。为了确保系统的可靠性和可用性,微服务需要具备弹性能力,能够在面对各种故障和异常时保持稳定运行。本…...

RAG重排序技术解析与五大模型评测

1. 检索增强生成(RAG)中的重排序技术解析在构建基于大语言模型的问答系统时,我们常常会遇到这样的困境:检索器返回的文档片段看似相关,但实际对生成答案帮助有限。这种现象的根源在于传统检索器的设计目标——它们被优…...

浅析Python数据处理

Numpy、Pandas是Python数据处理中经常用到的两个框架,都是采用C语言编写,所以运算速度快。Matplotlib是Python的的画图工具,可以把之前处理后的数据通过图像绘制出来。之前只是看过语法,没有系统学习总结过,本博文总结…...

Spring Cloud 2027 边缘计算支持深度解析

Spring Cloud 2027 边缘计算支持深度解析 引言 随着物联网(IoT)和5G技术的快速发展,边缘计算已经成为云计算领域的重要发展方向。Spring Cloud 2027 作为 Spring 生态系统的最新版本,引入了对边缘计算的原生支持,这是…...

GPT-5.5 开启人机协作新范式 | OpenAI 总裁对话实录

4月24日,OpenAI 总裁兼联合创始人 Greg Brockman 接受海外播客Big Technology Podcast的访谈。本次对话正式确认了代号为"Spud" 的新模型即为 GPT-5.5,并深入探讨了GPT-5.5在跨越通用型应用实用性门槛方面的技术突破、OpenAI 从大语言模型向实…...

远程开发不再卡顿,VSCode 2026跨端连接全场景适配手册,含17个企业级部署Checklist

更多请点击: https://intelliparadigm.com 第一章:VSCode 2026跨端连接能力全景概览 VSCode 2026 将原生跨端协同能力提升至全新高度,支持 Windows、macOS、Linux、Web(PWA)、iOS(通过 Safari WebKit 容器…...

如何用ezdxf解决CAD数据批量处理的工程挑战:从手动操作到自动化流水线

如何用ezdxf解决CAD数据批量处理的工程挑战:从手动操作到自动化流水线 【免费下载链接】ezdxf Python interface to DXF 项目地址: https://gitcode.com/gh_mirrors/ez/ezdxf 在工程设计领域,CAD图纸的批量处理一直是个技术痛点。传统的手工操作不…...

VSCode 2026协作权限系统深度解析:从粒度控制(文件/行/编辑操作)到审计日志自动归档的7步落地法

更多请点击: https://intelliparadigm.com 第一章:VSCode 2026协作权限系统的架构演进与设计哲学 VSCode 2026 引入了基于策略即代码(Policy-as-Code)的全新协作权限系统,其核心不再依赖静态角色分配,而是…...

【技术底稿 23】Ollama + Docker + Ubuntu 部署踩坑实录:网络通了,参数还在调

下午5点到晚上10点半,5个半小时。代码一行没改,全是环境、配置、默认参数的坑。 网络隔离、防火墙、Ollama默认监听127.0.0.1、Linux vs Windows差异——每一个都踩了一遍。 目前网络已通,向量模型的上下文问题还在调。 前置条件 操作系统&am…...

VSCode 2026嵌入式调试适配终极验证报告:实测23款主流MCU + 8种RTOS + 4类自定义Bootloader——仅3个已知缺陷(附临时补丁SHA256校验码)

更多请点击: https://intelliparadigm.com 第一章:VSCode 2026嵌入式调试适配终极验证报告概述 VSCode 2026 版本在嵌入式开发支持方面实现了重大架构升级,核心变化包括原生集成 Cortex-Debug v1.5、RISC-V OpenOCD 2026.03 协议栈、以及对 …...

如何快速永久保存QQ空间历史动态:终极完整解决方案

如何快速永久保存QQ空间历史动态:终极完整解决方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾经担心QQ空间中的珍贵记忆会随着时间流逝而消失?那些…...

监控仪表板:实时数据可视化与交互式探索

监控仪表板:实时数据可视化与交互式探索 在当今数据驱动的时代,企业需要快速获取、分析并响应海量数据。监控仪表板作为一种高效的数据展示工具,能够将复杂的数据转化为直观的可视化图表,帮助用户实时掌握业务动态。无论是生产线…...

OpenRGB终极指南:如何用一个免费软件统一控制所有RGB设备灯光

OpenRGB终极指南:如何用一个免费软件统一控制所有RGB设备灯光 【免费下载链接】OpenRGB Open source RGB lighting control that doesnt depend on manufacturer software. Supports Windows, Linux, MacOS. Mirror of https://gitlab.com/CalcProgrammer1/OpenRGB.…...

MAgent多智能体强化学习平台:从原理到实战的完整指南

1. 项目概述:从单智能体到多智能体世界的桥梁如果你玩过《星际争霸》或者《文明》这类策略游戏,一定对“微操”和“宏观运营”这两个词不陌生。在游戏里,你控制的不是一个单位,而是一整个军团,每个单位都有自己的行动逻…...

WarcraftHelper:5分钟免费解锁魔兽争霸III完整现代游戏体验

WarcraftHelper:5分钟免费解锁魔兽争霸III完整现代游戏体验 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 你是否还在为经典《魔兽争霸II…...

深度学习在计算机视觉中的应用与实战指南

1. 深度学习的视觉革命:为什么它如此重要计算机视觉领域在过去十年经历了翻天覆地的变化。还记得2012年AlexNet在ImageNet竞赛中一举击败所有传统算法时的震撼场景吗?那是一个分水岭时刻——深度学习开始展现出处理视觉数据的惊人潜力。如今,…...

量子计算在药物发现中的突破性应用

1. 量子计算在药物发现中的突破性应用在计算机辅助药物设计(CADD)领域,蛋白质水合位点的精准预测一直是个关键挑战。水分子在蛋白质-配体相互作用中扮演着双重角色:它们既能作为"分子胶水"稳定复合物结构,又…...

Flutter for OpenHarmony 视频播放与本地身份验证萌系实战总结

Flutter for OpenHarmony 视频播放与本地身份验证萌系实战小记✨ 欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net 一、开篇:给鸿蒙 App 装上 “会动的小屏幕” 和 “安全小锁” 哈喽~这次我给 Flutter 鸿蒙 App 做了…...

Hexo博客写好了却没人看?手把手教你用Vercel Analytics和SEO插件搞定流量

Hexo博客流量突围指南:Vercel Analytics与SEO实战手册 当你花了无数个深夜调试主题、打磨内容,却发现博客访问量始终徘徊在个位数时,那种挫败感我深有体会。作为同样从零起步的Hexo用户,我经历过每天刷新统计却只看到自己IP的尴尬…...