当前位置：首页 > article >正文

小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

article 2026/4/23 3:06:29

本文分享了一个不涉及企业业务逻辑的AB实验Agent示例旨在帮助小白和程序员学习大模型应用。该Agent具备AB实验统计学知识、配置经验、报告生成和业务建议能力并详细介绍了其框架、Skill设计及运行效果。通过将AB实验方法论蒸馏成Skill并包装成Agent读者可快速掌握如何利用AI实现数据驱动决策为AB平台AI赋能提供参考。上篇分享的Data Agent 实例由于涉及不少具体的企业业务知识没办法公开更多细节。好几位朋友在后台私信问有没有源码确实么办法提供。所以这次我们换一个思路做一个完全不涉及企业业务逻辑、任何团队都可以参考的 Agent 示例——AB 实验 Agent。这个再也不用问源码啦照着这个Skill和目录框架给Claude Code就能搞。如何把这些统计学知识蒸馏成一个 Skill再把 Skill 包装成一个可运行的 Agent。换句话说就是把一整套AB 实验方法论变成 AI 可以调用的能力模块。这个Agent它具备以下能力熟知AB实验相关绝大部分统计学知识比如我们要算CTR的方差时默认使用delta-method的那个很复杂的方差公式而不是单纯的二项分布公式。掌握AB实验配置的坑这些最小样本量,MDE设置等。出具标准实验报告不用担心少字段。2组实验用T检验多组用卡方检验。给出业务建议如果你再给他喂点上下文就更靠谱了。进一步的如果你们单位有AB平台把这个Agent配上相应数据库和AB平台业务参数配置接口就可以快速给你们AB平台AI赋能。每个实验启动之前都可以先跟它聊聊它还不会烦你。跟它聊完之后你可能有新的灵感更加不会配错实验啦。先看AgentSkill框架业务框架大的框架和Data Agent流程相似从用户输入到Agent输出经过意图识别、Skill匹配、调用工具、输出结论返回到前端或者飞书\企微。详细运转流程输入默认接收用户上传文件文件格式要一行一个用户简单起见为了计算样本量和方差等关键假设检验所用指标。当然也可以选择对接AB平台接入数据库计算好方差均值之类的。API router: FastAPI标配主要是前端路由如果接入飞书\企微也在这里增加一个路由。基础Prompt: 全局性Prompt所有对话都需要。角色设定你是一位 AB 实验 / 实验分析领域的专家。当前日期为{today} 你的职责包括 1. 理解实验设计与实验假设 2. 检查样本量是否合理验证数据质量 3. 进行统计显著性检验 4. 从用户分群或业务维度对结果进行拆解分析 5. 给出结构化的实验结论就说下一步怎么做吧的决策建议 6. 生成清晰的数据可视化Skill选择路由Claude Code帮我设计的是三层选择匹配机制第一层关键词匹配-match trigger. Skill标准模版里的trigger见下文。第二层为了适配追问问题。比如Agent回复需要我帮你展开XX指标吗,你回复需要或者好的这些追问词匹配不到任何skill trigger。此时第二层发挥作用保存对话历史来匹配上一层Skill记录。第三层LLM意图识别这是兜底机制。如果前两层关键词都匹配不到Skill。LLM来兜底它基本可以99%猜测你的想法尤其是在我们这个垂类Agent里。把LLM放到第三层而不是直接上来就用是为了确保Agent速度一般Skill trigger写得好到不了这里。尽量避免杀鸡用牛刀。完整Prompt匹配到合适的Skill之后就将目标Skill的内容拼接到base Prompt后面形成完整Prompt给到Agent Loop去工作。Agent Loop循环调用工具主要是Skill里的scrpts/代码工具最终输出完整结论。输出严格按照Prompt的output rules输出内容。web app前端输出格式可以自定义增加各种图表展示。同时可以加上自定义加上模型调用信息消耗tokens、运行时长等。如果接入飞书\企微需要按照相关要求省去一些图表展示项目文件框架ab-test-agent/ ├── .env # 环境变量配置 ├── main.py # 应用入口 ├── requirements.txt # Python 依赖 │ ├── api/ # API 层 │ ├── routes.py # 路由定义 │ └── schemas.py # 请求/响应模型 │ ├── config/ # 配置模块 │ ├── __init__.py │ └── settings.py # 全局配置 │ │ ├── agent/ # Agent 智能体 │ │ ├── __init__.py │ │ ├── agent.py # Agent 主逻辑 │ │ ├── prompts.py # 提示词管理 │ │ └── tools.py # 工具定义 │ │ │ ├── llm/ # LLM 大模型集成 │ │ ├── base.py # LLM 基类 │ │ ├── custom.py # 自定义模型 │ │ │ └── skills/ # 技能加载与路由 │ ├── loader.py # 技能加载器 │ └── router.py # 技能路由 │ ├── prompts/ # 提示词模板 │ ├── base.yaml # 基础提示词 │ └── output_rules.yaml # 输出规则 │ ├── skills/ # 技能模块AB 测试各能力 │ │ │ ├── experiment_attribution/ # 实验归因 │ │ ├── skill.md # 技能描述 │ │ └── scripts/ │ │ └── attribution.py # 归因脚本 │ │ │ ├── experiment_report/ # 实验报告 │ │ ├── skill.md │ │ └── scripts/ │ │ └── report.py # 报告生成 │ │ │ └── statistical_testing/ # 统计检验 │ ├── skill.md │ └── scripts/ │ └── significance.py # 显著性检验 │ ├── static/ # 前端静态资源 │ ├── index.html # 页面入口 │ ├── app.js # 前端逻辑 │ └── style.css # 样式 │ ├── logs/ # 日志 │ └── query_log.jsonl # 查询日志 │ └── tests/ # 测试 └── evals.py线上Skill详解2.1 先看Skill标准定义Skill 的基本目录结构通常情况下一个 Skill 会被组织成一个独立的文件目录最核心的是一个SKILL.md文件skill-name/ ├── SKILL.md # 必需Skill 的说明与元信息 ├── scripts/ # 可选执行代码 ├── references/ # 可选参考文档 ├── assets/ # 可选模板或资源文件 └── ... # 其他补充文件 SKILL.md 的基本格式 SKILL.md 通常由两部分组成 1. YAML Frontmatter元信息用于描述 Skill 的基本属性例如 name Skill 名称 description Skill 功能说明 compatibility 运行环境要求 allowed-tools 允许调用的工具这些信息主要用于帮助 Agent 理解 Skill 的用途并决定何时调用它。 2. Markdown 正文Skill Instructions 在 YAML 之后是 Markdown 格式的说明文档用来告诉 Agent 如何执行这个任务分析流程是什么输入和输出示例常见边界情况常见内容包括分步骤操作说明step-by-step instructions 输入输出示例常见异常情况edge cases2.2 AB实验Skill—Statistical_testing—实例详解Skill开头关键描述主要是描述和triggers--- name: statistical_testing description: 统计显著性检验t检验、卡方检验、z检验、比率指标的 Delta Method、置信区间与效应量解释 analysis_type: significance script: significance.py/具体执行计算的python代码 triggers: - significant - 显著 - p-value - p值 - hypothesis - 假设检验 - t-test - t检验 - chi-square - 卡方 - z-test - confidence - 置信 - 有效果吗 - 有差异吗 - CTR - 点击率 - delta method - ratio metric --- ## 统计检验策略 ### Step1:根据指标类型确定检验方法 ### Step2:检查并读取数据源 ### Step3: 基于以下框架解释统计检验结果### Step4 效应量Effect Size的解释 ## 输出规范统计检验策略Step 1根据指标类型确定检验方法应根据待分析指标的性质选择合适的统计检验方法如何识别比率指标Ratio Metric可以通过以下方式判断指标是否属于比率指标数据中分别存在分子列例如 clicks与分母列例如 impressions且每个用户的分母不同→ 应使用Delta Method用户问题直接涉及以下指标CTR、点击率、按曝光计算的转化率、RPM或任何形式为“X per Y”的指标→ 应使用Delta Method如果指标仅包含0 和 1 两种取值→ 应使用z 检验该指标属于二元变量而非比率指标如果指标包含大量不同的数值取值且为直接观测的数值指标而非 X/Y 形式的比率→ 应使用t 检验比率指标Ratio Metric例如 CTR clicks / impressions或任何定义为X / Y且分母在不同用户之间存在差异的指标。对于此类指标应使用Delta MethodDelta 方法进行显著性检验。test_typedelta并指定numerator_col与denominator_col二元指标Binary Metric例如 0/1 指标是否转化、是否点击等。对于此类指标应使用z 检验z-test。test_typez连续指标Continuous Metric例如收入revenue、停留时间time等连续型数值指标。对于此类指标应使用t 检验t-test。test_typet分类结果Categorical Outcomes当结果变量为分类变量时应使用卡方检验chi-square test。test_typechi2为什么比率指标需要使用 Delta Method在处理比率指标时一个常见但不严谨的方法是先计算每个用户的比率指标例如用户级 CTR然后对这些比率取平均。这种做法的问题在于一个只有10 次曝光的用户与一个拥有10,000 次曝光的用户在计算平均值时会被赋予相同权重从而导致方差估计偏差。Step 2检查并读取数据源应根据用户上传的数据源进行分析。Call run_analysis(significance) with group_col, metric_col, control_value, treatment_value, and the chosen test_type.如果用户未上传数据提醒用户上传。Step 3基于以下框架解释统计检验结果P值-默认a0.05解读逻辑p α且 uplift 为正实验组表现显著优于对照组可考虑上线Treatment winsp α且 uplift 为负实验组表现显著劣于对照组不建议上线Treatment loses p ≥ α且样本量较大可以认为两组之间不存在具有实际意义的差异p ≥ α且样本量较小结论不确定可能由于统计功效power不足Step 4效应量Effect Size的解释常使用Cohen’s d衡量效应量大小其解释通常如下Cohen’s d 0.2效应量可以忽略Negligible。即使达到统计显著其实际业务影响也通常非常有限。0.2 ≤ Cohen’s d 0.5小效应Small。在某些场景下具有一定参考价值。0.5 ≤ Cohen’s d 0.8中等效应Medium。通常意味着具有较为明显的影响。Cohen’s d ≥ 0.8大效应Large。表明存在较强且显著的影响。输出规范样本量sample sizes各组均值means提升幅度lift %p-value效应量effect size置信区间confidence interval首先给出结论性判断例如“实验组结果在统计上显著 / 不显著。”分析结果中应始终包含以下关键信息如果结果达到统计显著但效应量很小应明确说明“统计上显著但实际影响较小。”建议进一步进行分群分析作为后续分析例如“是否需要进一步检查该效果在不同用户分群之间是否存在差异”线上运行效果这是Agent线上跑的界面AB上线前后一系列问题都可以找它聊。实验初期讨论样本量计算考验它什时候用deltat-method算方差它说UTR这种简单二项分布就行CTR才启用分析报告结语有了Claude Code等coding Agent想手搓一个产品MVP非常方便。但是怎么创造真正的价值还需要你的专家经验来指导他更需要你的专家理解来识别真实的需求场景。AI 可以写代码、搭框架、生成界面但它并不知道哪些问题是真正值得解决的哪些方法论才是领域里的最佳实践哪些细节会在真实业务中踩坑它得蒸馏多少同事.skill才能知道呢参考文献并推荐https://github.com/coreyhaines31/marketingskillsgithub上大牛写的Marketing Skills for AI Agentshttps://agentskills.io/specification.mdSKILL标准格式那么如何学习大模型 AI 对于刚入门大模型的小白或是想转型/进阶的程序员来说最头疼的就是找不到系统、全面的学习资源要么零散不成体系要么收费高昂白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包覆盖从入门到实战、从理论到面试的全流程所有资料均已整理完毕免费分享给各位核心包含AI大模型全套系统化学习路线图小白可直接照做、精品学习书籍电子文档、干货视频教程、可直接上手的实战项目源码、2026大厂面试真题题库一站式解决你的学习痛点不用再到处搜集拼凑扫码免费领取全部内容1、大模型系统化学习路线学习大模型方向比努力更重要很多小白入门就陷入“盲目看视频、乱刷资料”的误区最后越学越懵。这里给大家整理的这份学习路线是结合2026年大模型行业趋势和新手学习规律设计的最科学、最系统从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶。2、大模型学习书籍文档理论是实战的根基尤其是对于程序员来说想要真正吃透大模型原理离不开优质的书籍和文档支撑。本次整理的书籍和电子文档均由大模型领域顶尖专家、大厂技术大咖撰写涵盖基础入门、核心原理、进阶技巧等内容语言通俗易懂既有理论深度又贴合实战场景小白能看懂程序员能进阶为后续实战和面试打下坚实基础。3、AI大模型最新行业报告无论是小白了解行业、规划学习方向还是程序员转型、拓展业务边界都需要紧跟行业趋势。本次整理的2026最新大模型行业报告针对互联网、金融、医疗、工业等多个主流行业系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会帮你清晰了解哪些行业更适合大模型落地哪些技术方向值得重点深耕避免盲目学习精准对接行业需求。值得一提的是报告还包含了多模态、AI Agent等前沿方向的发展分析助力大家把握技术风口。4、大模型项目实战配套源码对于程序员和想落地能力的小白来说“光说不练假把式”只有动手实战才能真正巩固所学知识将理论转化为实际能力。本次整理的实战项目涵盖基础应用、进阶开发、多场景落地等类型每个项目都附带完整源码和详细教程从简单的ChatPDF搭建到复杂的RAG系统开发、大模型部署难度由浅入深小白可逐步上手程序员可直接参考优化既能练手提升技术又能丰富简历为求职和职业发展加分。5、大模型大厂面试真题2026年大模型面试已从单纯考察原理转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。为此我精心整理了各大厂最新大模型面试真题题库涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点不仅有真题还附带详细解题思路和行业踩坑经验帮你精准把握面试重点提前做好准备面试时从容应对、游刃有余。6、四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

相关文章：

小白/程序员入门必看：收藏这份AB实验Agent实战指南，手把手教你用Claude Code快速搭建

CubeMX+正点原子RGB屏终极优化：如何让LTDC刷新率稳定跑满45MHz？

006、PCIE物理层基础：通道、速率与编码

005、PCIE拓扑结构：点对点、交换与层次

解决RDK X（ARM架构）板卡Remote-SSH运行Antigravity AI崩溃(SIGILL)：Samba网络盘本地挂载方案

别再死记硬背PID参数了！手把手教你调试锅炉三冲量水位（附DCS实操避坑点）

变分量子算法在酉扩张中的应用与优化

缓存基础知识：缓存策略、过期、击穿与雪崩

手把手教你用Conda安装Python的dcor包，并计算距离相关系数（避坑指南）

Genesis IoT Discovery Lab模块化开发平台解析与应用

如何用 childNodes 与 children 区分文本节点与元素子节点

测试22222222

测试111111111

mysql如何防止SQL注入攻击_mysql参数化查询与转义

PySpark中高效展开嵌套数组：避免笛卡尔爆炸的正确实践

Go语言如何做API限流_Go语言令牌桶限流教程【深入】

别再只盯着BLEU了！用CIDEr评价你的图像描述模型，效果更接近人类判断

从仿真图到设计洞察：手把手教你用Cadence Virtuoso分析MOS尺寸对性能的影响

Scikit-LLM：零样本与小样本文本分类实战指南

告别静态图表！用Python的mplfinance库打造你的专属量化看盘工具（附完整源码）

期刊论文困住了多少人？好写作AI帮你从“写不出来”到“投得出去”

基于Testbed的车载ECU软件集成测试方法研究

统计学习与不确定性量化在AI可靠性中的应用

新手必藏！2026 CTF 零基础入门科普，赛制、题型、解题逻辑全解析

别再死记硬背了！华为交换机日常运维，这10条display命令搞定80%的活儿

MySQL在云环境如何选择存储类型_SSD与高性能云盘配置建议

从摄像头采集到RTP推流：手把手教你用Gstreamer搭建一个简易监控Demo（Windows/Linux双平台）

AI模型加载慢、首请求延迟高、GPU显存泄漏频发，.NET 11推理性能瓶颈全排查，12个必检配置项清单已验证

如何轻松实现跨平台词库迁移：深蓝词库转换工具完整指南

瑞芯微(EASY EAI)RV1126B rknn-toolkit-lite2使用方法