当前位置：首页 > article >正文

顺序测试：低量级 A/B 测试的秘密调料

article 2026/4/9 0:10:23

原文towardsdatascience.com/sequential-testing-the-secret-sauce-for-low-volume-a-b-tests-fe62bdf9627b在处理有限数据时如何加速决策并提高准确性https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/36b9886f43ff7bdaeb3e45b5f3d444f3.png由 OpenAI 的 chatGPT 生成的图像什么是 A/B 测试为什么它很难A/B 测试是一种简单的方法通过提供一种数据驱动的确定哪个产品版本更有效的方式来减少决策中的不确定性。A/B 测试的概念很简单。想象一下你在一个朋友的生日聚会上。你一直在辛苦地完善你的饼干食谱。你认为你已经完善了它但你不知道人们更喜欢加燕麦的饼干还是不加的。在你看来燕麦给饼干带来了一种很好的有嚼劲的口感。然而你不确定这是大众意见还是只是你个人的偏好。你最终带着两种不同版本的饼干来到聚会上饼干 A 有燕麦饼干 B 没有。你随机给一半的朋友饼干 A另一半的朋友得到饼干 B。你决定得到更多“好吃”评价的饼干是更好的饼干。一旦每个人都尝过了饼干你发现饼干 B 得到了更多的“好吃”评价并得出结论认为它是更好的饼干。这种将饼干随机分发给聚会嘉宾并监控他们反馈的过程是 A/B 测试的一个例子。在技术领域A/B 测试提供了一种数据驱动的确定哪个产品版本更有效的方法。通过随机将用户路由到不同的体验版本你可以实证地衡量不同产品版本对关键性能指标的影响。这允许你验证变化并迭代优化产品提供。在我作为高级数据科学经理的角色中我们最常使用 A/B 测试来测试不同的定价模型看看哪个模型能带来最多的购买。考虑两种定价策略——一种是将产品定价为 19.99 美元另一种是定价为 24.99 美元并提供 20%的折扣。这两种定价策略导致相同的价格但顾客看到 20%的折扣时更有可能购买吗我们可以通过 A/B 测试来测试这一点传统的 A/B 测试通常需要在得出一个产品或模型版本比其他版本更好的结论之前收集一定数量的样本。换句话说传统的 A/B 测试需要足够的样本以便测试本身可以被认为是具有统计意义的。在实验开始之前就设定了实现统计显著性所需的样本数量然后你等待。这被称为固定样本大小的 A/B 测试。固定样本大小的 A/B 测试存在许多问题。时间密集型在大公司中由于数据量巨大你可能会迅速达到所需的样本量。然而如果你像我一样在一个数据量不是很大的小型初创公司工作等待测试完成可能会很耗时。最近我的团队设计了一个 A/B 测试结果发现我们需要 2 年才能达到所需的样本量不可变性一旦你为你的 A/B 测试确定了所需的样本量你就被锁定在这个决策上。如果外部因素发生变化你无法轻易调整测试而不损害测试。什么是顺序测试以及为什么它可能更容易顺序测试是 A/B 测试的一种版本允许在收集数据时进行连续监控从而使得决策比传统固定样本测试更早做出。通过使用预定义的停止规则你可以在收集到足够的证据后立即停止测试。顺序测试是固定样本量测试的替代方案。它通常用于以下情况低容量当你有有限的数据输入并需要快速做出决策时顺序测试允许你在等待大量样本之前得出结论。成本或时间限制如果收集数据成本或时间较高顺序测试可以通过在观察到明确结果时立即停止测试来帮助减少所需样本数量。适应性因素当条件或用户行为可能会随时间变化时顺序测试允许在收集新数据时进行更灵活的决策和适应。顺序测试是如何工作的实施顺序测试依赖于顺序概率比测试 (“SPRT”)。此比率用于测试两个相互竞争的假设零假设 (H₀)感兴趣参数如转化率等于一个指定的值通常是现状或基线。备择假设 (H₁)感兴趣参数的期望变化。 Δ一旦你定义了零假设和备择假设你需要设置决策界限。SPRT 使用两个界限上限和下限来决定是否接受 H₀*接受 __ H₁或继续收集数据。这些界限是基于期望的错误率确定的第一类错误 (⍺)当你得出 A 组和 B 组之间存在实质性差异的结论时实际上并没有差异这被称为假阳性。第二类错误 (β)当你在 A 组和 B 组之间得出没有实质性差异的结论时实际上存在差异这被称为假阴性。在顺序测试中⍺和β通常设置为 0.05 和 0.20。然而这些需要适当设置以反映你的实验。一旦设置了期望的错误率你就使用它们来设置相关的界限。上限 (U) (1- β)/⍺下限 (L) β / (1 -⍺)对于每个新的观察结果我们将更新似然比公式为LR LR(n-1)* λ(data|H₁)/ λ(data|H₀)。这个链接有一个条件概率的复习。每次更新似然比时都会将其与我们之前设置的边界进行比较如果ℒ U拒绝 H₀ 并接受 H₁如果ℒ L拒绝 H₁ 并接受 H₀如果L ≤ ℒ ≤U继续测试并收集更多数据在下面的部分中我们将通过一个说明性的例子来讲解。顺序测试示例假设你是一位数据科学家负责确定你最近开发的模型是否会导致比当前生产模型更多的转化。你决定将一部分潜在客户随机路由到你的新模型而其余的人将继续使用当前的生产模型。现有的生产模型有一个相关的转化率为 5%。我们希望我们的新模型能将这个转化率提高到 7%但我们不确定。因此我们开发了一个顺序 A/B 测试来测试这一点。首先我们定义我们的假设。H₀: 0.05基线转化率H₁ 0.07期望的转化率接下来我们将设置我们的决策边界。我们将使用常用的错误率来设置我们的边界⍺ 0.05β 0.2。上限 (U) (1- β)/⍺ (1–0.2)/.05 0.8/.05 16下限 (L) β / (1 – ⍺) 0.2 / (1-.05) 0.2/0.95 ≅ 0.211在这一点上我们将收集一些数据。对于每个观察结果无论它是成功转化还是失败未转化我们都会一致地更新似然比。在成功的情况下我们将始终将当前似然比乘以 P(success|H₁)/P(success|H₀) 0.07/0.05 1.4。在出现失败的情况下我们将始终将当前似然比乘以 P(failure|H₁)/P(failure|H₀) (1–0.07)/(1–0.05) 0.93/0.95 ≅ 0.98。下面我模拟了一些观察结果以及我们似然比的相关变化。作为免责声明我确保我们早期有很多成功这样表格就不会有数千个观察结果那么长基于我们的实际转化率这种情况不太可能。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6fe6c6e089f40b544fe8c3a37029ad3c.png图片由作者提供经过 11 次观察后我们发现我们的模型不仅很好而且非常好我们儿乎转化了所有东西。我们拒绝 H₀ 并接受 H₁。显然这是一个简化的例子但这通常是顺序测试的工作方式。顺序测试是否有风险在这篇文章中我们探讨了将顺序测试作为固定样本大小 A/B 测试的替代方案的想法。顺序测试提供了诸如更快决策能力和对不断变化的市场条件的更大适应性等优势。这些好处可以导致更有效的实验尤其是在低容量环境中你可能没有时间等待积累一定的样本量。我为顺序测试描绘了一幅相当美好的图景但顺序测试并非没有自己的风险。早期数据可能导致误导由于测试是在每个新的观察结果到来时进行检查的因此错误地拒绝零假设的机会增加尤其是在早期数据中。早期数据可能显示出随着收集更多数据而减弱的强烈效果导致过早的结论。在我上面的例子中我们有 11 次观察中有 9 次转化尽管基线转化率为 5%。这些结果可能被视为异常值导致我们过早地拒绝零假设然后在稍后日期回归到基线。解释的复杂性对顺序测试的统计解释可能更复杂。尽管我们在这篇文章中没有涉及为了保持结果的可靠性顺序测试通常需要使用高级统计方法例如α消耗函数或其他校正。这些方法确保在整个多重测试阶段中总体 I 类错误率保持受控。然而增加的复杂性可能会使正确解释结果更具挑战性如果理解不当可能会导致基于错误信息的决策。希望到现在为止你已经知道了什么是顺序测试并对顺序测试的优缺点有所了解。尽管顺序测试可以提供许多好处但在某些情况下固定样本大小的 A/B 测试提供的可预测性和简单性可能更适合你的实验。顺序测试与固定样本大小测试之间的选择应指导你的实验的具体目标、限制和背景。帮助我扩大我的页面所有的点赞和评论都受到欢迎。这是 Medium 了解我是否做得好的方式在**Medium**上关注我订阅下面的我的通讯录

顺序测试：低量级 A/B 测试的秘密调料

相关文章：

顺序测试：低量级 A/B 测试的秘密调料

MCP3425 16位I²C接口ADC原理与嵌入式应用实战

阻抗匹配原理与实战：射频电路设计核心技能

大厂面试真题揭秘：38W-55W年薪，大模型算法工程师核心考点全解析！

Qwen3.5本地部署，非常详细收藏我这一篇就够了

告别Telnet和Jmeter！用Apifox 2.3.24一站式调试Dubbo 3.x接口（保姆级Nacos集成教程）

Level2行情接口全解析：从实时数据订阅到历史回测的量化实战指南

告别环境冲突：在Anaconda中为PyTorch创建独立的Python 3.10 + CUDA 12.1虚拟环境

告别黑盒！用MMDetection 3.x生成检测热力图，5分钟搞定论文级可视化

AI赋能智能制造：预测性维护在工业4.0中的落地实践

嵌入式EEPROM文件化存储库：轻量级持久化方案

boss __zp_stoken__

P0400YE FBM04输入输出模块

MMC储能、分布式储能Simulink仿真及DCDC升降压储能模块的SOC均衡控制采用模型预测控制

面向“实时空间孪生系统”在煤化工行业落地应用：专家质询18问18答

设置 Docker 化的 Python 环境 — 优雅的方式

Span＜T＞跨平台序列化加速，深度集成System.Text.Json与MessagePack（含Benchmark实测：吞吐量提升4.2倍）

【医疗信息化开发者必修课】：C# FHIR SDK实战指南——从零构建符合HL7 FHIR R4规范的患者数据服务

Altium Designer原理图高效绘制：如何利用模板和快捷键提升3倍工作效率

ETASOLUTIONS钰泰 ETA3409S2F SOT23-5 DC-DC电源芯片

C# Span＜T＞性能优化实战指南（90%开发者忽略的栈内存安全边界与Unsafe.As＜T＞陷阱）

.NET 9边缘测试黄金标准（微软内部CI/CD流水线首次公开）：含12项必验指标与3种硬件故障注入模板

HsMod终极指南：如何让炉石传说体验提升300%

【Python原生AOT编译2026企业落地白皮书】：覆盖金融/车载/边缘场景的7大不可替代性验证数据

高光谱成像基础（完）光谱融合（Spectral Fusion）肆

字符串拼接用“+”还是 StringBuilder？别再凭感觉写了嘏

【C语言】自定义数据类型——结构体

【无限视距】：R3nzSkin的MOBA视野增强技术原理与实战指南

5分钟搞定PySide2串口助手：从QT Designer到Python打包全流程

快速了解智能体