当前位置：首页 > news >正文

A/B 测试：玩转假设检验、t 检验与卡方检验

news 2026/2/9 12:20:21

一、背景：当“审判”成为科学

1.1 虚拟场景——法庭审判

想象这样一个场景：有一天，你在王国里担任“首席审判官”。你面前站着一位嫌疑人，有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的，还是他是被冤枉的？你需要做出审判。

• 如果你只是听到“民众都说他很可疑”，就随便判有罪，也许冤枉了一个无辜的人；

• 如果你因为证据不够充分，放任他走了，而真凶恰好就是他？那可怎么办？

这时候，作为审判官，你要收集证据（证人证言、现场线索），并进行理性分析。你不会轻易下结论，而是先假设他无罪（原假设），然后看证据有多强。若证据足够强大，说明在“嫌疑人无罪”的情况下，这么极端的指纹、目击等线索出现简直是“小概率事件”，于是你认定他“极可能有罪”，就推翻了无罪假设。

这便是“假设检验”的核心思想：我们总是先假设“没有差异”“没有效应”（就像嫌疑人无罪），然后让数据“自己说话”，看要不要推翻这个假设。

1.2 假设检验的现代发展

• 过去：统计学家费雪（Fisher）等人在 20 世纪初确立了这套“原假设 vs. 备择假设 + p 值 + 显著性水平”的理论框架。

• 现在：在大数据时代，我们依然需要这种方法来对数据做严谨推断，比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。

• 原因：不论数据多庞大，随机性和噪声总在，所以我们要有一把“判定差异是否超越随机”的尺子，这就是假设检验。

二、假设检验：原理、角色与流程

2.1 原假设、备择假设

1. 原假设（Null Hypothesis）

默认都是原假设，即罪人没有罪，需要p值低于阈值的时候我们才会推翻（拒绝）我们的原假设

• 嫌疑人无罪；

• 两个方案无差异；

• 新药无显著疗效……

一般总是表示“没有改变、没有差异、没有效果”。

2. 备择假设（Alternative Hypothesis ）

• 嫌疑人有罪；

• 两个方案的确有差异；

• 新药确实起了作用……

2.2 p 值：出现极端证据的概率

• p 值（p-value）是指：在原假设为真的前提下，获得我们这么极端（或更极端）观测结果的概率。

• 如果 p 值很小，比如 < 0.05（这就是显著性水平的常用阈值 0.05），就意味着：

• “在没有差异的情况下，居然还能看到这么极端的数据，太小概率了吧？！”

• 所以我们倾向于说，“估计是原假设不对”，即拒绝原假设。

就是他是好人的情况下，出现这些不利（极端）证据，概率也太小了吧，所以我们认为他是坏人

2.3 Type I 与 Type II 错误

• Type I 错误：错把一个无罪的人判了死刑（原假设其实对，但被我们拒绝）

• Type II 错误：把真正的罪犯当好人放了（原假设其实不对，但我们没拒绝）

• 做实验或统计分析时，我们也要小心平衡：（Type I 错误率）和（Type II 错误率），别因极度谨慎而漏掉真差异，也别因过度敏感而冤枉“无差异”的情况。

三、A/B 测试：让你的产品决策更像“法庭审判”

3.1 你在做的，正是“统计审判”！

互联网里，每当你想更换按钮颜色、重新设计界面布局，或者改进推荐算法时，却不确定是不是更好——就能用A/B 测试来模拟“法庭审判”流程：

1. 原假设：新方案和老方案在关键指标（点击率、转化率等）上“无差异”；

2. 备择假设：新方案有更好的表现；

3. 随机分配：把用户随机分成两组，一部分看 A，另一部分看 B；

4. 观察结果：收集一段时间数据，看 B 组指标是否明显高于 A 组；

5. 检验：若差异明显到“原假设难以成立”，就说明新方案的确优于旧方案，推翻原假设。

3.2 常见陷阱

• 样本量过小：就好比证据太少，判案没把握；

• 多重测试：一次试验比较很多方案，就像同时审好几个案子，可能在某个案件里意外得到“极端证据”；

• 外部干扰：如果不是随机分组、A/B 组用户画像差别太大，就像找了一群偏见法官，对审判结果会有偏颇。

四、t 检验：如何量化“均值上的差异”？

4.1 t 检验的来龙去脉

• 场景：我想知道“两个组的平均值”到底差多少，比如“男性与女性的平均身高差异”，或者“A 组人群的日均观看时长 vs. B 组人群的日均观看时长”。

• 原理：

• 分子是“两个平均值之间的差”，分母是“这俩差值可能出现的标准误（综合了方差和样本量）”。

• 若这个 t 值很大，表明相对随机波动而言，均值差距太明显，p 值就会小。

4.2 适合场合

1. 数据近似正态分布，或者样本量足够大（中心极限定理可以帮忙）；

2. 数值型指标，且你关心“平均值”本身的差异；

3. 如果两组是独立样本，就用“独立样本 t 检验”；若是一组人自己前后对比，则用“配对 t 检验”。

4.3 t 检验代码

案例分析：

案例1：独立样本t检验

问题描述：比较男性和女性的平均身高是否存在显著差异。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
male_heights = np.random.normal(175, 7, 100)  # 男性身高（cm）
female_heights = np.random.normal(165, 6, 100)  # 女性身高（cm）# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(male_heights, female_heights)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设，认为男性和女性的平均身高存在显著差异。")
else:print("无法拒绝原假设，认为男性和女性的平均身高无显著差异。")

输出：

案例2：独立样本t检验

问题描述：在A/B测试中，评估新版本（B）是否显著提升了转化率。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
control = np.random.binomial(1, 0.10, 1000)  # 控制组转化率10%
treatment = np.random.binomial(1, 0.12, 1000)  # 试验组转化率12%# 计算转化率
control_rate = np.mean(control)
treatment_rate = np.mean(treatment)print(f'控制组转化率: {control_rate:.2%}')
print(f'试验组转化率: {treatment_rate:.2%}')# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(treatment, control)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设，认为新版本显著提升了转化率。")
else:print("无法拒绝原假设，认为新版本未显著提升转化率。")

输出：

案例3：药物疗效的配对样本t检验

问题描述：评估某药物在治疗前后患者的血压变化，判断药物是否有效。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
pre_treatment_bp = np.random.normal(150, 10, 30)  # 治疗前血压
post_treatment_bp = pre_treatment_bp - np.random.normal(10, 5, 30)  # 治疗后血压# 进行配对样本t检验
t_stat, p_value = stats.ttest_rel(post_treatment_bp, pre_treatment_bp)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设，认为药物显著降低了血压。")
else:print("无法拒绝原假设，认为药物未显著降低血压。")

输出：

五、卡方检验：处理“分类变量”就靠它

5.1 当你的证据是“频数”而非“均值”

• 如果你拿到的是“买 or 不买”这样的分类标签，或者“一共投票给 A/B/C 的人数分别是多少”，就不能简单地比较平均值。

• 这时要用卡方检验(Chi-Square)，因为它专门对“观察到的频数”和“期望的频数”做比较。

5.2 原理简述

5.3 卡方检验代码

import numpy as np
from scipy.stats import chi2_contingency# 构建列联表
# 行：性别（男、女），列：购买（是、否）
data = np.array([[30, 10],[20, 20]])# 进行卡方检验
chi2, p, dof, expected = chi2_contingency(data)print(f'卡方统计量: {chi2:.2f}')
print(f'p值: {p:.4f}')
print('期望频数:')
print(expected)# 结果解读
alpha = 0.05
if p < alpha:print("拒绝原假设，认为性别与购买决策存在关联。")
else:print("无法拒绝原假设，认为性别与购买决策无关联。")

输出：

六、再回到法庭：如何让判决更高效？

1. 注意样本量：别审太少证据就想定罪，也别没完没了地搜证耽误时间。

2. 明确检验方法：是要比较数值平均？还是比较分类频数？选对 t 检验 or 卡方检验。

3. 控制误差率：设多少？怎么平衡漏判与冤判？

4. 多重比较调整：若你要审好几件案子（或 A/B 测试好多种版本），要做相应方法调整，避免“捡到极端结果就说差异大”。

七、总结：只要有决策，就可能需要假设检验

从审判一个嫌疑人是否有罪，到互联网 A/B 测试中判断“新老方案孰优孰劣”，再到科研里探讨“实验组与对照组”效果差异，我们都能看到假设检验的身影。它让我们在随机干扰中保持理性，用t 检验检查数值均值，用卡方检验衡量分类差异，用A/B 测试来做商业产品优化。

文章小结：

1. 假设检验：就像法庭审案，“无罪”假设先行，数据若够极端就能推翻；

2. A/B 测试：互联网“快速试验”神器；

3. t 检验：比较“两组均值”时最常用；

4. 卡方检验：用来判断分类/频数的差异或关联度。

希望通过这个“法庭审判”比喻，让你更好理解为何需要假设检验，以及如何把它用在各种实际场景上。本文若能带给你启发或快乐，请不吝在 一键三连（点赞、收藏、关注）并评论分享哦！让更多人知道，“统计思维”才是我们在复杂世界里做出理性决策的秘密武器。

参考阅读

• Fisher, R. A. (1925). Statistical Methods for Research Workers.

• Montgomery, D. C. (2017). Design and Analysis of Experiments.

• Pearson, K. (1900). On the criterion… (The seminal paper on Chi-Square test).

—— 全文完 ——

感谢阅读，期待你的点赞 + 关注 + 评论 + 收藏 + 转发，我们下期见！