当前位置: 首页 > news >正文

A/B 测试:玩转假设检验、t 检验与卡方检验

一、背景:当“审判”成为科学

1.1 虚拟场景——法庭审判

想象这样一个场景:有一天,你在王国里担任“首席审判官”。你面前站着一位嫌疑人,有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的,还是他是被冤枉的?你需要做出审判。

• 如果只是听到“民众都说他很可疑”,就随便判有罪,也许冤枉了一个无辜的人;

• 如果因为证据不够充分,放任他走了,而真凶恰好就是他?那可怎么办?

这时候,作为审判官,你要收集证据(证人证言、现场线索),并进行理性分析。你不会轻易下结论,而是先假设他无罪(原假设),然后看证据有多强。若证据足够强大,说明在“嫌疑人无罪”的情况下,这么极端的指纹、目击等线索出现简直是“小概率事件”,于是你认定他“极可能有罪”,就推翻了无罪假设。

这便是“假设检验”的核心思想:我们总是先假设“没有差异”“没有效应”(就像嫌疑人无罪),然后让数据“自己说话”,看要不要推翻这个假设。


1.2 假设检验的现代发展

• 过去:统计学家费雪(Fisher)等人在 20 世纪初确立了这套“原假设 vs. 备择假设 + p 值 + 显著性水平”的理论框架。

• 现在:在大数据时代,我们依然需要这种方法来对数据做严谨推断,比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。

• 原因:不论数据多庞大,随机性和噪声总在,所以我们要有一把“判定差异是否超越随机”的尺子,这就是假设检验


二、假设检验:原理、角色与流程

2.1 原假设、备择假设

1. 原假设(Null Hypothesis

默认都是原假设,即罪人没有罪,需要p值低于阈值的时候我们才会推翻(拒绝)我们的原假设

• 嫌疑人无罪;

• 两个方案无差异;

• 新药无显著疗效……

一般总是表示“没有改变、没有差异、没有效果”。


2. 备择假设(Alternative Hypothesis 

• 嫌疑人有罪;

• 两个方案的确有差异;

• 新药确实起了作用……


2.2 p 值:出现极端证据的概率

• p 值(p-value)是指:在原假设为真的前提下,获得我们这么极端(或更极端)观测结果的概率。

• 如果 p 值很小,比如 < 0.05(这就是显著性水平 的常用阈值 0.05),就意味着:

• “在没有差异的情况下,居然还能看到这么极端的数据,太小概率了吧?!”

• 所以我们倾向于说,“估计是原假设不对”,即拒绝原假设

就是他是好人的情况下,出现这些不利(极端)证据,概率也太小了吧,所以我们认为他是坏人


2.3 Type I 与 Type II 错误

Type I 错误:错把一个无罪的人判了死刑(原假设其实对,但被我们拒绝)

Type II 错误:把真正的罪犯当好人放了(原假设其实不对,但我们没拒绝)

• 做实验或统计分析时,我们也要小心平衡:(Type I 错误率)和 (Type II 错误率),别因极度谨慎而漏掉真差异,也别因过度敏感而冤枉“无差异”的情况。


三、A/B 测试:让你的产品决策更像“法庭审判”

3.1 你在做的,正是“统计审判”!

互联网里,每当你想更换按钮颜色、重新设计界面布局,或者改进推荐算法时,却不确定是不是更好——就能用A/B 测试来模拟“法庭审判”流程:

1. 原假设:新方案和老方案在关键指标(点击率、转化率等)上“无差异”;

2. 备择假设:新方案有更好的表现;

3. 随机分配:把用户随机分成两组,一部分看 A,另一部分看 B;

4. 观察结果:收集一段时间数据,看 B 组指标是否明显高于 A 组;

5. 检验:若差异明显到“原假设难以成立”,就说明新方案的确优于旧方案,推翻原假设。


3.2 常见陷阱

样本量过小:就好比证据太少,判案没把握;

多重测试:一次试验比较很多方案,就像同时审好几个案子,可能在某个案件里意外得到“极端证据”;

外部干扰:如果不是随机分组、A/B 组用户画像差别太大,就像找了一群偏见法官,对审判结果会有偏颇。


四、t 检验:如何量化“均值上的差异”?

4.1 t 检验的来龙去脉

场景:我想知道“两个组的平均值”到底差多少,比如“男性与女性的平均身高差异”,或者“A 组人群的日均观看时长 vs. B 组人群的日均观看时长”。

原理

• 分子是“两个平均值之间的差”,分母是“这俩差值可能出现的标准误(综合了方差和样本量)”。

• 若这个 t 值很大,表明相对随机波动而言,均值差距太明显,p 值就会小。


4.2 适合场合

1. 数据近似正态分布,或者样本量足够大(中心极限定理可以帮忙);

2. 数值型指标,且你关心“平均值”本身的差异;

3. 如果两组是独立样本,就用“独立样本 t 检验”;若是一组人自己前后对比,则用“配对 t 检验”。


4.3 t 检验代码

案例分析

案例1:独立样本t检验

问题描述:比较男性和女性的平均身高是否存在显著差异。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
male_heights = np.random.normal(175, 7, 100)  # 男性身高(cm)
female_heights = np.random.normal(165, 6, 100)  # 女性身高(cm)# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(male_heights, female_heights)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为男性和女性的平均身高存在显著差异。")
else:print("无法拒绝原假设,认为男性和女性的平均身高无显著差异。")

输出: 


案例2:独立样本t检验

问题描述: 在A/B测试中,评估新版本(B)是否显著提升了转化率。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
control = np.random.binomial(1, 0.10, 1000)  # 控制组转化率10%
treatment = np.random.binomial(1, 0.12, 1000)  # 试验组转化率12%# 计算转化率
control_rate = np.mean(control)
treatment_rate = np.mean(treatment)print(f'控制组转化率: {control_rate:.2%}')
print(f'试验组转化率: {treatment_rate:.2%}')# 进行独立样本t检验
t_stat, p_value = stats.ttest_ind(treatment, control)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为新版本显著提升了转化率。")
else:print("无法拒绝原假设,认为新版本未显著提升转化率。")

输出:

 


案例3:药物疗效的配对样本t检验

问题描述: 评估某药物在治疗前后患者的血压变化,判断药物是否有效。

import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
pre_treatment_bp = np.random.normal(150, 10, 30)  # 治疗前血压
post_treatment_bp = pre_treatment_bp - np.random.normal(10, 5, 30)  # 治疗后血压# 进行配对样本t检验
t_stat, p_value = stats.ttest_rel(post_treatment_bp, pre_treatment_bp)print(f't统计量: {t_stat:.2f}')
print(f'p值: {p_value:.4f}')# 结果解读
alpha = 0.05
if p_value < alpha:print("拒绝原假设,认为药物显著降低了血压。")
else:print("无法拒绝原假设,认为药物未显著降低血压。")

输出:
 

 


五、卡方检验:处理“分类变量”就靠它

5.1 当你的证据是“频数”而非“均值”

• 如果你拿到的是“买 or 不买”这样的分类标签,或者“一共投票给 A/B/C 的人数分别是多少”,就不能简单地比较平均值。

• 这时要用卡方检验(Chi-Square),因为它专门对“观察到的频数”和“期望的频数”做比较。


5.2 原理简述


5.3 卡方检验代码

import numpy as np
from scipy.stats import chi2_contingency# 构建列联表
# 行:性别(男、女),列:购买(是、否)
data = np.array([[30, 10],[20, 20]])# 进行卡方检验
chi2, p, dof, expected = chi2_contingency(data)print(f'卡方统计量: {chi2:.2f}')
print(f'p值: {p:.4f}')
print('期望频数:')
print(expected)# 结果解读
alpha = 0.05
if p < alpha:print("拒绝原假设,认为性别与购买决策存在关联。")
else:print("无法拒绝原假设,认为性别与购买决策无关联。")

输出: 


六、再回到法庭:如何让判决更高效?

1. 注意样本量:别审太少证据就想定罪,也别没完没了地搜证耽误时间。

2. 明确检验方法:是要比较数值平均?还是比较分类频数?选对 t 检验 or 卡方检验。

3. 控制误差率: 设多少?怎么平衡漏判与冤判?

4. 多重比较调整:若你要审好几件案子(或 A/B 测试好多种版本),要做相应方法调整,避免“捡到极端结果就说差异大”。


七、总结:只要有决策,就可能需要假设检验

从审判一个嫌疑人是否有罪,到互联网 A/B 测试中判断“新老方案孰优孰劣”,再到科研里探讨“实验组与对照组”效果差异,我们都能看到假设检验的身影。它让我们在随机干扰中保持理性,用t 检验检查数值均值,用卡方检验衡量分类差异,用A/B 测试来做商业产品优化。


文章小结

1. 假设检验:就像法庭审案,“无罪”假设先行,数据若够极端就能推翻;

2. A/B 测试:互联网“快速试验”神器;

3. t 检验:比较“两组均值”时最常用;

4. 卡方检验:用来判断分类/频数的差异或关联度。


希望通过这个“法庭审判”比喻,让你更好理解为何需要假设检验,以及如何把它用在各种实际场景上。本文若能带给你启发或快乐,请不吝在 一键三连(点赞、收藏、关注)并评论分享哦!让更多人知道,“统计思维”才是我们在复杂世界里做出理性决策的秘密武器。


参考阅读

• Fisher, R. A. (1925). Statistical Methods for Research Workers.

• Montgomery, D. C. (2017). Design and Analysis of Experiments.

• Pearson, K. (1900). On the criterion… (The seminal paper on Chi-Square test).

—— 全文完 ——

感谢阅读,期待你的点赞 + 关注 + 评论 + 收藏 + 转发,我们下期见!

相关文章:

A/B 测试:玩转假设检验、t 检验与卡方检验

一、背景&#xff1a;当“审判”成为科学 1.1 虚拟场景——法庭审判 想象这样一个场景&#xff1a;有一天&#xff0c;你在王国里担任“首席审判官”。你面前站着一位嫌疑人&#xff0c;有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的&#xff0c;还是他是被冤枉的&…...

第143场双周赛:最小可整除数位乘积 Ⅰ、执行操作后元素的最高频率 Ⅰ、执行操作后元素的最高频率 Ⅱ、最小可整除数位乘积 Ⅱ

Q1、最小可整除数位乘积 Ⅰ 1、题目描述 给你两个整数 n 和 t 。请你返回大于等于 n 的 最小 整数&#xff0c;且该整数的 各数位之积 能被 t 整除。 2、解题思路 问题拆解&#xff1a; 题目要求我们找到一个整数&#xff0c;其 数位的积 可以被 t 整除。 数位的积 是指将数…...

【STM32】LED状态翻转函数

1.利用状态标志位控制LED状态翻转 在平常编写LED状态翻转函数时&#xff0c;通常利用状态标志位实现LED状态的翻转。如下所示&#xff1a; unsigned char led_turn_flag; //LED状态标志位&#xff0c;1-点亮&#xff0c;0-熄灭/***************************************函…...

uniapp 小程序 textarea 层级穿透,聚焦光标位置错误怎么办?

前言 在开发微信小程序时&#xff0c;使用 textarea 组件可能会遇到一些棘手的问题。最近我在使用 uniapp 开发微信小程序时&#xff0c;就遇到了两个非常令人头疼的问题&#xff1a; 层级穿透&#xff1a;由于 textarea 是原生组件&#xff0c;任何元素都无法遮盖住它。当其…...

汽车 SOA 架构下的信息安全新问题及对策漫谈

摘要&#xff1a;随着汽车行业的快速发展&#xff0c;客户和制造商对车辆功能的新需求促使汽车架构从面向信号向面向服务的架构&#xff08;SOA&#xff09;转变。本文详细阐述了汽车 SOA 架构的协议、通信模式&#xff0c;并与传统架构进行对比&#xff0c;深入分析了 SOA 给信…...

Unity-Mirror网络框架-从入门到精通之RigidbodyPhysics示例

文章目录 前言示例一、球体的基础配置二、三个球体的设置差异三、示例意图LatencySimulation前言 在现代游戏开发中,网络功能日益成为提升游戏体验的关键组成部分。本系列文章将为读者提供对Mirror网络框架的深入了解,涵盖从基础到高级的多个主题。Mirror是一个用于Unity的开…...

小程序如何引入腾讯位置服务

小程序如何引入腾讯位置服务 1.添加服务 登录 微信公众平台 注意&#xff1a;小程序要企业版的 第三方服务 -> 服务 -> 开发者资源 -> 开通腾讯位置服务 在设置 -> 第三方设置 中可以看到开通的服务&#xff0c;如果没有就在插件管理中添加插件 2.腾讯位置服务…...

H3CNE-12-静态路由(一)

静态路由应用场景&#xff1a; 静态路由是指由管理员手动配置和维护的路由 路由表&#xff1a;路由器用来妆发数据包的一张“地图” 查看命令&#xff1a; dis ip routing-table 直连路由&#xff1a;接口配置好IP地址并UP后自动生成的路由 静态路由配置&#xff1a; ip…...

多线程锁

在并发编程中&#xff0c;锁&#xff08;Lock&#xff09;是一种用于控制多个线程对共享资源访问的机制。正确使用锁可以确保数据的一致性和完整性&#xff0c;避免出现竞态条件&#xff08;Race Condition&#xff09;、死锁&#xff08;Deadlock&#xff09;等问题。Java 提供…...

ZooKeeper 核心知识全解析:架构、角色、节点与应用

1.ZooKeeper 分布式锁怎么实现的 ZooKeeper 是一个高效的分布式协调服务&#xff0c;它提供了简单的原语集来构建更复杂的同步原语和协调数据结构。利用 ZooKeeper 实现分布式锁主要依赖于它的顺序节点&#xff08;Sequential Node&#xff09;特性以及临时节点&#xff08;Ep…...

笔记本电脑 选购 回收 特权模式使用 指南

笔记本电脑 factor 无线网卡&#xff1a;有些笔记本无法检测到特定频段的信息&#xff0c;会导致连不上校园网 sudo iwlist wlp2s0 scan | grep Frequency > net.txt cat net.txt>表示用终端输出覆盖后续文件&#xff0c;>>表示添加到后续文件的末尾 一种更简…...

2023-2024 学年 广东省职业院校技能大赛(高职组)“信息安全管理与评估”赛题一

2023-2024 学年 广东省职业院校技能大赛(高职组“信息安全管理与评估”赛题一&#xff09; 模块一:网络平台搭建与设备安全防护第一阶段任务书任务 1&#xff1a;网络平台搭建任务 2&#xff1a;网络安全设备配置与防护DCRS:DCFW:DCWS:DCBC:WAF: 模块二&#xff1a;网络安全事件…...

C#补充----反射,特性,迭代器,特殊语法,值类型运用类型。

1.反射&#xff1a;通过type 获取类中的数据。创建实例&#xff0c;并赋值。 《1》获取类的方式 《2》反射的应用 <1>获取类型的所有公共成员 <2>获取构造函数 <3>获取类型的 公共成员变量 <4>获取类型的 公共方法 <5>.获取类型的 属性 <6&g…...

深度学习核函数

一、核函数的基本概念 核函数在机器学习中具有重要应用价值&#xff0c;常用于支持向量机&#xff08;SVM&#xff09;等算法中。 核函数是面试中经常被考到的知识点&#xff0c;对于找工作和实际数据转换都有重要作用。 二、数据建模与核函数的作用 数据越多&#xff0c;可…...

Spring MVC流程一张图理解

由于现在项目中大部分都是使用springboot了&#xff0c;但是ssm中的springmvc还是可以了解一下 1 、用户发送请求至前端控制器 DispatcherServlet 。 2 、 DispatcherServlet 收到请求调用 HandlerMapping 处理器映射器。 3 、处理器映射器找到具体的处理器 ( 可以根据 xml 配…...

计算机网络速成

前言&#xff1a;最近在做一些动态的crypto&#xff0c;但是配置总搞不好&#xff0c;正好也有学web的想法&#xff0c;就先学学web再回去做密码&#xff0c;速成视频推荐b站建模老哥 目录 计算机网络概述网络的范围分级电路交换网络&#xff08;电路交换&#xff09;报文交换网…...

spring.profiles.active不同优先级

1、在editConfiguration中配置profiles.activedev会同时影响项目取application-dev.properties、bootstrap-dev.yaml&#xff0c;且这种方式优先级最高&#xff0c;会覆盖application.properties、bootstrap.yaml中的spring.profiles.active配置 2、在application.properties配…...

我这不需要保留本地修改, 只需要拉取远程更改

如果你不需要保留本地修改&#xff0c;只需要拉取远程更改并强制将本地分支与远程分支同步&#xff0c;可以按照以下步骤操作&#xff1a; 1. 丢弃本地修改 首先&#xff0c;丢弃所有本地未提交的修改&#xff1a; git reset --hard这会重置工作目录和暂存区&#xff0c;丢弃…...

源码编译安装httpd 2.4,提供系统服务管理脚本并测试(两种方法实现)

下载 httpd 2.4 源码&#xff1a; wget https://dlcdn.apache.org/httpd/httpd-2.4.x.tar.gztar -zxvf httpd-2.4.x.tar.gzcd httpd-2.4.x配置、编译和安装&#xff1a; ./configure --prefix/usr/local/apache2 --enable-so --enable-ssl --enable-cgi makesudo make install实…...

深度学习在自动化测试中的创新应用:提升运维效率与质量

《深度学习在自动化测试中的创新应用:提升运维效率与质量》 一、引言 在当今快速发展的软件行业中,自动化测试是确保软件质量和可靠性的关键环节。随着软件系统的日益复杂,传统的自动化测试方法在处理复杂场景、提高测试覆盖率和准确性方面面临着诸多挑战。深度学习作为人…...

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中&#xff0c;时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志&#xff0c;到供应链系统的物流节点时间戳&#xff0c;时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库&#xff0c;其日期时间类型的…...

SciencePlots——绘制论文中的图片

文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了&#xff1a;一行…...

如何为服务器生成TLS证书

TLS&#xff08;Transport Layer Security&#xff09;证书是确保网络通信安全的重要手段&#xff0c;它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书&#xff0c;可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

【Java学习笔记】BigInteger 和 BigDecimal 类

BigInteger 和 BigDecimal 类 二者共有的常见方法 方法功能add加subtract减multiply乘divide除 注意点&#xff1a;传参类型必须是类对象 一、BigInteger 1. 作用&#xff1a;适合保存比较大的整型数 2. 使用说明 创建BigInteger对象 传入字符串 3. 代码示例 import j…...

Go 并发编程基础:通道(Channel)的使用

在 Go 中&#xff0c;Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式&#xff0c;用于在多个 Goroutine 之间传递数据&#xff0c;从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...

Java数值运算常见陷阱与规避方法

整数除法中的舍入问题 问题现象 当开发者预期进行浮点除法却误用整数除法时,会出现小数部分被截断的情况。典型错误模式如下: void process(int value) {double half = value / 2; // 整数除法导致截断// 使用half变量 }此时...

AI+无人机如何守护濒危物种?YOLOv8实现95%精准识别

【导读】 野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而&#xff0c;传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案&#xff0c;能够实现大范围覆盖并远程采集数据。尽管具备这些优势&#xf…...

RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发&#xff0c;后来由Pivotal Software Inc.&#xff08;现为VMware子公司&#xff09;接管。RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用 Erlang 语言编写。广泛应用于各种分布…...

解读《网络安全法》最新修订,把握网络安全新趋势

《网络安全法》自2017年施行以来&#xff0c;在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂&#xff0c;网络攻击、数据泄露等事件频发&#xff0c;现行法律已难以完全适应新的风险挑战。 2025年3月28日&#xff0c;国家网信办会同相关部门起草了《网络安全…...

BLEU评分:机器翻译质量评估的黄金标准

BLEU评分&#xff1a;机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域&#xff0c;衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标&#xff0c;自2002年由IBM的Kishore Papineni等人提出以来&#xff0c;…...