【R语言】卡方检验
一、定义
卡方检验是用来检验样本观测次数与理论或总体次数之间差异性的推断性统计方法,其原理是比较观测值与理论值之间的差异。两者之间的差异越小,检验的结果越不容易达到显著水平;反之,检验结果越可能达到显著水平。
二、用法
chisq.test()函数
函数的用法:
chisq.test(x, y=NULL, correct=TRUE, p=rep(1/length(x), length(x)), rescale.p=FALSE, simulate.p.value=FALSE, B=2000)
参数详解:
- x:数值向量、因子或矩阵;
- y:数值向量或因子;当x是因子时,y也必须是一个相同长度的因子;如果x是一个矩阵,那么y就会被自动忽略。
- correct:用于单元格的数值小于5时的连续矫正,只能用于2x2的列联表;连续性矫正通常用于减少由于样本量较小而导致的偏差。
- p:表示与x长度相同的概率值向量。用于拟合优度检验时,指定每个类别的期望概率。如果未指定,则默认为等概率分布,即每个类别的概率为
1/length(x)。- rescale.p:逻辑参数,用于控制是否将
p的和重新调整为1;默认情况下为FALSE,表示不进行调整。如果p的元素之和不为1,且rescale.p = TRUE,则会自动将p重新调整为等概率分布。- simulate.p.value:逻辑参数,用于控制是否以蒙特卡洛采样的方法模拟p值。默认情况下为
FALSE,表示不使用蒙特卡洛模拟。当样本量较小或期望频数较小时,使用蒙特卡洛模拟可以得到更准确的p值。- B:整数参数,指定蒙特卡洛采样的重复次数。仅在
simulate.p.value = TRUE时有效。默认情况下为2000次重复采样。
三、举例
1、默认p中所有元素都相等
随机抽取了50名儿童从5种玩具中挑选出一种自己最喜欢的玩具。
# 50名儿童对5种玩具的选择结果
toys <- c(10, 8, 20, 7, 5)
# 检验这5种玩具的结果是否相同
chisq.test(toys)
# 参数p中的每个元素默认相同,故设置p=rep(0.2,5)
chisq.test(toys, p=rep(0.2,5))
从以下结果可知,卡方值为14,自由度为4,p值为0.008<0.05,故可得出结论这5种玩具受欢迎程度差异显著。

2、p中的元素不等
# 50名儿童对5种玩具的选择结果
toys <- c(10, 8, 20, 7, 5)
p <- c(0.21, 0.13, 0.43, 0.12, 0.11)
chisq.test(toys, p=p)
从 以下结果可知,5种玩具的受欢迎程度不同,但这些不同与前期研究的结论是吻合的(p=0.953>0.05
set.see(123)
norm <- rnorm(10000)
ks.test(norm, y="pnorm")
)

3、拟合优度检验ks.test()函数
ks.test()函数是 R 语言中用于执行 Kolmogorov-Smirnov (K-S) 检验的函数。K-S 检验是一种非参数检验方法,用于比较一个样本的分布与一个参考分布(或两个样本的分布)是否存在差异。具体来说,它评估样本数据的累积分布函数(CDF)与参考分布(或另一个样本数据的 CDF)之间的差异是否显著。
单样本K-S检验
检验一个样本是否服从标准正态分布:
# 生成一个标准正态分布的样本
set.seed(123) # 设定随机种子数
sample_data <- rnorm(10000)# 执行单样本 K-S 检验
ks.test(sample_data, "pnorm", mean = 0, sd = 1)

双样本K-S检验
检验两个样本的分布是否相同
# 生成两个样本
set.seed(123)
sample1 <- rnorm(10000, mean = 0, sd = 1)
sample2 <- rnorm(10000, mean = 0.5, sd = 1)# 执行双样本 K-S 检验
ks.test(sample1, sample2)

4、二维列联表独立性检验
若要对二维列联表进行独立性检验,只需要让chisq.test()函数中的x参数为一个矩阵,或者让x参数和y参数都是向量(或同因子)。
用vcd扩展包中的Arthritis数据集为例,男性和女性在接受两种实验处理时的人数是否一致,以及这种相关疗法是否有效果。
x参数是矩阵
library(vcd)
table1 <- table(Arthritis$Treatment, Arthritis$Sex)
table1table2 <- table(Arthritis$Treatment, Arthritis$Improved)
table2chisq.test(x=table1)
chisq.test(x=table2)

x和y参数都是因子
chisq.test(x=Arthritis$Treatment, y=Arthritis$Sex)
chisq.test(x=Arthritis$Treatment, y=Arthritis$Improved)

上面两种方法的结果都想死,男性和女性在接受两种实验处理时的人数是一致的,因为p=0.5356>0.05;新疗法也是有效果的,因为p=0.001463<<0.05。
相关文章:
【R语言】卡方检验
一、定义 卡方检验是用来检验样本观测次数与理论或总体次数之间差异性的推断性统计方法,其原理是比较观测值与理论值之间的差异。两者之间的差异越小,检验的结果越不容易达到显著水平;反之,检验结果越可能达到显著水平。 二、用…...
2025.2.9机器学习笔记:PINN文献阅读
2025.2.9周报 文献阅读题目信息摘要Abstract创新点网络架构实验结论缺点以及后续展望 文献阅读 题目信息 题目: GPT-PINN:Generative Pre-Trained Physics-Informed Neural Networks toward non-intrusive Meta-learning of parametric PDEs期刊: Fini…...
c语言:取绝对值
假设我们有一个 long 类型的变量 l,我们希望恢复其绝对值。以下是两种方法的对比: 方法1:使用条件语句 这个很好理解,负数时取负运算 ,用于数值的符号反转。 long abs_value(long l) {if (l < 0) {return -l;} e…...
JVM(Java 虚拟机)
Java语言的解释性和编译性(通过JVM 的执行引擎) Java 代码(.java 文件)要先使用 javac 编译器编译为 .class 文件(字节码),紧接着再通过JVM 的执行引擎(Execution Engine)…...
利用二分法进行 SQL 盲注
什么是sql注入? SQL 注入(SQL Injection)是一种常见的 Web 安全漏洞,攻击者可以通过构造恶意 SQL 语句来访问数据库中的敏感信息。在某些情况下,服务器不会直接返回查询结果,而是通过布尔值(Tr…...
大模型数据集全面整理:444个数据集下载地址
本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集(涵盖8种语言类别和32个领域)进行完整下载地址整理收集。 2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语…...
Ubuntu 下 nginx-1.24.0 源码分析 ngx_tm_t 类型
src\os\unix\ngx_time.h 中 typedef struct tm ngx_tm_t; tm 是 C 标准库中定义的一个结构体,通常用于表示日期和时间的信息。它通常定义在 <time.h> 头文件中 struct tm {int tm_sec; /* 秒,范围 0-59 */int tm_min; /* …...
Linux 创建进程 fork()、vfork() 与进程管理
Linux 创建进程 fork、vfork、进程管理 一、Linux的0号、1号、2号进程二、Linux的进程标识三、fork() 函数1、基本概念2、函数特点3、用法以及应用场景(1)父子进程执行不同的代码(2)进程执行另一个程序 4、工作原理 四、vfork() 函…...
2025web寒假作业二
一、整体功能概述 该代码构建了一个简单的后台管理系统界面,主要包含左侧导航栏和右侧内容区域。左侧导航栏有 logo、管理员头像、导航菜单和安全退出按钮;右侧内容区域包括页头、用户信息管理内容(含搜索框和用户数据表格)以及页…...
鸿蒙NEXT API使用指导之文件压缩和邮件创建
鸿蒙NEXT API 使用指导 一、前言二、邮件创建1、拉起垂类应用2、 UIAbilityContext.startAbilityByType 原型2.1、wantParam2.2、abilityStartCallback 与 callback 3、拉起邮箱类应用3.1、单纯拉起邮箱应用3.2、传入带附件的邮件 三、压缩文件1、认识 zlib2、压缩处理2.1、单文…...
javaEE-10.CSS入门
目录 一.什么是CSS 编辑二.语法规则: 三.使用方式 1.行内样式: 2.内部样式: 3.外部样式: 空格规范 : 四.CSS选择器类型 1.标签选择器 2.类选择器 3.ID选择器 4.通配符选择器 5.复合选择器 五.常用的CSS样式 1.color:设置字体颜色 2.font-size:设置字体大小 3…...
Spring Boot牵手Redisson:分布式锁实战秘籍
一、引言 在当今的分布式系统架构中,随着业务规模的不断扩大和系统复杂度的日益增加,如何确保多个服务节点之间的数据一致性和操作的原子性成为了一个至关重要的问题。在单机环境下,我们可以轻松地使用线程锁或进程锁来控制对共享资源的访问,但在分布式系统中,由于各个服务…...
制药行业 BI 可视化数据分析方案
一、行业背景 随着医药行业数字化转型的深入,企业积累了海量的数据,包括销售数据、生产数据、研发数据、市场数据等。如何利用这些数据,挖掘其价值,为企业决策提供支持,成为医药企业面临的重大挑战。在当今竞争激烈的…...
[学习笔记] Kotlin Compose-Multiplatform
Compose-Multiplatform 原文:https://github.com/zimoyin/StudyNotes-master/blob/master/compose-multiplatform/compose.md Compose Multiplatform 是 JetBrains 为桌面平台(macOS,Linux,Windows)和Web编写Kotlin UI…...
ubutun系统常用配置
目录 1. 更新系统 2. 安装 vim 文本编辑器 3. 扩展文件系统 4. 设置静态IP地址(可选) 5. 安装图形驱动 6. 安装常用软件 7. 调整启动项 8. 清理系统 9. 配置SSH 10. 安装VNC服务器(可选) 11. 安装桌面环境(…...
PHP函数介绍—get_headers(): 获取URL的响应头信息
概述:在PHP开发中,我们经常需要获取网页或远程资源的响应头信息。PHP函数get_headers()能够方便地获取目标URL的响应头信息,并以数组形式返回。本文将介绍get_headers()函数的用法,以及提供一些相关的代码示例。 get_headers()函…...
web前端录制canvas视频和video的声音,并合并成一个文件进行下载
一、captureStream captureStream是一个Web API方法,用于捕获指定元素的媒体流。该方法通常用于从<video>、<audio>或<canvas>元素中捕获实时视频流或音频流,以便进行进一步的处理,如直播、录制或分析。 captureStr…...
Golang 并发机制-7:sync.Once实战应用指南
Go的并发模型是其突出的特性之一,但强大的功能也带来了巨大的责任。sync.Once是由Go的sync包提供的同步原语。它的目的是确保一段代码只执行一次,而不管有多少协程试图执行它。这听起来可能很简单,但它改变了并发环境中管理一次性操作的规则。…...
【AI实践】Cursor上手-跑通Hello World和时间管理功能
背景 学习目的:熟悉Cursor使用环境,跑通基本开发链路。 本人背景:安卓开发不熟悉,了解科技软硬件常识 实践 基础操作 1,下载安装安卓Android Studio 创建一个empty project 工程,名称为helloworld 2&am…...
深度学习 视频推荐
以下为你呈现一个基于深度学习实现视频推荐的简化代码示例。这里我们使用的是协同过滤思想结合神经网络的方式,借助 TensorFlow 和 Keras 库来构建模型。在这个示例中,假设已有用户对视频的评分数据,目标是预测用户对未评分视频的评分,进而为用户推荐可能感兴趣的视频。 1…...
缓存组件<keep-alive>
缓存组件<keep-alive> 1.组件作用 组件, 默认会缓存内部的所有组件实例,当组件需要缓存时首先考虑使用此组件。 2.使用场景 场景1:tab切换时,对应的组件保持原状态,使用keep-alive组件 使用:KeepAlive | Vu…...
SpringBoot单机模式的极限是什么?为什么会引入分布式?
Spring Boot 单机模式的极限 Spring Boot 单机模式的极限主要体现在以下几个方面: 硬件资源限制: CPU:单机性能受限于 CPU 核心数和主频,无法无限扩展。内存:内存容量有限,无法应对大规模数据处理或高并发…...
【多模态大模型】系列4:目标检测(ViLD、GLIP)
目录 1 ViLD2 GLIP 1 ViLD OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION 从标题就能看出来,作者是把CLIP模型当成一个Teacher,去蒸馏他自己的网络,从而能Zero Shot去做目标检测。 现在的目标检测数据…...
计算机网络结课设计:通过思科Cisco进行中小型校园网搭建
上学期计算机网络课程的结课设计是使用思科模拟器搭建一个中小型校园网,当时花了几天时间查阅相关博客总算是做出来了,在验收后一直没管,在寒假想起来了简单分享一下,希望可以给有需求的小伙伴一些帮助 目录 一、设计要求 二、…...
从零到一:基于Rook构建云原生Ceph存储的全面指南(下)
接上篇:《从零到一:基于Rook构建云原生Ceph存储的全面指南(上)》 链接: link 六.Rook部署云原生CephFS文件系统 6.1 部署cephfs storageclass cephfs文件系统与RBD服务类似,要想在kubernetes pod里使用cephfs&#…...
mysql的语句备份详解
使用mysqldump工具备份(适用于逻辑备份) mysqldump是 MySQL 自带的一个非常实用的逻辑备份工具,它可以将数据库中的数据和结构以 SQL 语句的形式导出到文件中。 1. 备份整个数据库 mysqldump -u [用户名] -p [数据库名] > [备份文件名].…...
AutoMQ 如何实现没有写性能劣化的极致冷读效率
前言 追赶读(Catch-up Read,冷读)是消息和流系统常见和重要的场景。 削峰填谷:对于消息来说,消息通常用作业务间的解耦和削峰填谷。削峰填谷要求消息队列能将上游发送的数据堆积住,让下游在容量范围内消费…...
【Rabbitmq篇】高级特性----TTL,死信队列,延迟队列
目录 一.TTL ???1.设置消息的TTL 2.设置队列的TTL 3.俩者区别? 二.死信队列 定义: 消息成为死信的原因: 1.消息被拒绝(basic.reject 或 basic.nack) 2.消息过期(TTL) 3.队列达到最大长度? …...
【Java】多线程和高并发编程(三):锁(中)深入ReentrantLock
文章目录 3、深入ReentrantLock3.1 ReentrantLock和synchronized的区别3.2 AQS概述3.3 加锁流程源码剖析3.3.1 加锁流程概述3.3.2 三种加锁源码分析3.3.2.1 lock方法3.3.2.2 tryLock方法3.3.2.3 lockInterruptibly方法 3.4 释放锁流程源码剖析3.4.1 释放锁流程概述3.4.2 释放锁…...
Unity 高度可扩展的技能与多 Buff 框架详解
一、框架设计 1.1 核心思想 组件化设计: 将技能和 Buff 抽象为可复用的组件,通过组合不同的组件实现复杂的效果。 数据驱动: 使用 ScriptableObject 或 JSON 等数据格式定义技能和 Buff 的属性,方便配置和修改。 事件驱动: 利用 Unity 的事件系统或自…...
