当前位置: 首页 > news >正文

统计学 类别比变量的判断

文章目录

类别比变量的判断

一个类别变量的拟合优度检验

只研究一个类别变量的时候,可以用 χ2\chi^2χ2 检验来判断各类别频数与某一期望频数是否一致。

  • 观察频数:观察到的各类别实际的频数
  • 期望频数:期望中各类别的频数
    注意:这里频数不是比例
    拟合优度检验:也称一致性检验,用于检验观察频数和期望频数是否一致,使用的统计量为 Pearson χ2\chi^2χ2

χ2=∑(fo−fe)2fe\chi^2=\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}} χ2=fe(fofe)2

其中 χ2\chi^2χ2 服从自由度为 k−1k-1k1χ2\chi^2χ2 分布,kkk 为类别数目。
提出假设

  • H0H_{0}H0 :观察频数与期望频数无显著差异(无明显偏好)
  • H1H_{1}H1 :观察频数与期望频数有显著差异(有明显偏好)
    两类问题
  • 期望频数相等:每个类别的期望频数是相等的,比如我们要检验消费者对某些类别的产品是否有明显偏好
  • 期望频数不等:每个类别的期望频数不等,比如我们要检验某个地区对某项政策的评价是否和全国人民对该政策的平均评价一致
    计算完 χ2\chi^2χ2 后,也是用 PPP 值检验(取右尾概率)

两个类别变量的独立性检验

列联表与 χ2\chi^2χ2 独立性检验

列联表:两个或多个类别变量,每个类别变量包含许多类别,则将不同类别变量交叉分类的频数写成分布表,称为列联表
提出假设:(以下都是两个类别变量的情况)

  • H0H_{0}H0 :两个变量独立(无关)
  • H1H_{1}H1 :两个变量不独立(相关)
    两个变量 χ2\chi^2χ2 独立性检验的统计量为:(自由度为 (r−1)(c−1)(r-1)(c-1)(r1)(c1)

χ2=∑∑(fo−fe)2fe\chi^2=\sum\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}} χ2=∑∑fe(fofe)2

观察频数就是我们统计出来的值;单元格 ijijij 期望频数的计算方法为:
fe=RTin×CTjn×nf_{e}=\frac{RT_{i}}{n}\times\frac{CT_{j}}{n}\times n fe=nRTi×nCTj×n
其中:

  • RTiRT_{i}RTi 为第 iii 行的频数之和,RTin\frac{RT_{i}}{n}nRTi 即为第 iii 行的类别所观察到的比例
  • CTjCT_{j}CTj 为第 jjj 行的频数之和,CTjn\frac{CT_{j}}{n}nCTj 即为第 jjj 列的类别所观察到的比例

应用 χ2\chi^2χ2 检验应该注意的问题

应用 χ2\chi^2χ2 检验时,要求样本量足够大,特别是每个单元格的期望频数不能太小。否则期望频数在分母,太小的话会导致 χ2\chi^2χ2 变大,PPP 值变小,从而拒绝原假设。因此,应用 χ2\chi^2χ2 检验时对单元格的期望频数有以下要求:

  • 如果仅有两个单元格,单元格的最小期望频数不应小于 5;
  • 单元格两个以上时,期望频数小于 5 的单元格不能超过 20%;如果出现这种情况,可以通过合并类别的方式处理。

两个类别变量的相关度检验

如果前边独立性检验拒绝了 H0H_{0}H0 ,也就是说这两个变量不独立,此时可以进一步测度它们的关联程度,常使用 φ\varphiφ 系数、Cramer’s VVV 系数和列联系数作为检验统计量。

φ\varphiφ 系数

φ\varphiφ 系数主要用于 2×22\times22×2 列联表的相关性测量:
φ=χ2n\varphi=\sqrt{ \frac{\chi^2}{n} } φ=nχ2
对于 2×22\times22×2 列联表,φ\varphiφ 取值为 0∼10\sim 101 ,越接近 1 表示两个变量的相关性越强;
当列联表变大时,φ\varphiφ 的值会随着变大,此时不好解释 φ\varphiφ 的含义。

Cramer’s VVV 系数

Cramer’s VVV 系数由 Cramer 提出,计算公式为:
V=χ2n×min⁡((r−1),(c−1))V=\sqrt{ \frac{\chi^{2}}{n\times \min{((r-1),\,(c-1))}} } V=n×min((r1),(c1))χ2
其中 rrrccc 分别为行数和列数;当行数或列数为 222 时,Cramer’s VVV 系数就等于 φ\varphiφ 系数。
Cramer’s VVV 系数的取值总是在 0∼10\sim 101

  • 当两个变量独立时,V=0V=0V=0
  • 当两个变量完全相关时,V=1V=1V=1

列联系数

列联系数主要用于大于 2×22\times22×2 的列联表,用 CCC 表示,计算公式为:
C=χ2χ2+nC=\sqrt{ \frac{\chi^{2}}{\chi^{2}+n} } C=χ2+nχ2
当两个变量独立时,C=0C=0C=0 ;但两个变量完全相关时,CCC 也不等于 111 ,因此对列联系数的解释就不够方便。

总结

类别变量的检验方法
一个类别变量
两个类别变量
拟合优度检验
期望频数相等
期望频数不等
独立性检验
相关性测量
列联表
卡方检验
不拒绝H0
拒绝H0
phi系数
Cramer's V系数
列联系数

相关文章:

统计学 类别比变量的判断

文章目录类别比变量的判断一个类别变量的拟合优度检验两个类别变量的独立性检验列联表与 χ2\chi^2χ2 独立性检验应用 χ2\chi^2χ2 检验应该注意的问题两个类别变量的相关度检验φ\varphiφ 系数Cramers VVV 系数列联系数总结类别比变量的判断 一个类别变量的拟合优度检验 …...

2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等

文档抽取任务Label Studio使用指南 1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等 2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等…...

如何在openKylin操作系统上搭建Qt开发环境

一、获取linux系统下的Qt安装包 Qt官网下载地址:https://download.qt.io 国内镜像下载地址:https://mirrors.cloud.tencent.com/qt/ 。建议用镜像下载速度快。集成安装包在 official_releases/qt 目录下,新地址:https://downloa…...

T_SQL和SQL的区别

一. SQL Server和T-SQL的区别(⭐T-SQL 包含了 SQL)SQL Server是结构化查询语言,是目前关系型数据库管理系统中使用最广泛的查询语言T-SQL是标准SQL语言的扩展,是SQL Server的核心,在SQL的的基础上添加了变量,运算符,函数和流程控制等,Microso…...

用Python自己写一个分词器,python实现分词功能,隐马尔科夫模型预测问题之维特比算法(Viterbi Algorithm)的Python实现

☕️ 本文系列文章汇总: (1)HMM开篇:基本概念和几个要素 (2)HMM计算问题:前后向算法 代码实现 (3)HMM学习问题:Baum-Welch算法 代码实现&#xff08…...

刷题笔记2 | 977.有序数组的平方 ,209.长度最小的子数组 ,59.螺旋矩阵II ,总结

977.有序数组的平方 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 输入:nums [-4,-1,0,3,10] 输出:[0,1,9,16,100] 解释:平方后,数组变为 […...

python 支付宝营销活动现金红包开发接入流程-含接口调用加签

1 创建网页/移动应用 2 配置接口加签方式 涉及到金额的需要上传证书,在上传页面有教程, 在支付宝开放平台秘钥工具中生成CSR证书,会自动保存应用公钥和私钥到电脑上,调用支付宝接口需要应用私钥进行加签 上传完CSR证书后会有三个…...

Python操作Windows

用python进行windows端UI自动化的库有很多,比如pywinauto等,本文介绍一个使用autoit3来实现的 pyautoit 库pyautoit 是一个用python写的基于AutoItX3.dll的接口库,用来进行windows窗口的一系列操作,也支持鼠标键盘的操作。安装pip…...

Aptos SDK交互笔记(一)

背景 之前我们已经了解TS的一些语法,接下来可以实战训练下,这系列的文章就会介绍如何通过Aptos官网提供的TypeScript SDK与Aptos进行交互,这篇文章主要讲的就是如何使用提供API在aptos区块链上转帐。 官网示例 官网提供了交互的例子&#…...

汽车 12V 和 24V 电池输入保护推荐

简介汽车电池电源线路在运行系统时容易出现瞬变。所需的典型保护包括过压、过载、反极性和跨接启动。在汽车 的生命周期中,交流发电机可能会被更换为非OEM 部件。售后市场上的交流发电机可能具有不同的负载突降(LOAD DUMP)保护或没有负载突降…...

龙蜥LoongArch架构研发全揭秘,龙芯开辟龙腾计划技术合作新范式

编者按:在开源新基建加快建设的背景下,越来越多的企业选择加入龙蜥社区,当前社区生态合作伙伴已突破 300 家。于是,龙蜥社区能为加入的企业提供哪些支持成为越多伙伴们更加关注的话题。本文将以龙蜥社区和龙芯中科联合研发龙蜥 Lo…...

剑指 Offer 16. 数值的整数次方

摘要 剑指 Offer 16. 数值的整数次方 本题的方法被称为快速幂算法,有递归和迭代两个版本。这篇题解会从递归版本的开始讲起,再逐步引出迭代的版本。当指数n为负数时,我们可以计算 x^(-n)再取倒数得到结果,因此我们只需要考虑n为…...

在苹果电脑 mac 上安装原神(playCover)

该方法只能在 M1、M2 mac 上安装原神 目录前言一、首先下载安装 playCover1. playCover 下载2. playCover 安装安装出现问题解决方法二、下载安装原神1.安装包下载2.安装原神三、登录、键盘映射及版本更新等问题登录键盘映射版本更新前言 最近买了新的mac,作者本人…...

数据结构考研习题精选

1 A假设比较t次,由于换或不换,则必然有2^t种可能。又设有n个关键字,n!排列组合,则必然有2^t&…...

linux常用命令介绍 04 篇——uniq命令使用介绍(Linux重复数据的统计处理)

linux常用命令介绍 04 篇——uniq命令使用介绍(Linux重复数据的统计处理)1. uniq 使用语法2. sort 简单效果3. uniq 使用例子3.1 不加任何选项3.1.1 不用 sort 效果3.1.2 uniq 结合 sort 一起使用3.2 使用选项例子3.2.1 去重打印(或打印不重复…...

网站打不开数据库错误等常见问题解决方法

1、“主机开设成功!”上传数据后显示此内容,是因为西部数码默认放置的index.htm内容,需要核实wwwroot目录里面是否有自己的程序文件,可以删除index.htm。 2、恭喜,lanmp安装成功!这个页面是wdcp的默认页面&…...

爬虫实战进阶版【1】——某眼专业版实时票房接口破解

某眼专业版-实时票房接口破解 某眼票房接口:https://piaofang.maoyan.com/dashboard-ajax 前言 当我们想根据某眼的接口获取票房信息的时候,发现它的接口处的参数是加密的,如下图: 红色框框的参数都是动态变化的,且signKey明显是加密的一个参数。对于这种加密的参数,我们需要…...

大话数据结构-普里姆算法(Prim)和克鲁斯卡尔算法(Kruskal)

5 最小生成树 构造连通网的最小代价生成树称为最小生成树,即Minimum Cost Spanning Tree,最小生成树通常是基于无向网/有向网构造的。 找连通网的最小生成树,经典的有两种算法,普里姆算法和克鲁斯卡尔算法。 5.1 普里姆&#xff…...

UNet-肝脏肿瘤图像语义分割

目录 一. 语义分割 二. 数据集 三. 数据增强 图像数据处理步骤 CT图像增强方法 :windowing方法 直方图均衡化 获取掩膜图像深度 在肿瘤CT图中提取肿瘤 保存肿瘤数据 四. 数据加载 数据批处理 ​编辑​编辑 数据集加载 五. UNet神经网络模型搭建 单张图片…...

三周爆赚千万 电竞选手在无聊猿游戏赢麻了

如何用3个星期赚到1千万?普通人做梦都不敢想的事,电竞职业选手Mongraal却用几把游戏轻易完成,赚钱地点是蓝筹NFT项目Bored Ape Yacht Club(BAYC无聊猿)出品的新游戏Dookey Dash。 这款游戏类似《神庙逃亡》&#xff0…...

React第五十七节 Router中RouterProvider使用详解及注意事项

前言 在 React Router v6.4 中&#xff0c;RouterProvider 是一个核心组件&#xff0c;用于提供基于数据路由&#xff08;data routers&#xff09;的新型路由方案。 它替代了传统的 <BrowserRouter>&#xff0c;支持更强大的数据加载和操作功能&#xff08;如 loader 和…...

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架&#xff0c;支持"一次开发&#xff0c;多端部署"&#xff0c;可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务&#xff0c;为旅游应用带来&#xf…...

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日&#xff0c;国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。 转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。 据「TMT星球」了解&#xff0c;“超级…...

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件&#xff0c;然后打开终端&#xff0c;进入下载文件夹&#xff0c;键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例&#xff0c;模拟20个网页的爬取&#xff0c;每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程&#xff1a;允许程序同时执行多个任务&#xff0c;提高IO密集型任务&#xff08;如网络请求&#xff09;的效率…...

MySQL用户和授权

开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务&#xff1a; test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

《C++ 模板》

目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板&#xff0c;就像一个模具&#xff0c;里面可以将不同类型的材料做成一个形状&#xff0c;其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式&#xff1a;templa…...

智能AI电话机器人系统的识别能力现状与发展水平

一、引言 随着人工智能技术的飞速发展&#xff0c;AI电话机器人系统已经从简单的自动应答工具演变为具备复杂交互能力的智能助手。这类系统结合了语音识别、自然语言处理、情感计算和机器学习等多项前沿技术&#xff0c;在客户服务、营销推广、信息查询等领域发挥着越来越重要…...

浪潮交换机配置track检测实现高速公路收费网络主备切换NQA

浪潮交换机track配置 项目背景高速网络拓扑网络情况分析通信线路收费网络路由 收费汇聚交换机相应配置收费汇聚track配置 项目背景 在实施省内一条高速公路时遇到的需求&#xff0c;本次涉及的主要是收费汇聚交换机的配置&#xff0c;浪潮网络设备在高速项目很少&#xff0c;通…...

【C++进阶篇】智能指针

C内存管理终极指南&#xff1a;智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...