机器学习数学基础:32.斯皮尔曼等级相关
斯皮尔曼等级相关教程
一、定义与原理
斯皮尔曼等级相关系数(Spearman’s rank - correlation coefficient),常用 ρ \rho ρ表示,是一种非参数统计量,用于衡量两个变量的等级之间的关联程度。它基于变量的秩次(排序后的位置)进行计算,不依赖于数据的分布形态,能有效处理非线性关系和非数值型的有序数据。取值范围在 − 1 -1 −1到 1 1 1之间, ρ = 1 \rho \ = 1 ρ =1表示完全正相关,即一个变量的等级增加时,另一个变量的等级也严格增加; ρ = − 1 \rho \ = - 1 ρ =−1表示完全负相关; ρ = 0 \rho \ = 0 ρ =0表示不存在等级相关关系。
二、适用场景
- 数据为定序数据:如比赛名次、成绩等级、满意度排序等,例如分析不同餐厅在美食评选中的排名和顾客推荐率排名的关系。
- 数据分布未知或不满足正态分布:当无法确定数据是否服从正态分布,或者明确知道数据不服从正态分布时,斯皮尔曼等级相关系数是很好的选择。
- 变量间为非线性关系:只要两个变量之间存在单调变化趋势(不一定是线性),都可以用它来衡量相关性,比如植物生长时间和植株高度的关系(可能是先慢后快再趋于平稳的非线性增长) 。
三、计算步骤
斯皮尔曼等级相关系数计算
- 数据排序:分别对两个变量的数据进行排序,确定每个数据在各自变量中的等级。若存在相同数值,通常取平均等级。例如,有三个数据 3 3 3, 3 3 3, 5 5 5,它们的等级分别为 1.5 1.5 1.5( ( 1 + 2 ) ÷ 2 (1 + 2)\div2 (1+2)÷2), 1.5 1.5 1.5, 3 3 3。
- 计算等级差:对于每一对数据,计算它们的等级差 d i d_{i} di。
- 计算等级差的平方:得到 d i 2 d_{i}^{2} di2,并对所有的 d i 2 d_{i}^{2} di2求和,得到 ∑ d i 2 \sum d_{i}^{2} ∑di2。
- 计算相关系数:根据公式 ρ = 1 − 6 ∑ d i 2 n 3 − n \rho \ = 1-\frac{6\sum d_{i}^{2}}{n^{3}-n} ρ =1−n3−n6∑di2( n n n为样本数量)计算斯皮尔曼等级相关系数。
t检验步骤
- 建立假设
- 原假设 H 0 H_0 H0:总体的斯皮尔曼等级相关系数 ρ = 0 \rho \ = 0 ρ =0,即总体中两个变量之间不存在等级相关关系。
- 备择假设 H 1 H_1 H1:总体的斯皮尔曼等级相关系数 ρ ≠ 0 \rho\neq 0 ρ=0,即总体中两个变量之间存在等级相关关系。
- 计算t统计量:在斯皮尔曼等级相关的t检验中,可使用公式 t = r R n − 2 1 − r R 2 t\ =\frac{r_{R}\sqrt{n - 2}}{\sqrt{1 - r_{R}^{2}}} t =1−rR2rRn−2(这里 r R r_{R} rR表示计算得到的斯皮尔曼等级相关系数, n n n为样本数量)。此公式与积差相关系数(如Pearson相关系数)检验中t统计量的计算形式相同,这样做是因为在一定条件下,基于等级数据计算出的相关系数的抽样分布近似于t分布。
- 确定临界值:根据给定的显著性水平 α \alpha α(常用的有 0.05 0.05 0.05、 0.01 0.01 0.01等)和自由度 d f = n − 2 df \ = n - 2 df =n−2,查阅 t t t分布表得到临界值 t α / 2 ( n − 2 ) t_{\alpha/2}(n - 2) tα/2(n−2)。
- 做出决策
- 如果 ∣ t ∣ > t α / 2 ( n − 2 ) \vert t\vert>t_{\alpha/2}(n - 2) ∣t∣>tα/2(n−2),则拒绝原假设 H 0 H_0 H0,认为总体中两个变量之间存在等级相关关系。
- 如果 ∣ t ∣ ≤ t α / 2 ( n − 2 ) \vert t\vert\leq t_{\alpha/2}(n - 2) ∣t∣≤tα/2(n−2),则不能拒绝原假设 H 0 H_0 H0,即没有足够证据表明总体中两个变量之间存在等级相关关系。
四、实例演示
斯皮尔曼等级相关系数计算实例
研究 6 6 6名学生的语文成绩排名和英语成绩排名的相关性,数据如下:
| 学生编号 | 语文成绩排名 X X X | 英语成绩排名 Y Y Y | d i d_{i} di(等级差) | d i 2 d_{i}^{2} di2(等级差的平方) |
|---|---|---|---|---|
| 1 | 2 | 3 | -1 | 1 |
| 2 | 4 | 2 | 2 | 4 |
| 3 | 1 | 1 | 0 | 0 |
| 4 | 3 | 4 | -1 | 1 |
| 5 | 5 | 5 | 0 | 0 |
| 6 | 6 | 6 | 0 | 0 |
计算 ∑ d i 2 = 1 + 4 + 0 + 1 + 0 + 0 = 6 \sum d_{i}^{2}\ =1 + 4+0 + 1+0 + 0 \ = 6 ∑di2 =1+4+0+1+0+0 =6, n = 6 n \ = 6 n =6。
代入公式可得:
ρ = 1 − 6 × 6 6 3 − 6 = 1 − 36 216 − 6 = 1 − 36 210 ≈ 0.83 \begin{align*} \rho&\ =1-\frac{6\times6}{6^{3}-6}\\ &\ =1-\frac{36}{216 - 6}\\ &\ =1-\frac{36}{210}\\ &\approx0.83 \end{align*} ρ =1−63−66×6 =1−216−636 =1−21036≈0.83
结果表明,这 6 6 6名学生的语文和英语成绩排名有较强的正相关关系。
t检验实例
针对上述例子,假设显著性水平 α = 0.05 \alpha \ = 0.05 α =0.05。
- 已知 r R ≈ 0.83 r_{R} \approx 0.83 rR≈0.83, n = 6 n \ = 6 n =6,计算 t t t统计量:
t = 0.83 6 − 2 1 − 0.8 3 2 = 0.83 × 2 1 − 0.6889 = 1.66 0.3111 ≈ 2.97 \begin{align*} t&\ =\frac{0.83\sqrt{6 - 2}}{\sqrt{1 - 0.83^{2}}}\\ &\ =\frac{0.83\times2}{\sqrt{1 - 0.6889}}\\ &\ =\frac{1.66}{\sqrt{0.3111}}\\ &\approx2.97 \end{align*} t =1−0.8320.836−2 =1−0.68890.83×2 =0.31111.66≈2.97 - 自由度 d f = n − 2 = 6 − 2 = 4 df \ = n - 2 \ = 6 - 2 \ = 4 df =n−2 =6−2 =4,查 t t t分布表得 t 0.025 ( 4 ) = 2.776 t_{0.025}(4)\ = 2.776 t0.025(4) =2.776。
- 因为 ∣ 2.97 ∣ > 2.776 \vert 2.97\vert> 2.776 ∣2.97∣>2.776,所以拒绝原假设 H 0 H_0 H0,可以认为在总体中,学生的语文成绩排名和英语成绩排名之间存在等级相关关系。
五、注意事项
- 只反映等级相关:它衡量的是变量等级之间的关联,并非原始数据值之间的精确关系。
- 对单调关系敏感:只能检测单调的相关关系,若变量间关系复杂非单调,可能无法准确反映相关性。
- 样本数量影响:样本数量过少可能导致结果不稳定,一般建议样本量 n ≥ 10 n\geq 10 n≥10 。
- t检验前提:虽然斯皮尔曼等级相关的t检验形式与积差相关类似,但在使用时要注意其基于等级数据的特点,以及样本数据对近似t分布条件的满足程度。当样本量较小时,t检验结果的准确性可能会受到一定影响。
相关文章:
机器学习数学基础:32.斯皮尔曼等级相关
斯皮尔曼等级相关教程 一、定义与原理 斯皮尔曼等级相关系数(Spearman’s rank - correlation coefficient),常用 ρ \rho ρ表示,是一种非参数统计量,用于衡量两个变量的等级之间的关联程度。它基于变量的秩次&…...
《论区块链技术及应用》审题技巧 - 系统架构设计师
区块链技术及应用论题写作框架 一、考点概述 本论题“区块链技术及应用”主要考察软件测试工程师对区块链技术的理解及其在软件项目中的实际应用能力。论题涵盖了多个关键方面,首先要求考生对区块链技术有全面的认识,包括但不限于其作为分布式记账技术…...
2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(四)
2024-2025 学年广东省职业院校技能大赛 “信息安全管理与评估”赛项 技能测试试卷(四) 第一部分:网络平台搭建与设备安全防护任务书第二部分:网络安全事件响应、数字取证调查、应用程序安全任务书任务 1:应急响应&…...
单片机的串口(USART)
Tx - 数据的发送引脚,Rx - 数据的接受引脚。 串口的数据帧格式 空闲状态高电平,起始位低电平,数据位有8位校验位,9位校验位,停止位是高电平保持一位或者半位,又或者两位的状态。 8位无校验位传输一个字节…...
Modelfile配置说明
参数说明翻译 参数描述值类型示例用法mirostat启用Mirostat采样以控制困惑度。(默认:0,0禁用,1Mirostat,2Mirostat 2.0)intmirostat 0mirostat_eta影响算法对生成文本反馈的响应速度。较低的学习率将导致调…...
pnpm的基本用法
以下是 pnpm 的核心命令和使用指南,涵盖从安装依赖到项目管理的常见操作: 1. 基础命令 (1) 安装依赖 pnpm install # 安装 package.json 中的所有依赖 pnpm install <包名> # 安装指定包(自动添加到 dependencies…...
动态规划(背包问题)--是否逆序使用的问题--二进制拆分的问题
动态规划(背包问题) 题目链接01背包代码 完全背包问题代码 多重背包问题 I代码 什么时候适用逆序多重背包问题 II(超百万级的复杂度)代码 关于二进制拆分 题目链接 01背包 代码 #include <iostream> #include <vector&…...
Vue 中动态实现进度条
在 Vue 中动态实现进度条,基本上有两种常见的方法:直接通过 Vue 数据绑定控制样式,或者利用外部库来实现更复杂的功能。我们会深入探讨这两种方式,并且详细说明每种方法的实现步骤、优缺点以及使用场景。 1. 使用 Vue 数据绑定来…...
如何基于PyTorch做二次开发
基于PyTorch进行二次开发以实现可视化工程,可以从以下几个方面入手:模型结构可视化、训练过程监控、特征可视化等。以下是一些推荐的GitHub项目,这些项目可以帮助你快速搭建一个可视化的工程环境: ### 1. **PyTorch CNN Visualiz…...
Mac 版 本地部署deepseek ➕ RAGflow 知识库搭建流程分享(附问题解决方法)
安装: 1、首先按照此视频的流程一步一步进行安装:(macos版)ragflowdeepseek 私域知识库搭建流程分享_哔哩哔哩_bilibili 2、RAGflow 官网文档指南:https://ragflow.io 3、RAGflow 下载地址:https://github.com/infi…...
算法——后缀平衡树
先回想一下之前讨论的内容。之前我们详细讨论了后缀树,包括它的构建、应用以及相关算法。用户可能是在了解后缀树之后,想要进一步探索相关的数据结构,或者是想比较后缀树和后缀平衡树的异同。 后缀平衡树并不是一个常见的数据结构名称&#…...
姿态矩阵/旋转矩阵/反对称阵
物理意义,端点矢量角速率叉乘本身向量; 负号是动系b看固定系i是相反的; 一个固定 在惯性导航解算中,旋转矢量的叉乘用于描述姿态矩阵的微分方程。你提到的公式中, ω i b b \boldsymbol{\omega}_{ib}^b \times ωibb…...
【大语言模型】【整合版】DeepSeek 模型提示词学习笔记(散装的可以看我之前的学习笔记,这里只是归纳与总结了一下思路,内容和之前发的差不多)
以下是个人笔记的正文内容: 原文在FlowUs知识库上,如下截图。里面内容和这里一样,知识排版好看一点 一、什么是 DeepSeek 1. DeepSeek 简介 DeepSeek 是一家专注于通用人工智能(AGI)的中国科技公司,主攻大模型研发与…...
ollama无法通过IP:11434访问
目录 1.介绍 2.直接在ollama的当前命令窗口中修改(法1) 3.更改ollama配置文件(法2) 3.1更新配置 3.2重启服务 1.介绍 ollama下载后默认情况下都是直接在本地的11434端口中运行,绑定到127.0.0.1(localhost)&#x…...
⭐算法OJ⭐位操作用法总结+实战指南(C++实现)
位操作在OJ 题目中是一种非常高效的工具,常用于优化时间复杂度和空间复杂度。本文是位操作在 OJ 题目中的主要用法总结,并以 C 实现为例。 相关题目:《C⭐算法OJ⭐Single Number 系列(位操作)》 文章目录 1. 基本位操…...
2.1 用大模型构建新人答疑机器人-大模型ACP模拟题-真题
真题 真题:如何初始化OpenAI客户端 client OpenAI( api_keyos.getenv("DASHSCOPE_API_KEY"), base_url"https://dashscope.aliyuncs.com/compatible-mode/v1", ) AI生成模拟题 一、单选题 (每题5分,共6题ÿ…...
单片机裸机编程-时机管理
对于 RTOS 实时操作系统,我们是通过 TASK(任务)进行底层操作的,这与裸机编程中的函数(fun)类似。不同的任务或函数实现不同的功能,在RTOS中,单片机有信号量、队列等不同任务之间的通…...
Bugku CTF CRYPTO
Bugku CTF CRYPTO 文章目录 Bugku CTF CRYPTO聪明的小羊ok[-<>]散乱的密文.!? 聪明的小羊 描 述: 一只小羊翻过了2个栅栏 fa{fe13f590lg6d46d0d0} 分 析:栅栏密码,分2栏,一个栏里有11个 ①手动解密 f a { f e 1 3 f 5 9 0 l g 6 d 4 …...
【洛谷】【ARC100E】Or Plus Max(高维前缀和)
传送门:Or Plus Max 高维前缀和 题目描述 長さ 2N の整数列 A0, A1, ..., A2N−1 があります。(添字が 0 から始まることに注意) 1 ≤ K ≤ 2N−1 を満たすすべての整数 K について、次の問題を解いてください。 i,j を整数と…...
宿主机的 root 是否等于 Docker 容器的 root?
在 Docker 容器化技术中,宿主机的 root 和 容器的 root 并不完全相同,尽管它们都称作 “root 用户”。这里需要明确的是,Docker 容器与宿主机之间存在隔离机制,容器内的 root 用户和宿主机的 root 用户有一些关键的区别。 1. 宿主…...
SmolLM2:多阶段训练策略优化和高质量数据集,小型语言模型同样可以实现卓越的性能表现
SmolLM2 采用创新的四阶段训练策略,在仅使用 1.7B 参数的情况下,成功挑战了大型语言模型的性能边界: 在 MMLU-Pro 等测试中超越 Qwen2.5-1.5B 近 6 个百分点数学推理能力(GSM8K、MATH)优于 Llama3.2-1B在代码生成和文…...
云原生降本之路:技术创新与应用解析
随着云计算的快速发展,云原生技术已成为企业降低成本、提高效率的重要手段。本文基于腾讯云容器技术专家孟凡杰的PPT内容,深入探讨了云原生技术在降低企业成本方面的应用,包括资源利用现状、成本优化思路、Kubernetes中的资源分配、横向与纵向…...
《Effective Objective-C》阅读笔记(中)
目录 接口与API设计 用前缀避免命名空间冲突 提供“全能初始化方法” 实现description方法 尽量使用不可变对象 使用清晰而协调的命名方式 方法命名 编辑类与协议命名 为私有方法名加前缀 理解OC错误模型 理解NSCopying协议 协议与分类 通过委托与数据源协议进行…...
Hbase客户端API——语句大全
目录 创建表: 插入数据: 删除数据: 修改数据: 查询数据:Get 查询数据:Scan 查询数据:过滤查询 创建表: 检验: 插入数据: 验证 一次多条数据插入 验证&…...
MQ(Message Queue)
目录 MQ(Message Queue)基本概念 为什么要使用消息队列? 使用消息队列有什么缺点? 如何保证消息不丢失?(如何保证消息的可靠性传输?/如何处理消息丢失的问题?) 通用的MQ场景: RabbitMQ如何保证消息不丢失? 生产者丢数据…...
SQL进阶实战技巧:汽车转向次数分析 | 真实场景案例
目录 0 问题描述 1 数据准备 2 问题分析 3 小结 关键技术总结 0 问题描述 现有一组实际汽车在平整路面安全行驶数据,每秒记录一次汽车的车头绝对指向,车头方向记为[0-360)度,部分数据如下,完整数据后附文件。...
青少年软件编程(C语言)等级三级考试试题(2)
Minecraft 题目描述 Minecraft 是一个几乎无所不能的沙盒游戏,玩家可以利用游戏内的各种资源进行创造,搭建自己的世界。 在 Minecraft 中,基本的建筑元素是边长为 1 个单位的立方体,Tony 想用 N 个这种小立方体搭建一个长方体&…...
计算机网络————(三)
前文二 前文一 Websocket协议 是一种存在TCP协议之上的协议 当客户端需要了解服务器是否更新就需要不断给客户端发送请求询问是否更新,这行会造成服务端压力很大 而Websocket相当于服务器一旦更新了就会给客户端发送消息表明自己更新了,类似客户端订阅…...
【音视频】音视频录制、播放原理
一、音视频录制原理 通常,音视频录制的步骤如下图所示: 我们分别从音频和视频开始采样,通过麦克风和摄像头来接受我们的音频信息和图像信息,这通常是同时进行的,不过,通常视频的采集会比音频的采集慢&…...
如何用python将pdf转为text并提取其中的图片
要将 PDF 转为文本并提取其中的图片,可以使用 Python 的几个库来实现: PDF 转文本:使用 PyMuPDF 或 pdfplumber 来提取文本。提取图片:使用 PyMuPDF 或 pdf2image 来提取图像。 以下是实现的步骤和代码示例: 1. 安装…...
