当前位置: 首页 > article >正文

机器学习预备知识

目录卡方检验卡方检验的主要用途卡方检验的基本原理卡方统计量卡方检验的statsmodels实现配对卡方检验相关分析关联性分析概述什么是相关分析关联性分析各种相关系数统计图/统计表在相关分析中的重要性相关系数的计算原理常用术语针对两连续变量的相关Pearson相关系数Spearman秩相关系数相关分析的Python实现RR与ORRR(Relative Risk)——相对危险度OR(Odds Ratio)——优势比代码实现卡方检验注意在统计分析阶段的假设检验中也提及到了卡方检验那是针对单个总体方差的检验本章中的卡方检验是针对分类变量的比较。卡方检验的主要用途两个率或两个构成比比较的卡方检验多个率或多个构成比比较的卡方检验分类资料的相关分析卡方检验的基本原理H~0~:观察频数与期望频数没有差别其原理为考察基于H~0~的理论频数分布和实际频数分布间的差异大小据此求出相应的P值案例所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类现希望考察不同收入级别的家庭其轿车拥有率是否相同基于H~0~成立即观察频数和期望频数无差别也就是两组变量家庭收入级别与是否拥有轿车相互不产生影响两组变量不相关如果检验P值很高则接受H~0~如果检验P值很低则检验不通过观察频数和期望频数有差别两组变量相关。卡方统计量卡方统计量的计算公式χ2∑(A−E)2E其中A为实际频数E为期望频数理论频数。卡方统计量的理解当观察频数与期望频数完全一致时卡方值为0观察频数与期望频数越接近两者之间的差异越小卡方值越小观察频数与期望频数差异越大卡方值越大卡方值的大小也和自由度有关卡方检验的statsmodels实现案例所有受访家庭会按照家庭年收入被分为低收入家庭和高收入家庭两类现希望考察不同收入级别的家庭其轿车拥有率是否相同statsmodels中首先需要建立对应的列联表对象class statsmodels.stats.contingency_tables.Table( table shift_zeros True : 如果有单元格频数为0则所有单元格频数一律0.5防止计算溢出 )Table类的方法:test_nominal_association() 无序分类行、列变量的独立性检验配对卡方检验McNemars检验配对卡方检验用于分析两个相关率的变化是否有统计学意义案例用A、B两种方法检查已确诊的某种疾病患者140名A法检出91名(65%)B法检出77名(55%)A、B两法一致的检出56名(40%)问哪种方法阳性检出率更高分析思路H~0~:两种方法阳性检出率无差别即b单元格c单元格对同一个体分别有两次不同的测量并最终构成了两组数据因此研究框架是自身配对设计求出各对的差值然后考察样本中差值的分布是否按照H~0~假设的情况对称分布主对角线上的样本两种检验方法的结论相同非主对角线上的单元格才携带检验方法的差异信息根据H~0~得到b、c两格的理论数均为(bc)/2,对应的配对检验统计量经过化简后是χ2(b−c)2bc一般在 b c 40 时需用确切概率法进行检验或者进行校正代码实现statsmodels.stats.contingency_tables中常用的配对卡方的分析使用tbl.SquareTable 用于分析行列变量类别相同的对称结构方表近似结果tbl.mcnemar 用于分析配对四格表确切概率结果用SquareTable类分析import numpy as np import statsmodels.stats.contingency_tables as tbl # 必须为方阵结构数据 table tbl.SquareTable(np.array([[56, 35], [21, 28]])) print(table.summary()) # 打印汇总信息 print(table.symmetry()) # 只打印symmetry用mcnemar类分析import statsmodels.stats.contingency_tables as tbl table tbl.mcnemar(pd.DataFrame([[56, 35], [21, 28]])) print(table.pvalue) # 确切概率结果相关分析关联性分析概述什么是相关分析关联性分析相关分析是用于考察变量间数量关系密切程度的分析方法例如身高与体重的关系几乎所有涉及到多个变量的假设检验方法都可以被看作是这些变量间的关联性分析t检验分组变量与连续因变量间的关联性分析卡方检验行、列分类变量间的关联性分析聚类分析案例(case)间的关联性分析多变量回归因变量和一组自变量间的关联性分析各种相关系数连续 vs 连续Pearson相关系数双变量正态分布Spearman秩相关系数不符合双变量正态分布有序 vs 有序Gamma系数、肯德尔相关系数等例如医生级别与治疗效果的相关关系也可使用Spearman秩相关系数无序 vs 无序列联系数等例如民族与职业的关系基于卡方统计量进一步推导而来无方向 0~1OR/RR:一类特殊的关联强度指标连续 vs 分类Eta(本质上是方差解释度即连续变量的离散度有多少可以被另外的分类指标所解释)统计图/统计表在相关分析中的重要性连续变量用散点图先确认关联趋势是否为直线分类变量分组条图、马赛克图分组百分条图等工具相关系数的计算原理常用术语针对两连续变量的相关直线相关两变量呈线性共同增大或者呈线性一增一减的情况曲线相关两变量存在相关趋势但是为各种可能的曲线趋势正相关与负相关如果A变量增加时B变量也增加则为正相关如果A变量增加时B变量减小则为负相关完全相关完全正相关完全负相关零相关自变量的变化,不会影响因变量的变化Pearson相关系数计算公式ρ(X,Y)cov(X,Y)σXσYE(XY)−E(X)E(Y)σXσY公式理解标准差代表变量的离散程度信息量大小协方差Cov(X,Y)代表各变量共同携带的信息量大小相关系数代表两个变量总信息量中的共同部分占比相关系数ρ的取值范围-1 ρ 1其正负反映了相关的方向|ρ|越接近于1说明相关性越好|ρ|越接近于0说明相关性越差Pearson相关系数的检验H~0~:两变量间无直线相关关系ρ0检验方法t检验tr−0sr,dfn−2Pearson相关系数的适用条件必须是线性相关的情形可以先绘制散点图观察一下针对两连续变量的相关系数极端值对相关系数的计算影响极大因此要慎重考虑和使用要求相应的变量呈双变量正态分布近似也可以Spearman秩相关系数不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数Spearman提出首先对数据做秩变换然后再计算两组秩间的直线相关系数秩变换分析思想相关分析的Python实现相关分析作为比较简单的方法在statsmodels中并未作进一步的完善因此主要使用scipy实现两个连续变量且符合双变量正态分布Pearson相关系数scipy.stats.kendalltau(a, b) # 肯德尔相关系数 scipy.stats.spearmanr(a, b) # 斯皮尔曼秩相关系数scipy.stats.pearsonr(a, b)两个连续变量不符合双变量正态分布Spearman秩相关系数scipy.stats.spearmanr(a, b)两个有序变量Kendalls TauSpearman秩相关系数scipy.stats.kendalltau(a, b) # 肯德尔相关系数 scipy.stats.spearmanr(a, b) # 斯皮尔曼秩相关系数RR与ORRR(Relative Risk)——相对危险度表示两种情况下发病密度或者说发病概率之比P~t~实验组人群反应阳性概率P~c~对照组人群反应阳性概率RRPtPca/ntc/nc如果RR 1说明相应的自变量取值增加会导致个体发病/死亡风险增加若干倍例如吸烟者的发病概率是非吸烟者的5倍RR在医学中得到了极为广泛的应用RR的计算条件比较苛刻观察周期长OR(Odds Ratio)——优势比为下列两种比例之比反应阳性人群中实验因素有无的比例 a/b反应阴性人群中实验因素有无的比例 c/dORa/bc/d例如某疾病病例中吸烟/非吸烟者的比例是非病例中吸烟/非吸烟者比例的3倍OR可以间接反映关联强度但是理解上比较困难发病概率较低时OR往往近似的在按照RR的含义进行解释和使用代码实现scipy的实现方式scipy.stats.fisher_exact()中可以计算OR值相应的检验P值则是确切概率法的P值OR, P ss.fisher_exact(pd.crosstab(home.Ts9, home.O1))statsmodels的实现方式import numpy as np import statsmodels.stats.contingency_tables as tbl # 这里必须使用np.array函数进行数组转换否则后续计算会出问题 table tbl.Table2x2(np.array(pd.crosstab(home.Ts9, home.O1))) print(table.oddsratio) # OR值 print(table.summary()) # 汇总信息

相关文章:

机器学习预备知识

目录 卡方检验 卡方检验的主要用途 卡方检验的基本原理 卡方统计量 卡方检验的statsmodels实现 配对卡方检验 相关分析(关联性分析)概述 什么是相关分析(关联性分析) 各种相关系数 统计图/统计表在相关分析中的重要性 相…...

基于MCP协议构建Java WHOIS查询服务器,无缝集成AI助手工作流

1. 项目概述:一个为AI助手打造的WHOIS查询工具最近在折腾AI编程助手,发现一个挺有意思的需求:当我在和Claude或者Cursor讨论一个网站项目时,经常会想顺手查一下这个域名的注册信息。比如,评估一个竞品网站,…...

Spyglass:开源Kubernetes集群监控与成本管理平台深度解析

1. Spyglass:一个开源Kubernetes集群监控与成本管理平台深度解析如果你正在管理一个或多个Kubernetes集群,那么下面这个场景你一定不陌生:为了搞清楚集群的健康状况,你得在Grafana里看性能图表;为了排查一个Pod的问题&…...

Godot资源解包终极指南:快速提取游戏资源的完整实践教程

Godot资源解包终极指南:快速提取游戏资源的完整实践教程 【免费下载链接】godot-unpacker godot .pck unpacker 项目地址: https://gitcode.com/gh_mirrors/go/godot-unpacker 在Godot游戏开发与资源分析领域,Godot资源解包工具是一款专门用于解包…...

基于SimAM无参数注意力机制的YOLOv10改进:提升目标检测性能的新范式

摘要 在计算机视觉领域,目标检测任务一直是研究的热点与难点。YOLOv10作为YOLO系列的最新成员,凭借其出色的实时性能和检测精度,已经在工业界和学术界获得了广泛应用。然而,如何在保持模型轻量化的同时进一步提升特征表达能力,仍然是一个值得深入探索的问题。本文提出了一…...

【2026年版|收藏级】RAG系统延迟优化实战:从链路拆解到面试通关,小白也能看懂

说实话,在2026年大模型落地常态化的今天,5秒的RAG系统首字响应时间,在C端产品里基本等于直接流失用户——用户不会耐心等待一个“反应迟钝”的AI,尤其是在对话式交互、智能问答等高频场景中。 不管是日常开发落地,还是…...

Linux 多进程多线程 学习笔记

进程是什么进程定义:进程是操作系统中的一次执行过程,它是操作系统进行资源分配和调度的基本单位;...

(学习笔记)4.2 逻辑设计和硬件控制语言HCL(4.2.1 逻辑门4.2.2 组合电路和HCL布尔表达式)

文章目录线索栏笔记栏1.硬件设计概述与HCL1)数字系统三要素2)HCL(硬件控制语言)的角色3)设计方法的演进(旁注)2.逻辑门与组合电路1)逻辑门2)组合电路3.HCL vs. C 表达式&…...

AI Agent 记忆机制详解:程序员进阶大模型开发必备(收藏版)

AI Agent 记忆机制详解:程序员进阶大模型开发必备(收藏版) 本文详细解析了 AI Agent 的四层记忆机制(感知记忆、短期记忆、长期记忆和实体记忆),并探讨了设计记忆模块时需要解决的三大核心问题(…...

【往届五届全部见刊检索!SPIE出版!大连线下召开】第六届计算机视觉与模式分析国际学术大会 (ICCPA 2026)

2026年第六届计算机视觉与模式分析国际会议(ICCPA 2026)将于2026年5月8-10日在中国大连召开。ICCPA 2026汇集了来自世界各地的计算机视觉与模式分析领域的学者、研究人员、工程师和企业家,旨在搭建一个促进学术交流和成果共享的重要平台&…...

ComfyUI Qwen-Image-Edit-F2P 人脸生成图像:真实体验报告,这个AI工具到底有多好用

ComfyUI Qwen-Image-Edit-F2P 人脸生成图像:真实体验报告,这个AI工具到底有多好用 1. 初识Qwen-Image-Edit-F2P:它能做什么? 最近我测试了一款名为Qwen-Image-Edit-F2P的人脸生成图像工具,它基于ComfyUI平台部署&…...

Flink 系列第18篇:Flink 动态表、连续查询与 Changelog 机制

一、概述 动态表(Dynamic Table)和连续查询(Continuous Query)是 Flink Table API / SQL 实现流批统一与标准关系代数语义的两大核心理论基础。 其核心思想:将无限、无界的流式数据,映射为一张随时间不断变…...

大语言模型奉承偏差:现象、诊断与干预策略

1. 大语言模型中的奉承偏差现象解析在大型语言模型(LLM)的优化过程中,一个令人担忧的现象逐渐浮出水面——模型会在真实性和顺从性之间形成结构性权衡。这种现象被称为"奉承偏差"(sycophancy),它…...

[Android] 一个靠AI完成基本的构架 app 家物管(永久免费) 正式版

[Android] 一个靠AI完成基本的构架 app 家物管(永久免费) 正式版 链接:https://pan.xunlei.com/s/VOrD8C5uEd7n8jX9m4cMj1v3A1?pwd5av9# 发现记心越来越差,收纳的东西翻破天都没找到,灵光一闪,AI都包月,不用白不用。…...

收藏 | AI赋能开发全流程:小白也能掌握的大模型应用秘籍

收藏 | AI赋能开发全流程:小白也能掌握的大模型应用秘籍 本文深入探讨了AI技术如何优化产品开发流程,从PRD撰写到代码生成实现全流程覆盖。通过多Agent协作、智能化流程设计,AI显著提升产研效率。文章详细介绍了PRD设计、系统分析及代码生成应…...

[Windows] 知识库 Knowledge Base v1.1.0

[Windows] 知识库 Knowledge Base v1.1.0 链接:https://pan.xunlei.com/s/VOrCzt6D4I201Q6SvZeR5QMVA1?pwdbg72# Markdown 双向链接 知识图谱 全文搜索 AI 问答 — 所有数据保存在你自己的电脑上,永远不会丢。...

构建具备长期记忆能力的 AI Agent Harness Engineering 指南

从零到一构建具备长期记忆能力的AI Agent:Harness Engineering 全链路实践指南 副标题:从记忆原理、架构设计到生产落地的完整方法论 摘要/引言 你有没有遇到过这样的场景:你花了半小时给AI助理讲了你对猫毛过敏、乳糖不耐受、喜欢住安静的高楼层酒店,过了一周再让它帮你…...

Flink 系列第19篇:深入理解 Flink SQL 的时间语义与时区处理:从原理到实战

在大数据实时计算领域,时间就像空气一样无处不在却又极易被忽视。你也许曾为“明明数据已经来了,窗口为什么迟迟不触发”而抓狂,也可能被“每天零点统计的指标总是对不上”折磨到怀疑人生。这些问题的背后,往往都指向同一个元凶—…...

3大核心功能深度解析:NxDumpTool游戏卡带转储全攻略

3大核心功能深度解析:NxDumpTool游戏卡带转储全攻略 【免费下载链接】nxdumptool Generates XCI/NSP/HFS0/ExeFS/RomFS/Certificate/Ticket dumps from Nintendo Switch gamecards and installed SD/eMMC titles. 项目地址: https://gitcode.com/gh_mirrors/nx/nx…...

Agent 的需求理解质量如何具体实现:从意图识别到槽位补全、追问与确认机制

文章目录 一、需求理解的本质:从“识别意图”升级为“构建可执行任务”二、第一步:定义任务类型或意图模板三、第二步:为每类任务设计槽位 Schema四、第三步:用结构化输出承接模型理解结果五、第四步:意图识别、槽位抽…...

终极Windows界面美化指南:用ExplorerPatcher打造个性化工作环境

终极Windows界面美化指南:用ExplorerPatcher打造个性化工作环境 【免费下载链接】ExplorerPatcher This project aims to enhance the working environment on Windows 项目地址: https://gitcode.com/GitHub_Trending/ex/ExplorerPatcher 厌倦了Windows 11千…...

VS Code MCP插件签名验证与灰度发布体系:金融级可信链构建全流程(含OpenSSF合规检查清单)

更多请点击: https://intelliparadigm.com 第一章:VS Code MCP插件生态搭建手册 MCP 协议与 VS Code 集成原理 MCP(Model Context Protocol)是面向大模型工具调用的开放协议,VS Code 通过官方语言服务器协议&#xf…...

解决新版 VSCode 无法 ssh 连接 WSL Ubuntu18.04的问题

解决新版 VSCode 无法 ssh 连接 WSL Ubuntu18.04的问题 第一步:安装必备工具(patchelf,修改程序依赖的核心工具) 打开 WSL Ubuntu18.04 终端,执行命令: # 更新软件源 sudo apt update # 安装patchelf&#…...

音乐标签智能转换:告别繁简乱码,打造统一音乐库的终极方案

音乐标签智能转换:告别繁简乱码,打造统一音乐库的终极方案 【免费下载链接】music-tag-web 音乐标签编辑器,可编辑本地音乐文件的元数据(Editable local music file metadata.) 项目地址: https://gitcode.com/gh_mi…...

XUnity.AutoTranslator:Unity游戏实时翻译插件的完整配置指南

XUnity.AutoTranslator:Unity游戏实时翻译插件的完整配置指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因为语言障碍而错过了许多优秀的Unity游戏?XUnity.AutoTrans…...

980 元入局!中小企业 AI 搜索获客轻量化方案

中小企业的线上获客,始终绕不开三大痛点:获客成本高企、专业技术门槛高、试错风险大。传统 SEM 投放单次点击成本动辄数十元,SEO 优化周期长达数月,而 AI 搜索时代的流量红利,又因技术壁垒难以触达。对于中小企业而言&…...

【车载开发系列】DTC故障码的老化

【车载开发系列】DTC故障码的老化 【车载开发系列】DTC故障码的老化【车载开发系列】DTC故障码的老化一. 什么是AgingTimes二. 什么是AgedTimes三. 两者的区别与联系四. 什么是 Debounce(防抖)1)Fault Debounce 【故障防抖 / 失败防抖】2&…...

OpenClaw 实时语音功能分析

OpenClaw 实时语音功能分析 核心架构 OpenClaw 的实时语音功能采用分层架构设计,主要由以下模块组成: 1. 实时语音桥接系统 (RealtimeVoiceBridge) realtime-voice/ 目录下的核心实现 提供 RealtimeVoiceBridge 接口,支持创建和管理语音会话 关键类型:RealtimeVoiceBrid…...

大模型---温度与其他采样方法

目录 1.温度的定义 2.温度和top-k、top-p的关系 参考论文:1904.09751 1.温度的定义 温度是模型解码阶段的一个采样参数:模型先为下一个 token 计算一组logits(大小为词表大小,logit表示词表中每个token的分数),再用温度把这组 logits 重新缩放,最后通过 softmax 得到…...

测绘工程就业有哪些坑?如何避开?

测绘工程专业,目前招聘市场上的岗位,目前主要分为测绘内业和外业。1、测绘外业外业需要外出,条件艰苦,如果在城郊还好一点,大部分时间是要去穷乡僻壤、高山、沼泽、沙漠、铁路、工地等......很多学测绘专业的同学不想干…...