数学建模——统计回归模型
一、基本知识
1、基本统计量
- 总体:研究对象的某个感兴趣的指标。
- 样本:从总体中随机抽取的独立个体X1,X2,…,Xn,一般称(X1,…,Xn)为一个样本,可以看成一个n维随机向量,它的每一取组值(x1,…,xn)称为样本的观测值。
- 统计量:样本是总体的代表,抽取后不直接利用样本的观测值进行推断,而是把样本所包含的有关信息集中起来进行研究,即针对研究的目的构造样本的某种函数,称为样本函数,只包含样本信息的样本函数就是统计量。根据研究目的,下面介绍常见的统计量。
平均值、中位数、众数、方差、均方差(标准差)、极差就不介绍了。
- 分位数:满足
的Zα称为分布函数F的α分位数。 - 偏度:
反映数据分布对称性指标。 当P1>0是称为右偏,即数据位于均值右边的居多;当P1<0是左偏,即数据位于均值左边的居多;当P1≈0时,数据分布关于均值对称。 - 峰度:
。计算正态分布的峰度值为3(均匀分布的峰度是1.8),若P2>3,表示数据分布有沉重的尾巴,即很多数据离均值较远。 - k阶原点矩:

- k阶中心矩:

- 变异系数(Coefficient of Variation):
(两组变量量纲不同时的差异程度比较),常常用于反映重要程度的权系数。
二、统计回归模型基础
1、回归模型
处于同一个大系统下各个变量,它们相依存,相互制约,却又不能判定为确定的函数关系,这类关系称为相关关系。例如作物的产量与施肥量相关,人的身高与体重相关。
一般地,考虑多个变量的情形,将考察的目标的变量Y称为因变量,而影响它的其它各个变量称为自变量或可控变量。在给定可控变量X1,X2,…,Xp的一组观测值x1,x2,…,xp,若Y的条件数学期望
存在,称其为Y关于X1,X2,…,Xp的回归函数。
称为Y对X1,…,Xp的回归方程。
【2.1】称为Y对X1,…,Xp的回归模型。特别当
时,称【2.1】为正态回归模型,其中ε表示模型的拟合误差,又称为残差或随机扰动项。理想的模型应当是![]()
越小越好。
回归函数μ(x1,…,xp)是确定性的函数,一般不知道,只能通过经验公式S(x1,…,xp)来作为其估计函数,记为
习惯上称
为经验回归方程。
回归与拟合的区别:
回归和拟合是统计学中常用的两个概念,它们有一些相似之处,但也有一些不同之处。
回归是指通过分析数据的关系,建立一个模型来描述自变量和因变量之间的关系。回归分析的目标是预测因变量的值,并评估自变量对因变量的影响程度。回归可以用于解决预测和关联分析等问题。
拟合是指将一个数学模型与已有的数据拟合,以找到最能代表这些数据的模型参数。拟合的目标是通过调整模型的参数值,使得模型的预测值与实际观测值之间的误差最小化。拟合可以用于寻找最佳拟合曲线或曲面等。
总的来说,回归和拟合都是通过建立数学模型来描述数据的变化趋势和关系。回归更关注变量之间的关系和预测能力,而拟合更关注模型与数据之间的拟合程度。
2、线性回归模型和多项式回归模型
【2.2】
为p元线性回归模型,其中
是回归系数。
【2.3】
为p阶多项式回归。
由于【2.2】有较好的检验和误差分析,常常把【2.3】转化为【2.2】:
就将p阶多项式回归转换为p元线性回归。
3、回归系数求解
回归模型的系数采用最小二乘估计法,对Y,X1,…,Xp作了n次观测,得到系列观测值
构造函数
为了求
(即求关于β0,β1,…,βp的最小值)
记

称SST为总偏差平方和(即y1,y2,…,yn之间的误差)
称SSE为残差平方和(即预测值与真实值之间的误差)
称SSR为回归平方和(即回归自变量引起的误差)
为观测值对应的理论值。
在假设H0:
不全为0,
成立的情况下,可以推出
且相互独立。
建模的目的,主要是用自变量x的变化来解释因变量y的变化,即希望SST值主要是SSR引起的,SSE很小,而由概率统计知识知道
【2.4】
给定显著水平α,查F分布临界值
若由【2.4】算出来的F值满足F>Fα(p,n-p-1)就认为SSR远远大于SSE,即模型有效。
同时,由于

即在模型有效时,可以用SSE/(n-p-1)来作为σ2的无偏估计值。
显著水平:
在统计学中,显著水平(significance level)指的是在假设检验中作为判断标准的阈值。它用来评估统计检验结果是否足够显著,即对于给定的观察数据,是否可以拒绝原假设。
一般来说,显著水平通常以 α(alpha)表示,取值范围在0到1之间。常见的显著水平有0.05(或5%)和0.01(或1%)等。α的选择通常取决于具体情况和研究的要求。
在进行假设检验时,我们首先设定一个原假设(null hypothesis),通常表示没有效应或没有关系,然后根据观察数据计算统计量,并计算出相应的p值(p-value)。p值表示观察数据达到或超过统计量所示的极端情况的概率。
然后,我们将p值与预先设定的显著水平进行比较。如果p值小于或等于显著水平,通常就拒绝原假设,认为观察数据具有统计显著性。反之,如果p值大于显著水平,就无法拒绝原假设,没有足够的证据表明观察结果是显著的。
显著水平的选择需要权衡研究的目的、统计方法和实际需求。通常,较低的显著水平要求有更强的证据才能拒绝原假设,但也可能增加犯第一类错误(拒绝真实的原假设)。而较高的显著水平则减少了犯第一类错误的可能性,但也增加了犯第二类错误(接受错误的原假设)的风险。
4、回归显著性检验
(1)回归方程显著性检验问题:软件计算R2和F值
在回归方程的显著性检验中,R方(R-Squared)和F值(F-value)是常用的统计指标。
R方是衡量回归方程对观察数据的拟合程度的一个度量。它的取值范围在0到1之间,越接近1表示回归方程能够很好地解释观察数据的变异。R方可以解释因变量的变异中,由回归方程中的自变量解释的比例。然而,它并不能直接说明回归方程是否显著。
F值是用于检验回归方程的整体显著性的统计量。它基于回归方程中解释的变异与未解释的变异之间的比例。F值的计算涉及一系列步骤,其中包括计算均方差、残差平方和、回归平方和等。F值的计算结果会与自由度相关,并进行与显著水平的比较。
在实际应用中,许多统计软件(如R、Python中的statsmodels和scikit-learn、SPSS、Excel等)都可以计算回归方程的R方和F值。这些软件会自动给出关于回归方程显著性的统计结果和相应的p值。一般来说,如果F值的p值小于预先设定的显著水平(如0.05),则可以认为回归方程是显著的,即至少有一个自变量对因变量的解释能力是统计显著的。
需要注意的是,R方和F值虽然是回归分析的重要指标,但不应作为唯一的判断依据。在实际应用中,还应综合考虑其他指标、模型的实际意义以及研究的背景和目的。
(2)回归系数显著性检验问题:T检验
T检验是用于检验回归模型中回归系数的显著性的一种统计方法。它通过计算回归系数的估计值与其标准误之比得到T值,并与自由度相关的T分布进行比较来判断回归系数的显著性。
在回归模型中,每个自变量都有一个相应的回归系数,用于衡量该自变量对因变量的影响程度。T检验用于检验每个回归系数是否显著不等于零,即判断自变量是否对因变量的解释能力是统计显著的。
T检验中使用的统计量是T值,它的计算公式为回归系数的估计值与其标准误之比。T值的计算结果与自由度相关,并与T分布进行比较。一般而言,如果T值的绝对值较大,那么说明回归系数显著不等于零,即自变量对因变量的解释能力是统计显著的。
在实际应用中,许多统计软件(如R、Python中的statsmodels和scikit-learn、SPSS、Excel等)都可以计算回归系数的T值和相应的p值。p值是在零假设成立的情况下观察到的T值或更极端结果的概率。一般而言,如果回归系数的p值小于预先设定的显著水平(如0.05),则可以认为该回归系数是显著的。
需要注意的是,T检验只能检验单个系数的显著性,而不能判断多个系数之间的比较。此外,在进行T检验时,还应满足检验的前提条件,如误差项的正态性、方差齐性等。此外,通过T检验得出的显著性是基于样本数据的推断,仍需要根据具体研究的背景和目的判断其实际意义和重要性。
(3)回归方程“最优”问题:经验调整
在回归分析中,经验调整(empirical adjustment)是一种通过对回归方程进行调整以获得更好拟合和更准确的预测的方法。
回归方程的拟合程度可以由R方值(R-squared)来衡量,R方值越接近1表示模型对数据的解释能力越强。然而,仅仅使用R方值来选择最佳模型可能存在问题,因为一个复杂的模型可以通过增加自由度而提高拟合程度,但可能过度拟合了数据,导致在新数据上表现不佳。
经验调整的目标是在保持模型解释力的同时,尽量避免过度拟合。一种常见的经验调整方法是利用特定的准则来选择自变量的子集,例如AIC(赤池信息准则)或BIC(贝叶斯信息准则)等。这些准则考虑了模型的拟合程度和模型的复杂度,鼓励选择较简单的模型,以避免过度拟合。
另一个常用的经验调整方法是交叉验证(cross-validation)。交叉验证将数据集分为训练集和验证集,使用训练集来拟合模型,并使用验证集评估模型的预测性能。通过比较不同模型的平均误差或其他性能指标,可以选择具有较好预测性能的模型。
需要注意的是,经验调整不是一种唯一的方法,适用于所有情况。选择最佳的经验调整方法将取决于具体的数据特征、研究目标和背景知识。在进行经验调整时,应该根据问题的要求和假设仔细选择模型和调整方法,同时要避免过度调整或过度拟合的问题。
要注意的是,给定显著水平α,计算F值与临界值
比较即可;计算R值,与临界值
关于t检验也可以由系数的1-a置信区间估计来完成:若置信区间内包含0,则相应的系数显著为0,否则就不显著。(很多统计参考书,称R为可决系数,即可解释机会)
相关文章:
数学建模——统计回归模型
一、基本知识 1、基本统计量 总体:研究对象的某个感兴趣的指标。样本:从总体中随机抽取的独立个体X1,X2,…,Xn,一般称(X1,…,Xn)为一个样本,可以看成一个n维随机向量,它的每一取组值(x1,…,xn)称为样本的观测值。统计…...
C++【个人笔记1】
1.C的初识 1.1 简单入门 #include<iostream> using namespace std; int main() {cout << "hello world" << endl;return 0; } #include<iostream>; 预编译指令,引入头文件iostream.using namespace std; 使用标准命名空间cout …...
博通强迫三星签不平等长约,被韩处罚1亿元 | 百能云芯
近日,博通(Broadcom)这家国际知名的半导体公司因其市场主导地位的滥用,遭到了韩国公平贸易委员会(FTC)的严厉制裁,罚款高达191亿韩元,约合人民币1.04亿元。这一惩罚背后的故事揭示了…...
版本控制 Sourcetree
Sourcetree软件做版本控制,小程序的代码和springboot项目的代码放到同一个文件夹下, 无脑安装就行 命名就用项目名bkd表示springboot项目名 项目命名xcx表示小程序 每次上传代码,一定要先拉下代码不然代码冲突处理起来比较麻烦...
题目 1059: 二级C语言-等差数列
题目描述 sum2581114…,输入正整数n,求sum的前n项和。样例输入 2样例输出 7 根据题目我们得知,求一个等差数列的和。 等差数列的下一项前一项d。d是等差。 根据这个直接求每一项,再加进sum的和,最后输出即可。 在本题中…...
HarmonyOS 如何使用异步并发能力进行开发
一、并发概述 并发是指在同一时间段内,能够处理多个任务的能力。为了提升应用的响应速度与帧率,以及防止耗时任务对主线程的干扰,HarmonyOS 系统提供了异步并发和多线程并发两种处理策略。 ● 异步并发是指异步代码在执行到一定程度后会被暂…...
时间格式化时候HH和hh的区别
SimpleDateFormat simpleDateFormatnew SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); simpleDateFormat.format(new Date()) HH(大写):表示使用24小时制(也称为军用时间制)来表示小时。它的范围是从00到23。例…...
aliyunoss上传图片
依赖 <dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.8.1</version></dependency>配置文件 config:alioss:endpoint: oss-cn-shanghai.aliyuncs.com(节点名 我…...
动手吧,vue数字动画
数字动画,有数字的地方都能用上,拿去吧! 效果: 1、template部分 <template><div class"v-count-up">{{ dispVlaue }}</div> </template> 2、js部分 export default {data() {return {timer…...
Android12之仿Codec2.0实现传递编解码器组件本质(四十六)
简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药. 更多原创,欢迎关注:Android…...
MongoDB【部署 04】Windows系统实现MongoDB多磁盘存储
Windows系统实现多磁盘存储 1.为什么2.多磁盘存储2.1 数据库配置2.2 文件夹磁盘映射2.3 创建新的数据集 3.总结 1.为什么 这里仅针对只有一台Windows系统服务器的情景: 当服务器存储不足时,或者要接入更多的数据,就会挂载新磁盘,…...
ruoyi框架使用自定义用户表登录
背景 有的时候我们做框架升级或改造的时候,需要用到原来的部分表,比如只是用ruoyi的框架,然后登录的用户逻辑还是想用自己的表,那么接下来这边文章将介绍修改逻辑。 修改教程 1、SysLoginController.java 大家找到这个login方…...
计算机视觉与深度学习-卷积神经网络-卷积图像去噪边缘提取-卷积-[北邮鲁鹏]
目录标题 参考学习链接卷积的定义卷积的性质叠加性平移不变性交换律结合律分配律标量 边界填充边界填充方法 - 常数填充最常用常数填充零填充(zero padding)拉伸镜像 卷积示例单位脉冲核无变化平移平滑锐化 卷积核平均卷积核高斯卷积核高斯卷积核定义高斯…...
JS手动实现发布者-订阅者模式
发布-订阅模式是一种对象间一对多的依赖关系,当一个对象的状态发送改变时,所有依赖于它的对象都将得到状态改变的通知。具体过程是:订阅者把自己想订阅的事件注册到调度中心,当发布者更新该事件时通知调度中心,由调度中…...
【含面试题】MySQL死锁日志分析与解决的Java代码实现
AI绘画关于SD,MJ,GPT,SDXL百科全书 面试题分享点我直达 2023Python面试题 2023最新面试合集链接 2023大厂面试题PDF 面试题PDF版本 java、python面试题 项目实战:AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接 玩转cloud Studio 在线编码神器 玩转 GPU AI…...
解决方案:TSINGSEE青犀+智能分析网关助力智慧仓储智能化监管
为全面保障物流仓储的安全性与完整性,解决仓库管理难题,优化物流仓储方式,提升仓储效率,降低人工成本,旭帆科技推出智慧仓储AI视频智能分析方案,利用物联网、大数据、云计算等技术,对仓储管理进…...
进程间通信
#include <unistd.h> int pipe(int pipefd[2]); 功能:创建一个匿名管道,用于进程间通信 参数: -int pipefd[2]:传出参数 pipefd[0]对应的是管道的读端 pipefd[0]对应的是管道的写端 返回值: 成功返回0,失败返回-…...
Ubuntu 22.04.3 LTS安装
最近换电脑了,准备重新装一下ubuntu。多年前装过ubuntu很老的版本,现在发现官网最新的LTS版本是 Ubuntu 22.04.3 LTS 版本。那重新装的话,肯定装最新的版本了。这里我记录下自己的安装过程,作为以后的笔记查看。 我的环境&#x…...
记一次manjaro-i3系统sogoupinying候选词无法正常显示中文(变方框了)问题解决方案
记一次manjaro-i3系统sogoupinying候选词无法正常显示中文(变方框了)问题解决方案 前言解决方案 前言 今天早上发现公司电脑显卡驱动好像坏了,各种折腾完了干脆把系统搞黑屏无法开机了,时间有限懒再修了,于是重装了系…...
Lua学习笔记:词法分析
前言 本篇在讲什么 Lua的词法分析 本篇需要什么 对Lua语法有简单认知 对C语法有简单认知 依赖Visual Studio工具 本篇的特色 具有全流程的图文教学 重实践,轻理论,快速上手 提供全流程的源码内容 ★提高阅读体验★ 👉 ♠ 一级标题…...
UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...
ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放
简介 前面两期文章我们介绍了I2S的读取和写入,一个是通过INMP441麦克风模块采集音频,一个是通过PCM5102A模块播放音频,那如果我们将两者结合起来,将麦克风采集到的音频通过PCM5102A播放,是不是就可以做一个扩音器了呢…...
高等数学(下)题型笔记(八)空间解析几何与向量代数
目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...
IT供电系统绝缘监测及故障定位解决方案
随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...
Redis数据倾斜问题解决
Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中,部分节点存储的数据量或访问量远高于其他节点,导致这些节点负载过高,影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
tree 树组件大数据卡顿问题优化
问题背景 项目中有用到树组件用来做文件目录,但是由于这个树组件的节点越来越多,导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多,导致的浏览器卡顿,这里很明显就需要用到虚拟列表的技术&…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码
目录 一、👨🎓网站题目 二、✍️网站描述 三、📚网站介绍 四、🌐网站效果 五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目 七、🎁更多干货 一、👨…...
安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)
船舶制造装配管理现状:装配工作依赖人工经验,装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书,但在实际执行中,工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...
