当前位置: 首页 > news >正文

机器学习笔记二-回归

回归是统计学和机器学习中的一种基本方法,用于建模变量之间的关系,特别是用一个或多个自变量(输入变量)来预测一个因变量(输出变量)的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质,可以使用不同类型的回归方法。

1. 回归的基本概念

  • 自变量(Independent Variable): 也称为预测变量、解释变量,是模型中的输入变量,用于预测或解释因变量的变化。
  • 因变量(Dependent Variable): 也称为响应变量,是模型中的输出变量,是自变量的函数,并且我们试图对其进行预测或解释。
  • 回归系数(Regression Coefficients): 表示自变量对因变量的影响程度。在简单线性回归中,回归系数就是斜率。

2. 常见的回归类型

2.1 线性回归(Linear Regression):
  • 简单线性回归: 只有一个自变量和一个因变量,回归方程为 y = β 0 + β 1 x + ϵ y = \beta_0 + \beta_1 x + \epsilon y=β0+β1x+ϵ,其中 β 0 \beta_0 β0 是截距, β 1 \beta_1 β1 是斜率, ϵ \epsilon ϵ 是误差项。

    from sklearn.linear_model import LinearRegressionmodel = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
  • 多元线性回归: 包含多个自变量,回归方程为 y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n + ϵ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + \epsilon y=β0+β1x1+β2x2++βnxn+ϵ

    model = LinearRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
  • 优点:

    • 简单易解释。
    • 在自变量和因变量呈线性关系时效果较好。
  • 缺点:

    • 假设自变量和因变量之间是线性关系,可能不适合复杂数据。
    • 对多重共线性敏感。
2.2 岭回归(Ridge Regression):
  • 在线性回归的基础上引入了 ( L2 ) 正则化项,防止模型过拟合。回归方程为 y = β 0 + ∑ i = 1 n β i x i + λ ∑ i = 1 n β i 2 y = \beta_0 + \sum_{i=1}^{n}\beta_i x_i + \lambda \sum_{i=1}^{n}\beta_i^2 y=β0+i=1nβixi+λi=1nβi2

    from sklearn.linear_model import Ridgeridge = Ridge(alpha=1.0)
    ridge.fit(X_train, y_train)
    y_pred = ridge.predict(X_test)
    
  • 优点:

    • 减少过拟合,提高模型的泛化能力。
  • 缺点:

    • 仍然假设线性关系。
2.3 Lasso回归(Lasso Regression):
  • 引入 ( L1 ) 正则化项,会导致部分回归系数缩小到零,从而实现特征选择。回归方程为 y = β 0 + ∑ i = 1 n β i x i + λ ∑ i = 1 n ∣ β i ∣ y = \beta_0 + \sum_{i=1}^{n}\beta_i x_i + \lambda \sum_{i=1}^{n}|\beta_i| y=β0+i=1nβixi+λi=1nβi

    from sklearn.linear_model import Lassolasso = Lasso(alpha=0.1)
    lasso.fit(X_train, y_train)
    y_pred = lasso.predict(X_test)
    
  • 优点:

    • 自动进行特征选择,简化模型。
  • 缺点:

    • 可能导致特征过多时过度简化。
2.4 弹性网回归(Elastic Net Regression):
  • 结合了 Ridge 和 Lasso 的优点,同时引入 ( L1 ) 和 ( L2 ) 正则化项。回归方程为 y = β 0 + ∑ i = 1 n β i x i + λ 1 ∑ i = 1 n ∣ β i ∣ + λ 2 ∑ i = 1 n β i 2 y = \beta_0 + \sum_{i=1}^{n}\beta_i x_i + \lambda_1 \sum_{i=1}^{n}|\beta_i| + \lambda_2 \sum_{i=1}^{n}\beta_i^2 y=β0+i=1nβixi+λ1i=1nβi+λ2i=1nβi2

    from sklearn.linear_model import ElasticNetelastic = ElasticNet(alpha=1.0, l1_ratio=0.5)
    elastic.fit(X_train, y_train)
    y_pred = elastic.predict(X_test)
    
  • 优点:

    • 结合了 Ridge 和 Lasso 的特性,平衡了特征选择和防止过拟合。
  • 缺点:

    • 需要调参。
2.5 多项式回归(Polynomial Regression):
  • 适用于非线性数据,通过引入多项式特征,使模型可以拟合更复杂的曲线。回归方程为 y = β 0 + β 1 x + β 2 x 2 + ⋯ + β n x n y = \beta_0 + \beta_1 x + \beta_2 x^2 + \cdots + \beta_n x^n y=β0+β1x+β2x2++βnxn

    from sklearn.preprocessing import PolynomialFeaturespoly = PolynomialFeatures(degree=2)
    X_poly = poly.fit_transform(X)
    model = LinearRegression()
    model.fit(X_poly, y)
    y_pred = model.predict(poly.transform(X_test))
    
  • 优点:

    • 可以拟合更复杂的关系。
  • 缺点:

    • 容易过拟合,需要仔细选择多项式的阶数。
2.6 逻辑回归(Logistic Regression):
  • 尽管名为回归,但逻辑回归是用于二分类问题的。它使用 sigmoid 函数将线性回归的输出映射到 0 和 1 之间,表示某类的概率。

    from sklearn.linear_model import LogisticRegressionmodel = LogisticRegression()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
  • 优点:

    • 简单且有效。
    • 可以解释模型输出为概率值。
  • 缺点:

    • 只能处理二分类问题,且假设自变量与因变量的关系是线性可分的。
2.7 决策树回归(Decision Tree Regression):
  • 基于决策树的模型,通过递归划分特征空间,将复杂的决策问题分解为一系列简单的决策。适用于处理非线性关系。

    from sklearn.tree import DecisionTreeRegressormodel = DecisionTreeRegressor()
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
  • 优点:

    • 不需要特征缩放。
    • 能处理非线性数据。
  • 缺点:

    • 容易过拟合,需要剪枝或限制树的深度。
2.8 随机森林回归(Random Forest Regression):
  • 集成多个决策树的结果,减少过拟合,提升模型的泛化能力。

    from sklearn.ensemble import RandomForestRegressormodel = RandomForestRegressor(n_estimators=100)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
  • 优点:

    • 强大的泛化能力。
    • 处理高维数据和缺失值的能力强。
  • 缺点:

    • 相对黑箱,不易解释。

3. 回归模型的评价指标

  • 均方误差(MSE): MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2,用来衡量模型预测值与实际值之间的误差。
  • 均方根误差(RMSE): RMSE = MSE \text{RMSE} = \sqrt{\text{MSE}} RMSE=MSE ,它是 MSE 的平方根,更直观地反映误差的大小。
  • 平均绝对误差(MAE): MAE = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{n}\sum_{i=1}^{n}|y_i - \hat{y}_i| MAE=n1i=1nyiy^i,它比 MSE 对异常值不敏感。
  • R 2 R^2 R2 决定系数: 表示模型解释数据方差的比例, R 2 R^2 R2 越接近 1,模型的拟合效果越好。
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_scoremse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

4. 回归模型的应用

  • boston房价预测

相关文章:

机器学习笔记二-回归

回归是统计学和机器学习中的一种基本方法,用于建模变量之间的关系,特别是用一个或多个自变量(输入变量)来预测一个因变量(输出变量)的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的…...

判断http链接中文件是否存在

最近项目遇到需要从http请求下载文件到服务器,下载前需要判断下http中的文件是否存在。如果判断本地服务器上文件是否存在,用file.exists来判断。但是这个方法却无法判断http中文件是否存在。 如果要判断http文件是否存在,用如下代码&#xf…...

Flink CDC (session模式)

1、 # Start YARN session ./bin/yarn-session.sh --detached 2、配置文件: rest.bind-port: {{REST_PORT}} rest.address: {{NODE_IP}} execution.target: yarn-session yarn.application.id: {{YARN_APPLICATION_ID}} 3、mysql-doris.yml source:type: mysql…...

下载ISO镜像的方法 Debian、Red Hat 、CentOS、Ubuntu、Kali Linux

目录 Debian Red Hat CentOS Ubuntu Kali Linux Debian 下载步骤: 访问Debian的官方网站:Debian官网。在网站上找到“Downloads”或类似的下载链接。选择适合你的计算机架构(如amd64、i386等)的Debian版本。点击下载ISO镜像…...

想学接口测试,不知道那个工具适合?

接口测试是软件测试中的一项重要任务,它主要关注系统的不同组件之间的数据交换和通信。接口测试是一种黑盒测试方法,它可以帮助我们验证系统的功能和性能是否达到预期,并且确保不同组件之间的消息传递是正确的。在接口测试过程中,…...

干货分享 | TSMaster—RP1210模块使用指南

RP1210是由技术和维护委员会(TMC)编写的一种建议性实践。RP1210用于对重型车辆射频相关的(主要针对)电子控制单元(ECU)进行二次编程和分析。本文主要针对TSMaster—RP1210模块的操作进行详细介绍。 本文关…...

一步解决Ubuntu中无法使用git clone的问题

在网上找了很多教程都无法解决,最后用了一行命令成功解决 git config --global url."https://github.com".insteadOf git://github.com输入这行命令,之后就可以使用git clone了...

c++的时间复杂度

前言 Hello,大家好我是文宇. 最近没怎么写文章了,写个教程吧. 正文 C是一种高级编程语言,用于开发各种类型的应用程序,包括计算机科学中的算法和数据结构。在编写代码时,了解算法和数据结构的时间复杂度非常重要,因为它可以帮…...

PDF转图片 JAVA

前言 以下是一个使用 Apache PDFBox 将 PDF 文件转换为图片的封装方法。这个方法将会把 PDF 的每一页转换为一张图片,并保存到指定的目录中。 1.添加依赖 首先,你需要在项目中添加 PDFBox 的依赖。如果你使用的是 Maven,可以在 pom.xml 中添…...

树莓派5 笔记26:ollama大型语言模型_中文输入法_Python_espeak文字转语音

今日继续学习树莓派5 8G:(Raspberry Pi,简称RPi或RasPi) 本人所用树莓派4B 装载的系统与版本如下: 版本可用命令 (lsb_release -a) 查询: Opencv 与 python 版本如下: 下载大语言模型,下载中文输入法&#…...

【kubernetes】k8s安全机制

Kubernetes 作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。API Server 是集群内部各个组件通信的中介, 也是外部控制的入口。所以 Kubernetes 的安全机制基本就是围绕保护 API Server 来设计的。 比如 kubectl 如果想向 API Server…...

Android T(13) The app is granted permissions by default

我的博客 对比Android11,frameworks\base\services\core\java\com\android\server\pm\permission文件夹下,多了个PermissionManagerServiceImpl.java. 有一部分关于权限的处理,移到了这个文件中.比如:restorePermissionState(…) all app granted permissions by default b/fr…...

4 - Linux远程访问及控制

目录 一、SSH远程管理 1. SSH概述 2.SSH的优点 3.配置OpenSSH客户端 4.sshd服务支持的两种验证方式 5. 使用SSH客户端程序 5.1 ssh - 远程登录 5.2 scp - 远程复制 6.配置密钥对验证 二、TCP Wrappers访问控制 1.TCP Wrappers 概述 2. TCP Wrappers 机制的基本原则 …...

如何使用AWS EC2资源?

随着云计算技术的迅速发展,越来越多的企业和个人选择将工作负载迁移到云端,以获取灵活性、可扩展性和成本效益。作为全球领先的云计算服务提供商,AWS为用户提供了丰富的服务,其中最受欢迎的之一是云服务器EC2。本文中九河云将探讨…...

Linux高编-进程的概念(1)

目录 1.ps aux 2.top 3.kill -2 进程pid // fork函数 getpid拿自己的进程号 getppid拿父进程号 fork()&&fork()||fork() 父子进程的关系: 僵尸进程,孤儿进程 僵…...

go语言中new和make的区别

在 Go 语言中,new 函数不能用来创建通道(chan),这是因为 new 只分配内存并返回指向该内存的指针,而不负责初始化内存。 为什么不能使用 new 来创建通道? new 只能分配内存,但不会对内存进行初…...

SpringBoot响应式编程(3)R2DBC

一、概述 1.1简介 R2DBC基于Reactive Streams反应流规范,它是一个开放的规范,为驱动程序供应商和使用方提供接口(r2dbc-spi),与JDBC的阻塞特性不同,它提供了完全反应式的非阻塞API与关系型数据库交互。 …...

什么是私有继承

私有,公有,针对类而言; 私有( private )的成员,自己的,只能在自己内部( 类的定义体内部 )访问,外部( 类的定义体外部 )不能访问/调用; 公有( 或者说公开,public )的成员&#xff0…...

Scratch编程:开启智能硬件控制的大门

标题:“Scratch编程:开启智能硬件控制的大门” 在当今数字化时代,编程不仅仅是与计算机的交互,更是与物理世界的连接。Scratch,这款由麻省理工学院媒体实验室开发的视觉化编程语言,以其易学易用的特性&…...

机器学习第十二章-计算学习理论

目录 12.1基础知识 12.2 PAC学习 12.3有限假设空间 12.3.1可分情形 12.3.2不可分情形 12.4VC维 12.5 Rademacher复杂度 12.1基础知识 计算学习理论研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的…...

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?

🧠 智能合约中的数据是如何在区块链中保持一致的? 为什么所有区块链节点都能得出相同结果?合约调用这么复杂,状态真能保持一致吗?本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里&#xf…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

【AI学习】三、AI算法中的向量

在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...

【学习笔记】深入理解Java虚拟机学习笔记——第4章 虚拟机性能监控,故障处理工具

第2章 虚拟机性能监控,故障处理工具 4.1 概述 略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具 命令:jps [options] [hostid] 功能:本地虚拟机进程显示进程ID(与ps相同),可同时显示主类&#x…...

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket(服务端和客户端都要)2. 绑定本地地址和端口&#x…...

CRMEB 中 PHP 短信扩展开发:涵盖一号通、阿里云、腾讯云、创蓝

目前已有一号通短信、阿里云短信、腾讯云短信扩展 扩展入口文件 文件目录 crmeb\services\sms\Sms.php 默认驱动类型为:一号通 namespace crmeb\services\sms;use crmeb\basic\BaseManager; use crmeb\services\AccessTokenServeService; use crmeb\services\sms\…...

免费数学几何作图web平台

光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...