深度学习的正则化深入探讨
文章目录
- 一、说明
- 二、学习目标
- 三、什么是机器学习中的正则化
- 四、了解过拟合和欠拟合
- 五、代价函数的意义
- 六、什么是偏差和方差?
- 七、机器学习中的正则化?
一、说明
在训练机器学习模型时,模型很容易过拟合或欠拟合。为了避免这种情况,我们在机器学习中使用正则化来使模型正确地拟合到我们的测试集。正则化技术有助于减少过拟合的可能性,并帮助我们获得最优模型。
在本文中,您将探索使用 Python 进行机器学习中的正则化概念。我们将讨论它在防止过拟合方面的意义和意义,确保模型能够很好地推广到新数据。您将看到正则化技术的示例,例如 L1 和 L2,以及它们在实践中的实施方式。此外,我们将参考来自 Analytics Vidhya 的见解,以增强您对这些方法及其对模型性能影响的理解。到最后,您将清楚地掌握正则化如何改进您的机器学习项目。

二、学习目标
了解机器学习中的正则化概念及其在防止过拟合和欠拟合方面的作用。
了解不同的正则化技术,例如 Ridge、Lasso 和 Elastic Net 正则化。
获得使用 Python 和 scikit-learn 实现正则化技术的实践知识。
三、什么是机器学习中的正则化
正则化是机器学习中使用的一种技术,用于防止过度拟合并提高模型的泛化性能。从本质上讲,正则化为损失函数添加了一个惩罚项,阻止了模型学习过于复杂的模式,这些模式可能无法很好地推广到看不见的数据。这有助于创建更简单、更健壮的模型。
正则化的主要好处包括:
减少过度拟合:通过限制模型的复杂性,正则化有助于防止模型记住训练数据中的噪声或不相关的模式。
提高泛化性:正则化模型往往在新的、看不见的数据上表现更好,因为它们专注于捕获底层模式,而不是完美地拟合训练数据。
增强模型稳定性:正则化使模型对训练数据中的微小波动不太敏感,从而获得更稳定和可靠的预测。
启用特征选择:一些正则化技术(例如 L1 正则化)可以自动识别并丢弃不相关的特征,从而产生更易解释的模型。
最常见的正则化技术是 L1 正则化 (Lasso),它将模型权重的绝对值添加到损失函数中,以及 L2 正则化 (Ridge),它将权重的平方值相加。通过纳入这些惩罚项,正则化在拟合训练数据和保持机器学习中的正则化之间取得了平衡
正则化是机器学习中使用的一种技术,用于防止过度拟合并提高模型的泛化性能。从本质上讲,正则化为损失函数添加了一个惩罚项,阻止了模型学习过于复杂的模式,这些模式可能无法很好地推广到看不见的数据。这有助于创建更简单、更健壮的模型。
最常见的正则化技术是 L1 正则化 (Lasso),它将模型权重的绝对值添加到损失函数中,以及 L2 正则化 (Ridge),它将权重的平方值相加。通过合并这些惩罚项,正则化在拟合训练数据和保持模型简单之间取得了平衡,最终在新数据上实现了更好的性能。
四、了解过拟合和欠拟合
为了训练我们的机器学习模型,我们为其提供数据以供学习。绘制一系列数据点并绘制最佳拟合线以了解变量之间关系的过程称为数据拟合。当我们的模型可以在我们的数据中找到所有必要的模式并避免随机数据点和称为噪声的不必要模式时,它最适合。
如果我们允许机器学习模型查看数据太多次,它将在数据中发现许多模式,包括一些不必要的模式。它将在测试数据集上很好地学习并且非常适合。它将学习重要的模式,但它也会从我们数据中的噪声中学习,并且无法对其他数据集进行预测。
机器学习模型尝试从细节以及数据中的噪声中学习,并尝试将每个数据点拟合到曲线的场景称为过拟合。
在下图中,我们可以看到该模型适合我们数据中的每个点。如果提供了新数据,则模型曲线可能与新数据中的模式不匹配,并且模型可能无法很好地预测。

相反,当我们没有让模型查看我们的数据足够多的时间时,它将无法在我们的测试数据集中找到模式。它不能很好地适应我们的测试数据集,也不能处理新数据。
当机器学习模型无法学习测试数据中变量之间的关系或无法预测或分类新数据点时,就会发生欠拟合。
下图显示了一个装备不足的模型。我们可以看到它没有正确拟合给出的数据。他没有在数据中找到模式,并且忽略了大部分数据集。它不能同时处理已知和未知数据。

五、代价函数的意义
代价函数/误差函数:采用斜率截距(m 和 c)值并返回误差值/成本值。它显示预测结果与实际结果之间的误差进行比较。它解释了您的模型在预测中是如何不准确的。
它用于估计模型对给定数据集及其维度的性能有多糟糕。
为什么成本函数在机器学习中很重要?是的,成本函数帮助我们达到最佳解决方案,那么我们该怎么做呢。将看到使用 Python 库的所有可能方法和简单步骤。
此功能通过最小化误差来帮助我们找出最佳直线
最佳拟合线是该线周围误差平方和最小的线
六、什么是偏差和方差?
当算法从数据集中学习的灵活性有限时,就会出现偏差。这些模型很少关注训练数据,并且过度简化了模型,因此验证或预测误差和训练误差遵循类似的趋势。此类模型始终会导致训练和测试数据中出现高误差。高偏差会导致我们的模型调整不足。
方差定义算法对特定数据集的敏感度。高方差模型密切关注训练数据,并且不会泛化,因此验证或预测误差彼此相差甚远。此类模型通常在训练数据上表现非常好,但在测试数据上具有很高的错误率。高偏差会导致模型出现过冲。
最优模型是指模型对模型中的模式敏感,但也可以泛化到新数据的模型。当偏差和方差都是最佳时,就会发生这种情况。我们称之为 Bias-Variance Tradeoff,我们可以使用回归在过度拟合或欠拟合的模型中实现这一点。

上图显示,当偏差较高时,测试集和训练集中的误差也很高。当偏差较高时,模型在我们的训练集上表现良好,误差较低,但测试集上的误差非常高。在这中间,有一个区域,偏差和方差在这里也彼此完美平衡,但训练和测试误差很低。
七、机器学习中的正则化?
它是指用于校准机器学习模型以最小化调整后的损失函数并避免过拟合或欠拟合的技术。

正则化技术
让我们讨论可用的正则化技术,然后是实现

- 岭回归(L2 正则化):
基本上,在这里,我们将最小化误差的平方和以及系数的平方和 (β)。在背景中,
具有较大幅度的系数 (β) 将生成图形峰值和
深斜率,为了抑制这一点,我们使用 lambda (λ) 用于称为
惩罚因子,并帮助我们获得光滑的表面而不是不规则的图形。Ridge Regression 用于将 coefficients(β) 值在量级方面推向接近零。这就是 L2 正则化,因为它增加了一个等价于系数大小的平方的罚值。
Ridge 回归 = Loss 函数 + 正则化项

2. 套索回归(L1 正则化):
这与 Ridge 回归非常相似,在 Penalty Factor (惩罚因子) 中几乎没有差异,系数是量级而不是平方。其中许多系数有可能变为零,因此相应的属性/特征变为零并从列表中删除,这最终会减少维度并支持降维。那么决定这些属性/特征不适合作为预测目标值的捕食者。这是 L1 正则化,因为将绝对值添加为系数大小的惩罚等效值。
套索回归 = 损失函数 + 正则化项

3. Lambda 的特点
λ = 0λ => 最小值λ =>HighLambda 或罚因子 (λ)对系数 (β) 没有影响,模型会过拟合。不适用于
ProductionGeneralised 模型和可接受的精度,并且符合 Test and
Train 的条件。适合生产对系数 (β) 影响非常大,导致欠拟合。最终
不适合生产环境。
请记住一件事,Ridge 永远不会将系数归零,Lasso 会这样做。因此,您可以使用第二个进行特征选择。
正则化的影响
下面的图形表示清楚地表明了最佳配合。

4. 弹性网络回归正则化:
尽管 Python 提供了出色的库,但我们应该了解这背后的数学原理。以下是详细的推导供您参考。
山脊:α=0
套索:α=1
5. 正则化技术的图像表示

L1 和 L2 的数学方法
尽管 Python 提供了出色的库和简单的编码,但我们应该了解这背后的数学原理。以下是详细的推导供您参考。
让我们得到下面的多元线性回归数据集及其方程

正如我们所知道的,多元线性回归
y = β 0 + β 1 x 1 + β 2 x 2 + . . . . . . . . . . . . . . . . . . + β n x n ————– 1 y=β_0+ β_1 x_1+ β_2 x_2+..................+ β_n x_n — — — — –1 y=β0+β1x1+β2x2+..................+βnxn————–1
y i = β 0 + σ β i x i —————– 2 y_i= β_0+ σ β_i x_i — — — — — –2 yi=β0+σβixi—————–2
Σ yi– β0– Σ βi 习
成本/损失函数: Σ{ yi– β0– Σ βi xij}2 — — — — — –3
正则化项: λΣ βi2 — — — — — -4
岭回归 = 损失函数 + 正则化项 — — — — — –5
将 3 和 4 放入 5 中
岭回归 = Σ { yi– β0– Σ βi xij}2+ λ Σ βi2
套索回归 = Σ { yi– β0– Σ βi xij}2+ λ Σ |βi|
x ==> 个自变量
y ==> 个目标变量
β ==> 系数
λ ==> 罚因子
系数 (β) 如何在内部计算
正则化代码
让我们以 Automobile — Predictive Analysis 为例,应用 L1 和 L2 以及它如何帮助模型评分。
目标:使用汽车的给定特征预测汽车的里程/每加仑英里数 (mpg)。
import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import Ridgefrom sklearn.linear_model import 套索from sklearn.metrics importr2_scoredf_cars = pd.read_csv(“auto-mpg.csv”)
print(df_cars.head(5))

EDA:会做少量的 EDA(探索性数据分析),来理解数据集

观察:
- 我们可以看到 Features 及其数据类型,以及 Null 约束。
- 马力和名称特征是给定数据集中的对象。在建模过程中必须注意。
训练和测试拆分
from Sklearn model_selection import train_test_split X_train、X_test、y_train、y_test = train_test_split(X_scaled、y_scaled、test_size=0.25、random_state=1)

相关文章:
深度学习的正则化深入探讨
文章目录 一、说明二、学习目标三、什么是机器学习中的正则化四、了解过拟合和欠拟合五、代价函数的意义六、什么是偏差和方差?七、机器学习中的正则化? 一、说明 在训练机器学习模型时,模型很容易过拟合或欠拟合。为了避免这种情况…...
Token相关设计
文章目录 1. 双Token 机制概述1.1 访问令牌(Access Token)1.2 刷新令牌(Refresh Token) 2. 双Token 认证流程3. Spring Boot 具体实现3.1 生成 Token(使用 JWT)3.2 解析 Token3.3 登录接口(返回…...
【时序预测】在线学习:算法选择(从线性模型到深度学习解析)
——如何为动态时序预测匹配最佳增量学习策略? 引言:在线学习的核心价值与挑战 在动态时序预测场景中(如实时交通预测、能源消耗监控),数据以流式(Streaming)形式持续生成,且潜在的…...
React antd的datePicker自定义,封装成组件
一、antd的datePicker自定义 需求:用户需要为日期选择器的每个日期单元格添加一个Tooltip,当鼠标悬停时显示日期、可兑换流量余额和本公会可兑流量。这些数据需要从接口获取。我需要结合之前的代码,确保Tooltip正确显示,并且数据…...
学生管理前端
文章目录 首页student.html查询功能 首页 SpringBoot前端html页面放在static文件夹下:/src/main/resources/static 默认首页为index.html,我们可以用两个超链接或者两个button跳转到对应的页面。这里只是单纯的跳转页面,不需要提交表单等其…...
深入理解并实现自定义 unordered_map 和 unordered_set
亲爱的读者朋友们😃,此文开启知识盛宴与思想碰撞🎉。 快来参与讨论💬,点赞👍、收藏⭐、分享📤,共创活力社区。 在 C 的标准模板库(STL)中,unorder…...
顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-大模型电话机器人
语音流直接对接Realtime API 多模态大模型 直接把音频流输出给大模型,大模型返回音频流。 顶顶通CTI对Realtime API 的支持 提供了以下2个APP可对接任意 •cti_audio_stream 通过TCP推流和播放流,适合用于人机对话场景。 •cti_unicast_start 通过旁…...
kinova机械臂绿色灯一闪一闪及刷机方法
一、背景 实验室有两个kinova mico机械臂,但经常出现操纵杆上的绿色灯一闪一闪的,导致无法使用操纵杆或ROS进行控制,下面给出官方的教程以及所需要的FS 0CPP 0008_6.2.5_mico_6dof.hex文件。 重要的东西写在前面: a、如果出现操…...
第16天:C++多线程完全指南 - 从基础到现代并发编程
第16天:C多线程完全指南 - 从基础到现代并发编程 一、多线程基础概念 1. 线程创建与管理(C11) #include <iostream> #include <thread>void hello() {std::cout << "Hello from thread " << std::this_…...
中科大计算机网络原理 1.5 Internt结构和ISP
一、互联网的层次化架构 覆盖范围分层 主干网(Tier-1级) 国家级或行业级核心网络,承担跨区域数据传输和全球互联功能。例如中国的四大主干网(ChinaNET、CERNET等)以及跨国运营商(如AT&T、Deuts…...
Windows安装sql server2017
看了下官网的文档,似乎只有ubuntu18.04可以安装,其他debian系的都不行,还有通过docker的方式安装的。 双击进入下载的ISO,点击执行可执行文件,并选择“是” 不要勾选 警告而已,不必理会 至少勾选这两…...
计算机网络之传输层(tcp协议)
一、TCP协议的特点 面向连接:TCP使用面向连接的通信模式,通信双方需要先建立连接,然后才能进行数据的传输。连接建立过程采用三次握手的方式。 可靠性:TCP提供可靠的数据传输服务,确保数据的完整性、有序性和正确性。…...
从零到一:如何用阿里云百炼和火山引擎搭建专属 AI 助手(DeepSeek)?
本文首发:从零到一:如何用阿里云百炼和火山引擎搭建专属 AI 助手(DeepSeek)? 阿里云百炼和火山引擎都推出了免费的 DeepSeek 模型体验额度,今天我和大家一起搭建一个本地的专属 AI 助手。 阿里云百炼为 …...
Open3D解决SceneWidget加入布局中消失的问题
Open3D解决SceneWidget加入布局中消失的问题 Open3D解决SceneWidget加入布局中消失的问题1. 问题2. 问题代码3. 解决 Open3D解决SceneWidget加入布局中消失的问题 1. 问题 把SceneWidget加到布局管理其中图形可以展示出来,但是鼠标点击就消失了。 stackoverflow上已…...
计算机毕业设计Python+DeepSeek-R1大模型游戏推荐系统 Steam游戏推荐系统 游戏可视化 游戏数据分析(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
Linux笔记---缓冲区
1. 什么是缓冲区 在计算机系统中,缓冲区(Buffer) 是一种临时存储数据的区域,主要用于协调不同速度或不同时序的组件之间的数据传输,以提高效率并减少资源冲突。它是系统设计中的重要概念,尤其在I/O操作、网…...
如何流畅访问github
1.传输数据原理 本地计算机通过本地网接入运营骨干网,经过DNS域名解析,将输入的字符解析为要连接的真实IP地址,服务器返还一个数据包(github)给计算机 2.原因 DNS域名污染-DNS解析出现问题,导致访问一个不存在的服务器 3.解决…...
java基础+面向对象
Java基础语法 CMD命令 cls 清屏 cd 目录进入文件 cd… 退回 dir 查看当前目录所有文件 E:进入E盘 exit 退出 环境变量就是不用去专门的盘符去找,直接去环境变量里找到文件 语言优势 编译型语言c: 整体翻译 解释型语言python&#x…...
Linux 检测内存泄漏方法总结
文章目录 strace检测asan内存检测linux下gperf工具(tcmalloc)检查C/C代码内存泄露问题参考 strace检测 (1)启动程序 (2) strace -f -p <PID> -tt -e brk,mmap,mmap2,munmapbrk 变大 → 说明堆增长…...
本地部署deepseek大模型后使用c# winform调用(可离线)
介于最近deepseek的大火,我就在想能不能用winform也玩一玩本地部署,于是经过查阅资料,然后了解到ollama部署deepseek,最后用ollama sharp NUGet包来实现winform调用ollama 部署的deepseek。 本项目使用Vs2022和.net 8.0开发,ollam…...
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...
Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...
19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...
云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?
大家好,欢迎来到《云原生核心技术》系列的第七篇! 在上一篇,我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在,我们就像一个拥有了一块崭新数字土地的农场主,是时…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...
04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...
leetcodeSQL解题:3564. 季节性销售分析
leetcodeSQL解题:3564. 季节性销售分析 题目: 表:sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...
AspectJ 在 Android 中的完整使用指南
一、环境配置(Gradle 7.0 适配) 1. 项目级 build.gradle // 注意:沪江插件已停更,推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...
Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)
目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...
AI,如何重构理解、匹配与决策?
AI 时代,我们如何理解消费? 作者|王彬 封面|Unplash 人们通过信息理解世界。 曾几何时,PC 与移动互联网重塑了人们的购物路径:信息变得唾手可得,商品决策变得高度依赖内容。 但 AI 时代的来…...
