当前位置: 首页 > article >正文

从零开始理解L1和L2正则化:机器学习中的惩罚函数详解

从零开始理解L1和L2正则化机器学习中的惩罚函数详解在构建机器学习模型时我们常常面临一个核心矛盾模型越复杂对训练数据的拟合效果越好但同时也更容易陷入过拟合的泥潭。想象一下你正在教一个学生解决数学问题——如果他只是机械记忆每道题的答案遇到新题目就会束手无策而真正掌握解题思路的学生才能应对各种变化。正则化技术就是帮助我们找到这个解题思路的关键工具。L1和L2正则化作为最常用的两种惩罚函数它们通过不同的数学机制控制模型复杂度。本文将带你从数学本质到代码实现全方位解析这两种正则化技术。无论你是希望优化现有模型的数据科学家还是正在学习机器学习核心概念的研究者这些内容都将为你提供实用的技术视角。1. 正则化的数学基础与核心思想1.1 过拟合现象的本质解析过拟合就像用显微镜看油画——连画布的纹理都看得一清二楚却失去了对整体画面的把握。在机器学习中这意味着模型对训练数据中的噪声和随机波动也进行了学习。我们来看一个简单的多项式回归例子import numpy as np import matplotlib.pyplot as plt # 生成带噪声的数据 np.random.seed(42) x np.linspace(0, 1, 20) y np.sin(2 * np.pi * x) np.random.normal(0, 0.2, size20) # 拟合不同阶数的多项式 degrees [1, 3, 9] plt.figure(figsize(12, 4)) for i, degree in enumerate(degrees): plt.subplot(1, 3, i1) coeffs np.polyfit(x, y, degree) p np.poly1d(coeffs) x_plot np.linspace(0, 1, 100) plt.plot(x_plot, np.sin(2 * np.pi * x_plot), g, label真实函数) plt.plot(x_plot, p(x_plot), r, label拟合曲线) plt.scatter(x, y, label训练数据) plt.title(fdegree {degree}) plt.legend() plt.tight_layout()随着多项式阶数增加模型在训练数据上的误差越来越小但对新数据的预测能力却可能急剧下降。这就是我们需要正则化的根本原因。1.2 惩罚函数的工作原理惩罚函数的本质是在原始损失函数中加入对模型复杂度的罚款。用公式表示就是总损失 经验损失 λ × 正则化项其中λ是调节两者权重的超参数。这个看似简单的改动却带来了深远的影响模型简化通过限制参数的大小防止模型过度依赖某些特征数值稳定改善矩阵求逆的条件数使优化过程更稳定特征选择某些正则化可以自动识别并剔除不重要的特征提示λ的选择至关重要——太小无法有效防止过拟合太大则会导致模型欠拟合。通常需要通过交叉验证来确定最佳值。2. L2正则化平滑的权重衰减2.1 岭回归的数学本质L2正则化又称岭回归(Ridge Regression)它在损失函数中添加了权重向量的L2范数平方J(w) ||Xw - y||² α||w||²其中αλ/2。这个附加项对优化问题有什么影响呢让我们看看对应的解析解w (XᵀX αI)⁻¹Xᵀy与普通最小二乘解相比关键区别在于增加了αI这一项。这带来了几个重要优势即使XᵀX不可逆解仍然存在解对数据中的微小扰动更加鲁棒所有参数被等比例缩小但不为零2.2 实际应用与参数影响在scikit-learn中使用Ridge类可以轻松实现L2正则化from sklearn.linear_model import Ridge import numpy as np # 生成样本数据 X np.random.rand(100, 10) y X np.array([1, 0.5, -1, 0, 0, 0.3, -0.2, 0, 0, 0]) np.random.normal(0, 0.1, 100) # 不同alpha值的效果比较 alphas [0, 0.1, 1, 10] coefs [] for a in alphas: ridge Ridge(alphaa).fit(X, y) coefs.append(ridge.coef_) # 绘制参数变化 plt.figure(figsize(8, 5)) for i in range(10): plt.plot(np.log10(alphas[1:]), [c[i] for c in coefs[1:]], labelfw{i1} if i3 else None) plt.xlabel(log(alpha)) plt.ylabel(系数值) plt.title(L2正则化对参数的影响) plt.legend() plt.grid(True)随着α增大所有参数都逐渐缩小但不会完全为零。这就是L2正则化的平滑特性。3. L1正则化精准的特征选择器3.1 拉索回归的稀疏特性L1正则化(又称Lasso)采用权重向量的L1范数作为惩罚项J(w) ||Xw - y||² α||w||₁这个看似微小的变化L2→L1却带来了质的不同。L1正则化的关键特性包括稀疏解许多参数被精确压缩为零特征选择自动识别并保留重要特征几何解释等高线与菱形约束的切点常在顶点让我们通过一个对比实验观察这种差异from sklearn.linear_model import Lasso # 使用相同数据 lasso_coefs [] for a in [0.01, 0.1, 1, 10]: lasso Lasso(alphaa).fit(X, y) lasso_coefs.append(lasso.coef_) # 可视化比较 plt.figure(figsize(12, 4)) plt.subplot(121) for i in range(10): plt.plot(np.log10(alphas[1:]), [c[i] for c in coefs[1:]]) plt.title(L2正则化) plt.subplot(122) for i in range(10): plt.plot(np.log10([0.01, 0.1, 1, 10]), [c[i] for c in lasso_coefs]) plt.title(L1正则化) plt.tight_layout()可以看到L1正则化确实产生了明显的稀疏效果——许多系数在α增大时直接变为零。3.2 实际应用场景与技巧L1正则化特别适合以下场景高维数据特征数量远大于样本数时特征选择需要识别关键变量的场景模型解释希望获得简洁模型时在使用Lasso时有几个实用技巧值得注意数据标准化由于L1对尺度敏感务必先标准化特征正则化路径通过α从大到小探索不同稀疏度稳定性选择多次采样观察特征选择稳定性from sklearn.linear_model import lasso_path # 计算正则化路径 alphas, coefs, _ lasso_path(X, y, eps0.001, n_alphas100) # 绘制正则化路径 plt.figure(figsize(8, 5)) for i in range(10): plt.plot(np.log10(alphas), coefs[i], labelfw{i1} if i3 else None) plt.xlabel(log(alpha)) plt.ylabel(系数值) plt.title(L1正则化路径) plt.legend() plt.grid(True)这种可视化能清晰展示不同特征在不同正则化强度下的表现。4. 高级话题与实战技巧4.1 弹性网络两全其美的方案弹性网络(Elastic Net)结合了L1和L2正则化的优点J(w) ||Xw - y||² α(ρ||w||₁ (1-ρ)/2 ||w||²)其中ρ控制L1和L2的比例。这种混合策略特别适合特征高度相关时L1可能随机选择特征数量远大于样本数时需要平衡特征选择和参数稳定性时from sklearn.linear_model import ElasticNet # 不同混合比例的效果 ratios [0.2, 0.5, 0.8] for l1_ratio in ratios: enet ElasticNet(alpha0.1, l1_ratiol1_ratio).fit(X, y) print(fL1比例{l1_ratio:.1f}非零参数{(enet.coef_ ! 0).sum()})4.2 超参数调优策略正则化强度的选择至关重要以下是几种有效方法网格搜索交叉验证from sklearn.model_selection import GridSearchCV param_grid {alpha: np.logspace(-4, 0, 20)} grid GridSearchCV(Ridge(), param_grid, cv5) grid.fit(X, y) print(f最佳alpha: {grid.best_params_[alpha]:.4f})基于信息准则的方法AIC (Akaike Information Criterion)BIC (Bayesian Information Criterion)早停法(Early Stopping)监控验证集性能在过拟合前停止训练4.3 深度学习中的正则化实践在现代深度学习中正则化技术有了更多变体Dropout训练时随机丢弃神经元权重约束直接限制权重范数数据增强通过变换增加数据多样性from tensorflow.keras import layers, models, regularizers # 构建带L2正则化的神经网络 model models.Sequential([ layers.Dense(64, activationrelu, kernel_regularizerregularizers.l2(0.01), input_shape(10,)), layers.Dropout(0.5), layers.Dense(1) ])这种组合策略能有效防止复杂神经网络的过拟合。

相关文章:

从零开始理解L1和L2正则化:机器学习中的惩罚函数详解

从零开始理解L1和L2正则化:机器学习中的惩罚函数详解 在构建机器学习模型时,我们常常面临一个核心矛盾:模型越复杂,对训练数据的拟合效果越好,但同时也更容易陷入过拟合的泥潭。想象一下,你正在教一个学生解…...

看完就会:高效论文写作全流程AI论文平台推荐(2026 最新)

论文写作全流程可拆解为文献调研→选题/开题→大纲/初稿→文献综述→降重/去AI味→润色/格式→查重/投稿七大环节,以下2026年AI论文平台按环节精准匹配,兼顾中文适配、降重能力、去AI痕迹、学术合规四大核心需求,覆盖免费/付费、通用/垂直场景…...

银行客户流失预警:用SMOTE与集成学习模型(如EasyEnsemble)应对数据不平衡挑战

银行客户流失预警:用SMOTE与集成学习模型应对数据不平衡挑战 在金融行业,客户流失预警一直是银行风控体系中的核心环节。当银行面临客户流失(少数类)远少于未流失客户(多数类)的情况时,传统的机…...

利用华为云MaaS与OpenTiny NEXT构建智能电商后台:从传统操作到AI驱动的自动化升级

1. 传统电商后台的痛点与AI转型机遇 电商后台管理系统一直是运营人员的"战场",每天面对商品上下架、库存调整、数据统计等重复性工作。记得三年前我参与过一个母婴电商项目,运营团队每天要手动处理上百个商品信息更新,高峰期经常加…...

如何快速配置NoteGen快捷键:从新手到效率高手的完整指南

如何快速配置NoteGen快捷键:从新手到效率高手的完整指南 【免费下载链接】note-gen 一款专注于记录和写作的跨端 AI 笔记应用。 项目地址: https://gitcode.com/GitHub_Trending/no/note-gen 你是否曾经在使用笔记应用时,频繁切换鼠标点击菜单&am…...

探索声发射 b 值:Matlab 程序之旅

声发射b值,Matlab程序在材料科学和岩石力学等领域,声发射(Acoustic Emission,AE)技术是研究材料内部损伤演化的重要手段。而声发射 b 值作为其中一个关键参数,能反映材料内部微破裂的特征。今天&#xff0c…...

OOM线上问题排查

场景: 项目中有一个接口,会进行全表查询,查出来3万条,查一次不会导致oom,但是频繁调用这个接口,上一次调用还没有来得及进行垃圾回收,下一次接口调用又来了,又有3万条数据&#xff0…...

springboot+vue基于web的校园商铺摊位管理系统

目录功能模块分析技术实现要点扩展功能建议数据库设计关键表项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作##同行可拿货,招校园代理 ,本人源头供货商功能模块分析 后台管理模块(SpringBoot) 管理员登…...

破解Agent“半途摆烂”困局,OpenDev凭Harness架构,撕开Code Agents的工程化真相

玩过AI Agent的人,几乎都有过这样的崩溃时刻:前几轮交互里,它思路清晰、反应迅速,像个无所不能的天才,你说修改一段代码,它能精准命中漏洞;你让它梳理项目结构,它能条理分明地给出方…...

4个关键步骤:开源散热控制解决Dell G15温度难题

4个关键步骤:开源散热控制解决Dell G15温度难题 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 在游戏本使用过程中,散热控制往往是影响…...

如何用OpenRGB终结RGB灯光控制混乱:终极跨平台解决方案

如何用OpenRGB终结RGB灯光控制混乱:终极跨平台解决方案 【免费下载链接】OpenRGB Open source RGB lighting control that doesnt depend on manufacturer software. Supports Windows, Linux, MacOS. Mirror of https://gitlab.com/CalcProgrammer1/OpenRGB. Relea…...

B2B战略到营销分解实战:OGSM / 主题 / 内容 / 渠道 / 节奏五层框架

# B2B战略到营销分解实战:OGSM / 主题 / 内容 / 渠道 / 节奏五层框架先给结论:很多B2B企业真正缺的不是动作,而是把战略翻译成可协同、可执行、可复盘的年度经营结构。## 一、定义 B2B战略到营销分解是什么:把品牌战略中的目标客户…...

JAVA中try catch无法捕获异常的原因是什么

Java 中的 try-catch 机制是处理异常的重要手段,但有时即使写了 try-catch 代码,异常仍会被抛出。这是因为 catch 块指定的异常类型可能无法与实际抛出的异常相匹配。让我们举一个代码意图捕获异常并打印特定信息的例子:public class Test {p…...

Java POI读取大文件慢如何优化

用java poi处理大型excel文件时,往往会遇到阅读速度慢的问题,严重影响程序性能。本文将针对“java poi打开大文件的慢优化方法?”这个问题讨论了几个可行的解决方案,以帮助开发者提高程序效率。问题在于java poi 默认情况下&#…...

ssm+java2026年毕设数据分析教学网站【源码+论文】

本系统(程序源码)带文档lw万字以上 文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容一、选题背景关于会议管理问题的研究,现有研究主要以传统OA办公系统或通用协同办公平台为主,专门针对会议全生命周期…...

SP140 ESC遥测驱动库:曼彻斯特编码与单线UART嵌入式解析

1. OpenPPG_SP140_ESC 库深度解析:面向电动动力系统的嵌入式ESC遥测驱动开发指南1.1 项目定位与工程价值OpenPPG_SP140_ESC 是一个专为 SP140 电子调速器(ESC)设计的 Arduino 兼容库,其核心价值不在于通用电机控制,而在…...

物理信息神经网络PINN求解二维Helmholtz方程的Python torch实现

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

【电气数据】电力网络充电站定价策略数据集

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...

Qt 实时数据可视化工程实践:环形缓冲区实践

目录 前言 一、架构设计 1.1 分层架构图 1.2 数据写入流 1.3 数据刷新流 (定时器驱动 → 视图更新) 1.4 核心设计思想 二、核心实现详解 2.1 RingBuffer:环形缓冲区实现 2.1.1 append函数(线程安全写入) 函数主体实现: …...

手把手教你:Trae 中不写一行代码,一句话实现增删查改

1. 下载并运行 RuoYi 项目 基于您提供的下载地址和操作步骤,流程如下: 1.1. 下载 RuoYi 项目 官网地址:如链接3所示,RuoYi的官方网址是 https://www.ruoyi.vip/。 下载:在官网,您可以根据需要下载不同版…...

【Java边缘运行时部署终极指南】:20年专家亲授5大避坑法则与3步极速上线实战

第一章:Java边缘运行时部署全景认知与演进脉络Java在边缘计算场景中的运行时部署正经历从传统云中心化架构向轻量、自治、低延迟方向的深刻演进。早期Java应用依赖完整JDK和重量级容器(如Tomcat)部署于虚拟机或Kubernetes集群,难以…...

用计算机科学与技术的视角,把谈恋爱流程化:构建可运行、可调试、可迭代的情感操作系统

用计算机科学与技术的视角,把谈恋爱流程化:构建可运行、可调试、可迭代的情感操作系统 善灵驿站 成长心理 技术思维深度融合系列 作者:培风图南以星河揽胜 专栏链接:善灵驿站 📌 导读:为什么技术人更需要…...

西门子博图V16实战:5种工作模式机械手PLC程序全解析(附HMI组态文件)

西门子博图V16实战:5种工作模式机械手PLC程序全解析(附HMI组态文件) 在工业自动化领域,机械手控制系统一直是核心难点之一。如何实现多工作模式的灵活切换、确保信号互锁安全可靠,是每个PLC程序员必须掌握的技能。本文…...

RK3588上OpenCV+GStreamer播放RTSP卡成PPT?一个环境变量让帧率从7飙升到25+

RK3588视频开发实战:OpenCVGStreamer硬解码性能翻倍秘籍 在嵌入式视觉应用开发中,RK3588凭借其强大的多媒体处理能力成为众多开发者的首选平台。但当你在Python环境中使用OpenCV配合GStreamer进行RTSP视频流处理时,是否遇到过这样的尴尬&…...

PingFangSC字体实战指南:从基础配置到性能优化全攻略

PingFangSC字体实战指南:从基础配置到性能优化全攻略 【免费下载链接】PingFangSC PingFangSC字体包文件、苹果平方字体文件,包含ttf和woff2格式 项目地址: https://gitcode.com/gh_mirrors/pi/PingFangSC PingFangSC(苹果平方简体&am…...

告别手动记录!用CAPL脚本的file系列函数自动生成CANoe测试报告

告别手动记录!用CAPL脚本的file系列函数自动生成CANoe测试报告 在汽车电子测试领域,工程师们每天都要面对海量的测试数据——从总线负载率到错误帧统计,从信号值波动到时间戳记录。传统的手动截图、复制粘贴方式不仅效率低下,还容…...

麦克风效率革命:MicMute让静音操作提速90%的终极体验升级

麦克风效率革命:MicMute让静音操作提速90%的终极体验升级 【免费下载链接】MicMute Mute default mic clicking tray icon or shortcut 项目地址: https://gitcode.com/gh_mirrors/mi/MicMute 你是否经历过线上会议中手忙脚乱寻找静音按钮的窘迫?…...

《QGIS快速入门与应用基础》248:对齐工具(左对齐/居中对齐/右对齐)对齐工具(左对齐/居中对齐/右对齐)对齐工具(左对齐/居中对齐/右对齐)对齐工具(左对齐/居中对齐/右对齐)对齐工具(左对齐/

作者:翰墨之道,毕业于国际知名大学空间信息与计算机专业,获硕士学位,现任国内时空智能领域资深专家、CSDN知名技术博主。多年来深耕地理信息与时空智能核心技术研发,精通 QGIS、GrassGIS、OSG、OsgEarth、UE、Cesium、OpenLayers、Leaflet、MapBox 等主流工具与框架,兼具…...

Cursor API限制突破架构设计与系统实现方案

Cursor API限制突破架构设计与系统实现方案 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your trial request limit. / T…...

ESP32/ESP8266嵌入式IoT工具库:轻量、可靠、生产就绪

1. 项目概述esp-iot-utils是面向 ESP32 和 ESP8266 平台的轻量级、生产就绪型嵌入式 IoT 工具集。它并非功能堆砌的“大而全”框架,而是以工程师视角提炼出高频、重复、易出错的底层任务——网络通信、结构化数据解析、时间同步、配置持久化与系统状态管理——并封装…...