当前位置：首页 > news >正文

【机器学习】正则化到底是什么？

news 2025/12/30 1:50:43

先说结论：机器学习中的正则化主要解决模型过拟合问题。

如果模型出现了过拟合，一般会从两个方面去改善，一方面是训练数据，比如说增加训练数据量，另一方面则是从模型角度入手，比如，降低模型复杂度。
但无论是增加数据量还是降低模型复杂度，都是不容易做到的，这时正则化就是一个唾手可得选择，只要在损失函数中加入正则化项，往往就能得到一个不错的效果提升。

什么是过拟合？

如果模型在训练集上效果好，但在测试集上效果差，这时我们就怀疑模型出现了过拟合。
在这里插入图片描述

最左边的是欠拟合，模型过于简单，只能拟合简单的线性关系。

在这里插入图片描述

中间的代表刚好拟合，其拟合的是一个2次多项式：
在这里插入图片描述

最右边的图就是过拟合的例子，模型过于复杂，也就是说模型考虑的太多了，模型可能使用了与分类无关的特征，或者模型试图去拟合关于特征的M次多项式，最终导致过拟合。

在这里插入图片描述

什么是正则化？

以线性回归为例，正常情况下，损失函数是这个样子的：

（1）

加入正则化项后：

（2）

如果q等于1称为L1正则化，q等于2称为L2正则化。

为什么正则化能防止过拟合？

前面我们说过，降低模型复杂度可以防止过拟合，正则化本质上就是在降低模型复杂度，正则化项其实就是对损失函数达到最小值的最优解w进行了限制。

在SVM的推理过程中，我们接触了带约束的最优化问题，并且知道可以通过拉格朗日乘子法以及对偶问题将带等式约束以及不等式约束优化问题转换成不带约束的优化问题。所以对于公式（2），可以等价为：

（3）

（4）

上面的公式可视化为：

在这里插入图片描述

上图，蓝色的圆是原始损失函数（1）的等高线，其中心点是最优解，棕色的代表正则化项，有了正则化项约束后，最优解只能在棕色的圆或者正方形内寻找，所以最优解只能是等高线与圆的切点或者与正方形顶点的交点。

那为什么与正则化项相交点的参数能防止过拟合呢？

先来看L1正则化，最优解w一定是在坐标轴上，也就是说w的某些维度一定是0，这就起到了参数稀疏化的作用。

（在神经网络中的Dropout机制不也是一种正则化思想嘛！）
既然参数的某些元素为0，那么就可能把模型拟合的M次多项式高次项或者组合项去掉转换为2次多项式了。
在这里插入图片描述

而L2正则化虽然没有使W中的某些元素为0，但却使w的每个元素都很小，也就是限制了某些高次项或者复杂组合项的作用。所以无论是哪种正则化，都是在约束模型的复杂度。

【机器学习】正则化到底是什么？

先说结论：机器学习中的正则化主要解决模型过拟合问题。如果模型出现了过拟合，一般会从两个方面去改善，一方面是训练数据，比如说增加训练数据量，另一方面则是从模型角度入手，比如，降低模型复杂…...

编程日记 2023/11/14 5:27:20

Rust5.2 Generic Types, Traits, and Lifetimes

Rust学习笔记 Rust编程语言入门教程课程笔记参考教材: The Rust Programming Language (by Steve Klabnik and Carol Nichols, with contributions from the Rust Community) Lecture 10: Generic Types, Traits, and Lifetimes lib.rs use std::fmt::Display;//Traits: …...

编程日记 2023/11/14 5:26:19

c 实用化的摄像头生成avi视频程序（加入精确的时间控制）

I时间控制是指：生成了n张图片帧用了多少时间m。帧率等于n/m。对应于头文件，m等于scale, n等于rate.为了精确，采用微秒计时。 I此程序生成的视频远好于ffmpeg，可能是此程序没有压缩数据原因吧。现在的帧率不高，是因…...

编程日记 2023/11/14 5:25:18

Web后端开发_01

Web后端开发请求响应 SpringBoot提供了一个非常核心的Servlet 》DispatcherServlet，DispatcherServlet实现了servlet中规范的接口请求响应： 请求（HttpServletRequest）：获取请求数据响应（HttpServletRe…...

编程日记 2023/11/14 5:24:17

二十、泛型（6）

本章概要问题任何基本类型都不能作为类型参数实现参数化接口转型和警告重载基类劫持接口自限定的类型古怪的循环泛型自限定参数协变问题本节将阐述在使用 Java 泛型时会出现的各类问题。任何基本类型都不能作为类型参数正如本章早先提到的，Java 泛型的…...

编程日记 2023/11/14 5:23:16

Java18新增特性

前言前面的文章，我们对Java9、Java10、Java11、Java12 、Java13、Java14、Java15、Java16、Java17 的特性进行了介绍，对应的文章如下 Java9新增特性 Java10新增特性 Java11新增特性 Java12新增特性 Java13新增特性 Java14新增特性 Java15新增特性 Java…...

编程日记 2023/11/14 5:22:15

springboot容器

1.主要指的是servlet容器 servlet组件由sevlet Filter Listener等 2.自动配置原理通过ServletWebServerFactoryAutoConfiguration 配置这些内容 (自动配置类开始分析功能) conditionalOnclass开启条件 ServletRequest类 import导入嵌入式的tomcat Jetty等这些是配置类&…...

编程日记 2023/11/14 5:21:15

Windows 10 下使用Visual Studio 2017 编译CEF SDK

1.下载CEF SDK 由于需要跑在32位的机器，所以选择下载32位的SDKCEF Automated Builds 选择 Current Stable Build (Preferred) ，这是当前稳定版本，CEF版本118 下载成功解压 2.下载编译工具 CMake 下载地址：CMake 配置CMake指向…...

编程日记 2023/11/14 5:20:14

数字货币swap交易所逻辑系统开发分析方案

随着数字货币市场的快速发展， Swap交易所已成为一种重要的交易方式。本文将对数字货币Swap交易所逻辑系统开发进行分析，并探讨其优势、开发难点和解决方案。一、数字货币Swap交易所逻辑系统开发的优势数字货币Swap交易所是一种点对点的交易方式&#x…...

编程日记 2023/11/14 5:19:13

spring boot中使用Bean Validation做优雅的参数校验

一、Bean Validation简介 Bean Validation是Java定义的一套基于注解的数据校验规范，目前已经从JSR 303的1.0版本升级到JSR 349的1.1版本，再到JSR 380的2.0版本（2.0完成于2017.08），目前最新稳定版2.0.2（201…...

编程日记 2023/11/14 5:18:12

搜索引擎项目

认识搜索引擎 1、有一个主页、有搜索框。在搜索框中输入的内容称为“查询词” 2、还有搜索结果页，包含了若干条搜索结果 3、针对每一个搜索结果，都会包含查询词或者查询词的一部分或者和查询词具有一定的相关性 4、每个搜索结果包含好几个部分&…...

编程日记 2023/11/14 5:17:10

7.外部存储器，Cache，虚拟存储器

目录一. 外部存储器 （1）磁盘存储器 1.磁盘的组成 2.磁盘的性能指标 3.磁盘地址 4.硬盘的工作过程 5.磁盘阵列 （2）固态硬盘（SSD） 二. Cache基本概念与原理三. Cache和主存的映射方式 &#xff…...

编程日记 2023/11/14 5:16:09

UITableView的style是UITableViewStyleGrouped

一般情况下，UITableViewStylePlain和UITableViewStyleGrouped是UITableView常用到的style， 之前都是用到的时候，遇到问题直接用度娘，差不多就够用了，今天在修复UI提出的间隙问题，来回改，总觉得…...

编程日记 2023/11/14 5:15:08

Java17新增特性

前言前面的文章，我们对Java9、Java10、Java11、Java12 、Java13、Java14、Java15、Java16 的特性进行了介绍，对应的文章如下 Java9新增特性 Java10新增特性 Java11新增特性 Java12新增特性 Java13新增特性 Java14新增特性 Java15新增特性 Java16新增特…...

编程日记 2023/11/14 5:14:07

VR全景技术在城市园区发展中有哪些应用与帮助

引言： 在数字化时代的浪潮中，虚拟现实（VR）全景技术逐渐融入各个领域，也为城市园区展示带来了全新的可能性。一．VR全景技术简介虚拟现实全景技术是一种通过全景图像和视频模拟真实环境的技术。通过相关设…...

编程日记 2023/11/14 5:13:06

在 SQL 中，当复合主键成为外键时应该如何被其它表引用

文章目录当研究一个问题慢慢深入时，一个看起来简单的问题也暗藏玄机。在 SQL 中，主键成为外键这是一个很平常的问题，乍一看没啥值得注意的。但如果这个主键是一种复合主键，而另一个表又引用这个键作为它的复合主键，问…...

编程日记 2023/11/14 5:12:05

Ps：通过显示大小了解图像的打印尺寸

在 Photoshop 中，如果想了解文档窗口中的图像打印出来之后的实质大小，只要知道两个数值即可。第一个数值是图像分辨率（也称“文档分辨率”）的大小，可在Ps菜单：图像/图像大小 Image Size对话框中查询或设置…...

编程日记 2023/11/14 5:11:04

Linux - 驱动开发 - watchdog - SMP机制下多核确活

说明理论上：不管IC是单核还是多核，只要watchdog有被循环feed，就不会触发超时重启，因此watchdog在SMP机制下的多核环境显得比较宽松，只要任意核存活（喂狗）就不会重启设备。实际情况有客户反…...

编程日记 2023/11/14 5:10:03

概念解析 | LoRA:低秩矩阵分解在神经网络微调中的魔力

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:基于低秩矩阵分解的神经网络微调方法LoRA LoRA:低秩矩阵分解在神经网络微调中的魔力 Low-Rank Adaptation of Large Language Models LoRA由如下论文提出，详细信息请参见论文原…...

编程日记 2023/11/14 5:09:02

量子计算和量子通信技术：引领潜力无限的未来

近年来，随着量子计算和量子通信技术的迅速发展，它们在各个领域的广泛应用前景引起了人们的极大兴趣。本文将深入探讨量子计算和量子通信技术的普遍应用，以及它们预示的未来，同时提出业内人士需要注意的事项。介绍：量子…...

编程日记 2023/11/14 5:08:01

Python爬虫实战：研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库，专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力，提供了直观的 API，让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

编程新知 2025/10/10 18:13:55

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/12/28 3:44:22

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/12/20 12:32:08

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

一、属性动画概述NETX 作用：实现组件通用属性的渐变过渡效果，提升用户体验。支持属性：width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项： 布局类属性（如宽高）变化时&#…...

编程新知 2025/12/18 10:57:53

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/8/17 17:11:47

【HTTP三个基础问题】

面试官您好！HTTP是超文本传输协议，是互联网上客户端和服务器之间传输超文本数据（比如文字、图片、音频、视频等）的核心协议，当前互联网应用最广泛的版本是HTTP1.1，它基于经典的C/S模型，也就是客…...

编程新知 2025/12/10 6:18:55

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

华为云FlexusDeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建前言如今大模型其性能出色，华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型，能助力我们轻松驾驭 DeepSeek-V3/R1，本文中将分享如何…...

编程新知 2025/12/29 11:11:37

Web 架构之 CDN 加速原理与落地实践

文章目录一、思维导图二、正文内容（一）CDN 基础概念1. 定义2. 组成部分 （二）CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 （三）CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 &#xf…...

编程新知 2025/9/13 16:17:01

【生成模型】视频生成论文调研

工作清单上游应用方向：控制、速度、时长、高动态、多主体驱动类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

编程新知 2025/9/9 8:40:47

视频行为标注工具BehaviLabel（源码+使用介绍+Windows.Exe版本）

前言： 最近在做行为检测相关的模型，用的是时空图卷积网络（STGCN），但原有kinetic-400数据集数据质量较低，需要进行细粒度的标注，同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

编程新知 2025/12/14 18:08:24

相关文章：