当前位置：首页 > article >正文

机器学习7-全连接神经网络3-过拟合与超参数

article 2026/5/8 19:50:44

机器学习6-全连接神经网络3-过拟合欠拟合

过拟合
- 应对过拟合-最优方案：获取更多的训练数据
- 应对过拟合-次优方案：正则化
- 应对过拟合-次优方案2：随机失活
- 综合考量
超参数
- 超参数优化方法

过拟合

在这里插入图片描述

机器学习的根本问题是优化和泛化的问题。
优化——是指调节模型以在训练数据上得到最佳性能;
泛化------指训练好的模型在前所未见的数据上的性能好坏。
训练初期:
优化和泛化是相关的:训练集上的误差越小，验证集上的误差也越小，集上的误差也越小，模型的泛化能力逐渐增强

训练后期:
模型在验证集上的错误率不再降低，转而开始变高。模型出现过拟合，开始学习仅和训练数据有关的模式。

最优方案——获取更多的训练数据
次优方案——调节模型允许存储的信息量或者对模型允许存储的信息加以
约束，该类方法也称为正则化

在机器学习和数据科学领域，提高模型性能通常涉及多种策略。你提到的两种方案——获取更多的训练数据和正则化——是实践中非常常见且有效的方法。下面将详细解释这两种方案，并探讨它们在不同情境下的适用性。

应对过拟合-最优方案：获取更多的训练数据

原理：
更多的训练数据意味着模型可以学习到更多关于数据分布的特征，从而提高泛化能力。大数据集有助于减少过拟合的风险，因为模型有更多的机会学习到数据中的真实模式，而不是噪声。

优点：

提高模型的泛化能力。
减少过拟合的风险。
在一些情况下，可以简化模型设计，因为大数据集本身就能提供足够的信息来支持复杂问题的解决。

挑战：

数据收集可能耗时、耗力且昂贵。
数据质量和标签的准确性需要保证。
数据存储和处理能力可能受到限制。

应对过拟合-次优方案：正则化

在这里插入图片描述

原理：
正则化是通过在损失函数中添加一个惩罚项来约束模型的复杂度，从而防止模型在训练数据上过拟合。正则化方法包括L1正则化（Lasso）、L2正则化（Ridge）等。L21正贝损失对于大数值的权值向量进行严厉惩罚，鼓励更加分散的权重向量;使模型倾向于使用所有输入特征做决策，此时的模型泛化性能好!

应对过拟合-次优方案2：随机失活

随机失活:让隐层的神经元以一定的概率不被激活。
实现方式:训练过程中，对某一层使用Dropout，就是随机将该层的一些输出舍弃(输出值设置为0），这些被舍弃的神经元就好像被网络删除了一样。
随机失活比率( Dropout ratio） :是被设为0的特征所占的比例，通常在0.2——0.5范围内。

例:假设某一层对给定输入样本的返回值应该是向量:[0.2，0.5，1.3，0.8，1.1]。,
使用Dropout后，这个向量会有几个随机的元素变成:[0,0.5，1.3， 0， 1.1]。

随机失活为什么能够防止过拟合呢?
在这里插入图片描述

随机失活的应用
在这里插入图片描述

测试阶段与训练阶段的输出值不一致

import numpy as np# 神经元保持激活状态的概率，该值越高失活的单元就越少
P = 0.5# 定义训练函数
def train(x, W1, b1, W2, b2, W3, b3):# 计算第一层输出H1 = np.maximum(0, np.dot(W1, x) + b1)# 生成第一层的maskU1 = (np.random.rand(*H1.shape) < P).astype(float)# 第一层dropout操作H1 *= U1# 计算第二层输出H2 = np.maximum(0, np.dot(W2, H1) + b2)# 生成第二层的maskU2 = (np.random.rand(*H2.shape) < P).astype(float)# 第二层dropout操作H2 *= U2# 计算输出层输出out = np.dot(W3, H2) + b3return out, H1, H2  # 可以根据需要返回中间层输出用于调试或可视化# 定义预测函数
def predict(x, W1, b1, W2, b2, W3, b3):# 注意：在预测时通常不使用dropout，但为了与train函数保持一致，这里仍保留权重和偏置的变量名H1 = np.maximum(0, np.dot(W1, x) + b1) * PH2 = np.maximum(0, np.dot(W2, H1) + b2) * Pout = np.dot(W3, H2) + b3return out# 初始化权重和偏置
input_size = 3
hidden_size1 = 4
hidden_size2 = 4
output_size = 1W1 = np.random.randn(hidden_size1, input_size) * 0.01
b1 = np.zeros((hidden_size1, 1))
W2 = np.random.randn(hidden_size2, hidden_size1) * 0.01
b2 = np.zeros((hidden_size2, 1))
W3 = np.random.randn(output_size, hidden_size2) * 0.01
b3 = np.zeros((output_size, 1))# 示例输入
x = np.random.rand(input_size, 1)  # 假设输入是一个三维向量# 训练并获取输出
output, H1_val, H2_val = train(x, W1, b1, W2, b2, W3, b3)
print("Training Output:", output)# 预测
prediction = predict(x, W1, b1, W2, b2, W3, b3)
print("Prediction:", prediction)

在训练阶段直接除以概率P，测试阶段不用除以概率P。

综合考量

优点：

在不增加额外数据的情况下，提高模型的泛化能力。
通过控制模型的复杂度，有助于减少过拟合。
可以作为模型训练过程中的一个调整参数，灵活应用于不同的模型架构。

挑战：

需要仔细调整正则化参数以找到最佳平衡点，这可能需要多次实验。
正则化可能会限制模型的性能，尤其是在数据量充足且模型复杂度适当的情况下。
对于某些类型的模型（如深度学习模型），正则化的效果可能不如增加数据量显著。
数据量不足：在数据量严重不足的情况下，获取更多数据通常是首选方案。如果数据收集不可行或成本过高，正则化可以作为一个有效的替代方案。
模型复杂度过高：当模型复杂度过高且数据量相对不足时，正则化尤为重要。通过约束模型的复杂度，可以减少过拟合的风险。
计算资源限制：在处理大规模数据集时，计算资源的限制可能成为一个问题。在这种情况下，正则化可以作为一种减轻计算负担的策略，同时保持模型的性能。

总之，获取更多的训练数据和正则化是提高模型性能的两种有效策略。在实际应用中，应根据具体情境和数据特点灵活选择和应用这两种方法。

超参数

网络结构——隐层神经元个数,网络层数，非线性单元选择等
优化相关———学习率、dropout比率、正则项强度等

在这里插入图片描述

学习率过大，训练过程无法收敛
学习率偏大，在最小值附近震荡，达不到最优
学习率太小，收敛时间较长
学习率适中，收敛快、结果好

超参数优化方法

网格搜索法:
1.每个超参数分别取几个值，组合这些超参数值，形成多组超参数;
2.在验证集上评估每组超参数的模型性能;
3.选择性能最优的模型所采用的那组值作为最终的超参数的值。
随机搜索法
1.参数空间内随机取点，每个点对应一组超参数;
2.在验证集上评估每组超参数的模型性能;
3.选择性能最优的模型所采用的那组值作为最终的超参数的值。

在这里插入图片描述

粗搜索:利用随机法在较大范围里采样超参数训练一个周期，依据验证集正确率缩小超参数范围。
精搜索:利用随机法在前述缩小的范围内采样超参数;运行模型五到十个周期，选择验证集上精度最高的那组超参数。

机器学习7-全连接神经网络3-过拟合与超参数

机器学习6-全连接神经网络3-过拟合欠拟合过拟合应对过拟合-最优方案：获取更多的训练数据应对过拟合-次优方案：正则化应对过拟合-次优方案2：随机失活综合考量超参数超参数优化方法过拟合机器学习的根本问题是优化和泛化的问题。优化——是…...

编程日记 2026/4/29 17:50:37

【PyTorch】7.自动微分模块：开启神经网络 “进化之门” 的魔法钥匙

目录 1. 梯度基本计算 2. 控制梯度计算 3. 梯度计算注意 4. 小节个人主页：Icomi 专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch 是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活…...

编程日记 2026/4/29 17:50:38

11 3D变换模块（transform3d.rs）

transform3d.rs代码定义了一个名为 Transform3D 的 Rust 结构体，它用于表示一个3D变换矩阵。这个结构体是泛型的，包含三个类型参数：T、Src 和 Dst。其中，T 用于矩阵元素的数据类型，Src 和 Dst 用于表示变换的源和目标类…...

编程日记 2026/2/23 19:42:52

MATLAB基础应用精讲-【数模应用】梯度直方图（HOG）（附C++和python代码实现）（二）

目录前言几个高频面试题目 HOG与SIFT区别边缘特征与梯度方向直方图的关系算法原理什么是HOG 图像中像素点的梯度计算为每个cell构造梯度方向直方图HOG 数学模型方向梯度直方图计算步骤第一步：预处理第二步：计算梯度图像第三步：在8*8的网格中计算梯度…...

编程日记 2026/4/4 5:38:49

pytorch生成对抗网络

人工智能例子汇总：AI常见的算法和例子-CSDN博客生成对抗网络（GAN，Generative Adversarial Network）是一种深度学习模型，由两个神经网络组成：生成器（Generator）和判别器&#xff0…...

编程日记 2026/5/7 19:25:32

Baklib在企业知识管理领域的领先地位与三款竞品的深度剖析

内容概要在现代企业中，知识管理已成为提高工作效率和推动创新的重要手段。Baklib作为一款领先的知识中台，以其集成化和智能化的特性，帮助企业在这一领域取得了显著成就。该平台具备强大的知识收集、整理、存储和共享功能，通过构…...

编程日记 2026/4/29 17:50:36

2 MapReduce 1. MapReduce 介绍1.1 MapReduce 设计构思 2. MapReduce 编程规范3. Mapper以及Reducer抽象类介绍1.Mapper抽象类的基本介绍2.Reducer抽象类基本介绍 4. WordCount示例编写5. MapReduce程序运行模式6. MapReduce的运行机制详解6.1 MapTask 工作机制6.2 ReduceTask …...

编程日记 2026/4/29 17:50:35

人工智能学习（四）之机器学习基本概念

机器学习基本概念详细解析：从生活实例轻松入门在当今数字化时代，机器学习作为人工智能领域的核心技术之一，正深刻地改变着我们的生活和工作方式。从智能语音助手到图像识别系统，从个性化推荐引擎到自动驾驶汽车，机器…...

编程日记 2026/4/26 2:24:45

大模型openai范式接口调用方法

本文将介绍如下内容： 一、为什么选择 OpenAI 范式接口？二、调用 Openai 接口官方调用 Demo 示例三、自定义调用 Openai 接口一、为什么选择 OpenAI 范式接口？ OpenAI 范式接口因其简洁、统一和高效的设计，成为了与大型语言模型…...

编程日记 2026/2/24 1:39:24

DeepSeek API接口中的openAI是什么意思？

老六哥的小提示：我们可能不会被AI轻易淘汰，但是会被“会使用AI的人”淘汰。 DeepSeek是一款基于先进推理技术的大型语言模型，能够根据用户提供的简洁提示词生成高质曾经有外媒评价说：DeepSeek盗用了openAI的技术，或者…...

编程日记 2026/2/26 16:43:12

重构字符串（767）

767. 重构字符串 - 力扣（LeetCode） 解法： class Solution { public:string reorganizeString(string s){string res;//因为1 < s.length < 500 ， uint64_t 类型足够uint16_t n s.size();if (n 0) {return res;}unordere…...

编程日记 2026/3/3 2:25:40

测压表压力表计量表针头针尾检测数据集VOC+YOLO格式4862张4类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：4862 标注数量(xml文件个数)：4862 标注数量(txt文件个数)：4862 …...

编程日记 2026/4/29 17:51:27

【C++语言】卡码网语言基础课系列----12. 位置互换

文章目录练习题目位置互换具体代码实现小白寄语诗词共勉练习题目位置互换题目描述： 给定一个长度为偶数位的字符串，请编程实现字符串的奇偶位互换。输入描述： 输入包含多组测试数据。输入的第一行是一个整数n，表示有测试…...

编程日记 2026/2/21 10:13:35

[权限提升] Windows 提权维持 — 系统错误配置提权 - PATH 环境变量提权

关注这个专栏的其他相关笔记：[内网安全] 内网渗透 - 学习手册-CSDN博客 0x01：PATH 环境变量提权原理在 Windows 操作系统中，Path 环境变量是一个包含多个目录路径的列表，系统通过这些路径来查找可执行文件（如 .exe、.bat 等）。当你在命令提示符或运行对话框中输入命令时…...

编程日记 2026/2/21 22:49:45

吴恩达深度学习——优化神经网络

本文来自https://www.bilibili.com/video/BV1FT4y1E74V，仅为本人学习所用。文章目录优化样本大小mini-batch 优化梯度下降法动量梯度下降法指数加权平均概念偏差纠正动量梯度下降法 RMSpropAdam优化算法优化学习率局部最优问题（了解） 优…...

编程日记 2026/5/8 1:56:51

揭秘算法课程导读

目录一、老师介绍二、课程目标三、课程安排一、老师介绍学问小小谢我是一个热爱分享知识的人，我深信知识的力量能够启迪思考，丰富生活。欢迎每一位对知识有渴望的朋友，如果你对我的创作感兴趣，或者我们有着共同的兴趣点&…...

编程日记 2026/4/29 8:44:22

17.[前端开发]Day17-形变-动画-vertical-align

1 transform CSS属性 - transform transform的用法表示一个或者多个不用记住全部的函数，只用掌握这四个常用的函数即可位移 - translate <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta ht…...

编程日记 2026/5/3 11:28:22

【单层神经网络】基于MXNet库简化实现线性回归

写在前面同最开始的两篇文章完整程序及注释导入使用的库# 基本 from mxnet import autograd, nd, gluon # 模型、网络 from mxnet.gluon import nn from mxnet import init # 学习 from mxnet.gluon import loss as gloss # 数据集 from mxnet.gluon…...

编程日记 2026/2/27 1:23:54

第1节课：算法初印象—开启算法世界的大门

目录一、算法是什么（一）官方定义（二）算法的五大特性（三）算法与程序的关系二、算法在生活中的奇妙体现（一）日常出行中的算法（二）购物消费中的算法&#xff0…...

编程日记 2026/2/23 0:47:18

[C语言日寄] ＜stdio.h＞头文件功能介绍

在C语言的世界里，<stdio.h> 是一个极其重要的头文件，它提供了标准输入输出功能，是C语言程序与用户交互的核心工具。今天，我们就来深入探讨 <stdio.h> 的功能、使用注意事项以及它的拓展应用。功能介绍 <stdio.h…...

编程日记 2026/4/14 6:42:23

Python的那些事第五篇：数据结构的艺术与应用

新月人物传记：人物传记之新月篇-CSDN博客目录一、列表（List）：动态的容器二、元组（Tuple）：不可变的序列三、字典（Dict）：键值对的集合四、集合&#xf…...

编程日记 2026/5/2 14:57:53

Linux：线程池和单例模式

一、普通线程池 1.1 线程池概念线程池：一种线程使用模式。线程过多会带来调度开销，进而影响缓存局部性和整体性能。而线程池维护着多个线程，等待着监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价&…...

编程日记 2026/5/1 5:42:10

【算法-位运算】位运算遍历 LogTick 算法

文章目录 1. 引入2. LogTick 优化遍历过程3. 题目3.1 LeetCode3097 或值至少为 K 的最短子数组 II3.2 LeetCode2411 按位或最大的最小子数组长度3.3 LeetCode3209 子数组按位与值为 K 的数目3.4 LeetCode3171 找到按位或最接近 K 的子数组3.5 LeetCode1521 找到最接近目标值的函…...

编程日记 2026/5/5 19:22:41

【memgpt】letta 课程4：基于latta框架构建MemGpt代理并与之交互

Lab 3: Building Agents with memory 基于latta框架构建MemGpt代理并与之交互理解代理状态，例如作为系统提示符、工具和agent的内存查看和编辑代理存档内存MemGPT 代理是有状态的 agents的设计思路每个步骤都要定义代理行为 Letta agents persist information over time and…...

编程日记 2026/5/6 11:38:14

Python的那些事第九篇：从单继承到多继承的奇妙之旅

Python 继承：从单继承到多继承的奇妙之旅目录 Python 继承：从单继承到多继承的奇妙之旅一、引言二、继承的概念与语法三、单继承四、多继承五、综合代码示例六、总结一、引言在编程的世界里，继承就像是一场神奇的魔法&#…...

编程日记 2026/5/4 4:38:27

Excel to form ？一键导入微软表单

一句话痛点 “你的Excel越强大，手动复制到Forms就越痛苦。” 合并单元格崩溃成乱码、下拉菜单变纯文本、条件逻辑消失无踪——这些不是技术问题，而是低效工作模式的死刑判决书。直击解决方案：3分钟，3步，300%效率 1…...

编程日记 2026/3/20 1:55:26

pandas（三）Series使用

一、Series基础使用 import pandasd {x:100,y:200,z:300} s1 pandas.Series(d) #将dict转化为Series print(s1)print("") l1 [1, 2, 3] l2 [a, b, c] s2 pandas.Series(l1, indexl2) #list转为Series print(s2)print("") s3 pandas.Series([11…...

编程日记 2026/5/4 2:17:12

Windows电脑本地部署运行DeepSeek R1大模型（基于Ollama和Chatbox）

文章目录一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、使用Chatbox进行交互5.1 下载Chatbox安装包…...

编程日记 2026/5/8 17:25:20

从零开始学 HTML：构建网页的基本框架与技巧

系列文章目录 01-从零开始学 HTML：构建网页的基本框架与技巧文章目录系列文章目录前言一、HTML 文档的基本框架1.1 <!DOCTYPE html>、<html>、<head>、<body> 标签解析1.1.1 <!DOCTYPE html> 标签1.1.2 <html> 标签1.1.3 &l…...

编程日记 2026/4/2 11:14:23

如何用微信小程序写春联

生活没有模板，只需心灯一盏。如果笑能让你释然，那就开怀一笑；如果哭能让你减压，那就让泪水流下来。如果沉默是金，那就不用解释；如果放下能更好地前行，就别再扛着。一、引入 Vant UI 1、通过 npm 安装 npm i @vant/weapp -S --production 2、修改 app.json …...

编程日记 2026/5/7 13:47:43

机器学习6-全连接神经网络3-过拟合欠拟合

过拟合

应对过拟合-最优方案：获取更多的训练数据

应对过拟合-次优方案：正则化

应对过拟合-次优方案2：随机失活

综合考量

超参数

超参数优化方法

相关文章：