当前位置：首页 > news >正文

从0开始深度学习（11）——多层感知机

news 2026/2/9 2:53:53

前面介绍了线性神经网络，但是线性模型是有可能出错的，因为线性模型意味着是单调假设，但是现实中往往很复杂。例如，我们想要根据体温预测死亡率。对体温高于37摄氏度的人来说，温度越高风险越大。然而，对体温低于37摄氏度的人来说，温度越高风险就越低。
所以在深度神经网络中，我们使用观测数据来联合学习隐藏层表示和应用于该表示的线性预测器，以此来克服线性模型的限制

1 隐藏层

隐藏层（Hidden Layer）是人工神经网络（ANN）中介于输入层和输出层之间的层。隐藏层由多个神经元组成，这些神经元对输入进行加权求和，并通过激活函数进行非线性变换，可以让模型学习到更复杂的特征和模式

1.1 在网络中加入隐藏层

最简单的方法是将许多全连接层堆叠在一起。每一层都输出到上面的层，直到生成最后的输出。我们可以把前 $L - 1$ 层看作表示，把最后一层看作线性预测器。这种架构通常称为多层感知机（multilayer perceptron），通常缩写为MLP。下图是一个多层感知机：
在这里插入图片描述
这个多层感知机有4个输入，3个输出，其隐藏层包含5个隐藏单元。输入层不涉及任何计算，因此使用此网络产生输出只需要实现隐藏层和输出层的计算。因此，这个多层感知机中的层数为2。

注意，这两个层都是全连接的。每个输入都会影响隐藏层中的每个神经元，而隐藏层中的每个神经元又会影响输出层中的每个神经元。

1.2 从线性到非线性

假设用矩阵 $X$ 来表示 $n$ 个样本的小批量，每个样本具有 $d$ 个输入特征。

对于具有 $h$ 个隐藏单元的单隐藏层感知机，我们用 $H$ 表示隐藏层的输出，在数学中， $H$ 也被称为隐藏层变量。因为隐藏层和输出层是全连接的，所以我们有隐藏层权重 $W^{(1)}$ 和隐藏层偏置 $b^{(1)}$ ，和输出层权重 $W^{(2)}$ 和输出层偏置 $b^{(2)}$ ，所以我们的多层感知机的输出 $O$ 可以用以下表示：
在这里插入图片描述
但是该模型依然没有实现非线性变化，因为隐藏单元是由输入的仿射函数给出，输出又是由隐藏单元的仿射函数给出，仿射函数的仿射函数，还是仿射函数，不包含非线性变化。

所以为了解决这一问题，我们在在仿射变换之后对每个隐藏单元应用非线性的激活函数（activation function） $\sigma$ ，这样多层感知机的输出变成了下面的样式：
在这里插入图片描述
通过堆叠这样的隐藏层，可以产生更有表达能力的模型。

1.3 通用近似定理

定义：一个具有足够数量的隐藏层神经元的前馈神经网络（例如多层感知机），只要使用适当的激活函数（如非线性激活函数），可以以任意精度近似任何连续的、多变量的函数。

如，在一对输入上进行基本逻辑操作，多层感知机是通用近似器，但它并不关心训练的效率、网络的大小或如何选择最优的网络结构。因此，实际工作中还需要考虑优化算法、网络的设计和数据量等问题。

2 激活函数

激活函数（activation function）通过计算加权和并加上偏置来确定神经元是否应该被激活，它们将输入信号转换为输出的可微运算。大多数激活函数都是非线性的。激活函数的输出被称为活性值（activations）。

2.1 ReLU函数

最受欢迎的激活函数是修正线性单元（Rectified linear unit，ReLU），因为它实现简单，同时在各种预测任务中表现良好。 ReLU提供了一种非常简单的非线性变换。

给定元素 $x$ ，ReLU函数被定义为该元素与0的最大值：
$R e LU (x) = ma x (x, 0)$
在这里插入图片描述
即只保留正元素，丢弃所有负元素，可以看出ReLU是分段的。

当输入为负时，ReLU函数的导数为0，而当输入为正时，ReLU函数的导数为1。
在这里插入图片描述

所以：

当正向传播时，如果隐藏层仿射函数的输出 $z$ 是正数，则输出本身；如果输出是负数或者0，则输出0.
当反向传播时，如果 $z$ 是正数，则输出1； $z$ 是负数或者0时，输出0

ReLU有很多变体，比如参数化ReLU，即为ReLU添加一个线性项，这样即使有些参数是负的，也可以通过：
在这里插入图片描述

2.2 sigmoid函数

对于一个定义域在 $\mathbb{R}$ 中的输入，sigmoid函数将输入变化为区间(0,1)上的输出，所以也被称为挤压函数（squashing function），公式如下：
在这里插入图片描述

早期神经网络热衷与“激发”和“不激发”，即认为有一个阈值单元，低于阈值取0，高于阈值取1。但当大家专注于梯度学习后，sigmoid函数作为一个平滑的曲线，逐渐被使用。

sigmoid函数的导数为以下公式：
在这里插入图片描述

即输入为0时，导数值最大为0.25，越远离0，导数值越接近0

2.3 tanh函数

与sigmoid函数类似， tanh(双曲正切)函数也能将其输入压缩转换到区间(-1, 1)上。 tanh函数的公式如下：
在这里插入图片描述

tanh的导数公式是：

即输入越接近0，导数值越接近最大值1，越远离0，导数值越接近0

相关文章：

从0开始深度学习（11）——多层感知机

前面介绍了线性神经网络，但是线性模型是有可能出错的，因为线性模型意味着是单调假设，但是现实中往往很复杂。例如，我们想要根据体温预测死亡率。对体温高于37摄氏度的人来说，温度越高风险越大。然而，对体…...

编程日记 2024/10/18 4:52:00

SQL语句查询

SQL语句查询查询产生一个虚拟表看到的是表形式显示的结果，但结果并不真正存储每次执行查询只是从数据表中提取数据，并按照表的形式显示出来查询语法 SELECT <列名> FROM <表名> [WHERE <查询条件表达式>] SELECT …...

编程日记 2024/10/18 4:51:00

OSI参考模型与TCP/IP模型

OSI参考模型物理层定义电压、接口、线缆标准、传输距离、传输介质等物理参数。数据链路层（确定范围里的某一个） MAC地址寻址网络层（确定一个范围） 网络地址层寻址、路由传输层（区分不同的程序） 数据分段…...

编程日记 2024/10/18 4:48:58

深度学习-26-基于PyTorch的多层感知机DNN

文章目录 1 代码分析1.1 加载数据集1.2 定义模型1.3 定义损失函数和优化器1.4 定义训练函数1.4.1 定义累加器Accumulator1.4.2 计算准确率accuracy1.4.3 评估函数evaluate_accuracy1.4.4 单轮训练函数train_epoch1.4.5 训练函数train1.2 执行训练2 整体代码3 参考附录1 代码分析…...

编程日记 2024/10/18 4:47:53

华为杯”第十三届中国研究生数学建模竞赛-B题：具有遗传性疾病和性状的遗传位点分析（附MATLAB代码实现）

目录摘要： 1. 问题重述 1.1 问题背景 1.2 待解决问题 2. 符号说明 3. 问题一 3.1 问题分析 3.2 问题解决 4. 问题二 4.1 问题分析 4.2 问题解决 5. 问题三 5.1 问题分析 5.2 问题解决 6. 问题四 6.1 问题分析 6.2 问题解决 7. 总结参考文献代码实现摘要：人体的每条染色…...

编程日记 2024/10/18 4:46:51

滚雪球学Redis[8.2讲]：Redis的未来发展趋势：从云服务到AI与物联网的前沿探索

全文目录： 🎉前言🔄Redis在云服务中的应用🪁1. Redis作为云缓存服务🪄示例：使用AWS ElastiCache Redis实例 🎮️2. 云原生应用中的持久化与高可用 ⚙️Redis 6.x及后续版本的新特性&#x1f579…...

编程日记 2024/10/18 4:44:50

针对考研的C语言学习（二叉树专题层次遍历---广度优先遍历）

层次便利需要一个队列来辅助保存节点信息代码 #include<stdio.h> #include<stdlib.h> typedef char ElemType;//树 typedef struct trees{ElemType data;struct trees*lc;struct trees*rc; }treeNode,*Tree;//链表 typedef struct Links{Tree tree;struct Links…...

编程日记 2024/10/18 4:43:48

spring揭秘31-spring任务调度01-spring集成Quartz及JDKTimer定时器

文章目录【README】【1】Quartz任务调度框架【1.1】Job调度任务【1.2】任务调度触发器Trigger【1.3】\*Quartz框架执行调度任务代码实践【1.3.1】硬编码执行Quartz调度任务【1.3.2】基于生产者模式执行quartz调度任务（推荐） 【2】spring集成Quartz【2.1…...

编程日记 2024/10/18 4:42:47

Kafka之资源容量评估

编写目的意义应用场景为如果有租户需要部署kafka集群，并给出业务压力，根据业务评估kafka资源情况，如cpu 磁盘内存带宽等维度。为业务解决因资源过小故障和新业务部署提供了参考和计算方法，减少后续的维护成本资源容量评估 …...

编程日记 2024/10/18 4:41:47

深度学习神经网络的7大分类

深度学习中的神经网络可通过其结构和功能分为多种类型，每种都针对特定的数据特征和应用场景进行了优化。深度学习7大神经网络如下： 01 前馈神经网络（Feedforward Neural Networks, FNN）： 这是最基本的神经网络形式…...

编程日记 2024/10/18 4:39:45

【DNF mysql8.0安装】DNF安装MySQL服务器教程

在基于Red Hat的Linux发行版中，如CentOS或Fedora，DNF（Dandified Yum）是包管理器，用于安装、更新和卸载软件包。以下是使用DNF安装MySQL服务器（也称为MySQL Community Server）的步骤：…...

编程日记 2024/10/18 4:38:44

决策树与随机森林在分类问题中的应用

决策树与随机森林在分类问题中的应用分类问题是机器学习中的重要任务之一，它涉及将数据划分到预定义的类别中。在分类问题中，决策树与随机森林模型被广泛应用，凭借其直观性、强大的预测能力和稳定的泛化性能，成为了机器学习的经…...

编程日记 2024/10/18 4:37:43

Dmitri Shuralyov的全职开源之旅

本篇内容是根据2017年7月份Full-time Open Source 音频录制内容的整理与翻译 Dmitri Shuralyov 加入节目，谈论作为开源的全职贡献者、开发开发人员工具以及其他有趣的 Go 项目和新闻。过程中为符合中文惯用表达有适当删改, 版权归原作者所有. Erik St. Martin: 欢迎…...

编程日记 2024/10/18 4:36:42

基于LSTM-Transformer混合模型实现股票价格多变量时序预测(PyTorch版)

前言系列专栏:【深度学习：算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域，讨论了各种复杂的深度神经网络思想，如卷积神经网络、循环神经网络、生成对…...

编程日记 2024/10/18 4:35:41

创建TaskPool任务组

实现任务的函数需要使用装饰器Concurrent标注，且仅支持在.ets文件中使用。方法： taskpool.execute(任务名,执行权重优先级) import { taskpool } from kit.ArkTS//Concurrent 只能修饰全局函数 Concurrent async function getData(params1: string,…...

编程日记 2024/10/18 4:32:38

一文1800字从0到1浅谈web性能测试！

什么是性能测试？ web性能应该注意些什么？ 性能测试，简而言之就是模仿用户对一个系统进行大批量的操作，得出系统各项性能指标和性能瓶颈，并从中发现存在的问题，通过多方协助调优的过程。而web端的性能测试…...

编程日记 2024/10/18 4:29:33

计算机网络基础(1)

个人主页：C忠实粉丝欢迎点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝原创计算机网络基础收录于专栏【计算机网络】本专栏旨在分享学习计算机网络的一点学习笔记，欢迎大家在评论区交流讨论💌 目录 1. 计算机网…...

编程日记 2024/10/18 4:28:33

GNU/Linux - 宏处理工具M4

GNU M4 M4 "Macro Processor, Version 4". 1, Introduction to GNU M4 GNU M4 是传统 Unix 宏处理器的实现。它主要与 SVR4 兼容，但也有一些扩展功能（例如，处理超过 9 个位置参数的宏命令）。GNU M4 还内置了包含文件、…...

编程日记 2024/10/18 4:25:26

Oracle权限安全管理

实验内容本次实验先使用system用户连接温馨提示：题目要求切换账户登录的时候自己记得切换，本文章只提供相应的SQL语句在表空间BOOKTBS1（实验4第1题已创建）创建一张表BOOKS,其字段如下：： SQL> create…...

编程日记 2024/10/18 4:23:24

C++笔记之静态多态和动态多态

C++笔记之静态多态和动态多态 code review! 在C++中，多态（Polymorphism）是面向对象编程的一个核心概念，允许对象以多种形式存在。多态性主要分为静态多态（Static Polymorphism）和动态多态（Dynamic Polymorphism）。下面将详细解释这两种多态及其在C++中的实现方式、优缺…...

编程日记 2024/10/18 4:22:23

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2026/2/5 4:39:03

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色点击visual studio 上方的工具-> 选项在选项窗口中，选择环境 -> 常规 ，将其中的颜色主题改成深色点击确定，更改完成...

编程新知 2026/1/25 11:13:37

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化之前初步学习prophet的时候，写过一篇简单实现，后期随着对该模型的深入研究，本次记录涉及到prophet 的公式以及参数调优，从公式可以更直观…...

编程新知 2026/1/27 5:01:54

相机从app启动流程

一、流程框架图二、具体流程分析 1、得到cameralist和对应的静态信息目录如下：重点代码分析：启动相机前，先要通过getCameraIdList获取camera的个数以及id，然后可以通过getCameraCharacteristics获取对应id camera的capabilities（静态信息）进行一些openCamera前的…...

编程新知 2026/1/31 5:09:19

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2026/1/29 18:30:30

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2026/1/31 12:47:25

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由：大部分的转换软件需要收费，要么功能不齐全，而开会员又用不了几次浪费钱，借用别人的又不安全。这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

编程新知 2026/1/25 14:40:59

人工智能（大型语言模型 LLMs）对不同学科的影响以及由此产生的新学习方式

今天是关于AI如何在教学中增强学生的学习体验，我把重要信息标红了。人文学科的价值被低估了 ⬇️ 转型与必要性人工智能正在深刻地改变教育，这并非炒作，而是已经发生的巨大变革。教育机构和教育者不能忽视它，试图简单地禁止学生使…...

编程新知 2026/1/25 13:33:24

Golang——6、指针和结构体

指针和结构体 1、指针1.1、指针地址和指针类型1.2、指针取值1.3、new和make 2、结构体2.1、type关键字的使用2.2、结构体的定义和初始化2.3、结构体方法和接收者2.4、给任意类型添加方法2.5、结构体的匿名字段2.6、嵌套结构体2.7、嵌套匿名结构体2.8、结构体的继承 3、结构体与…...

编程新知 2026/1/28 11:35:09

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时，遇到的一些问题总结一下 [参考文档]：https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现： 今天在看到这个教程的时候，在自己的电…...

编程新知 2026/1/31 6:53:53