当前位置：首页 > news >正文

深度学习入门（一）：感知机与输入数据

news 2025/6/29 13:31:21

单层感知机与多层感知机

单层感知机（Single-Layer Perceptron）和多层感知机（Multi-Layer Perceptron，简称MLP）是神经网络的基本形式，用于执行各种机器学习任务，包括分类和回归。它们都基于早期的神经网络概念，其核心在于模拟人脑中神经元的工作方式。

单层感知机

单层感知机是最简单的神经网络形式，由一个输入层和一个输出层组成，其中输出层包含一个或多个独立的神经元。它的主要目的是执行线性分类。

结构和工作原理

输入层：接收输入特征（x1, x2, ..., xn），通常包括一个偏置项（bias），即x0=1。
权重：每个输入特征有一个权重（w0, w1, w2, ..., wn），其中w0是偏置权重。
激活函数：通常使用阶跃函数（例如，Heaviside step function），输出只有两种状态（比如0和1）。

在计算中，感知机将输入特征与相应的权重相乘，然后将结果相加得到一个总和。这个总和通过激活函数转换成输出结果。

偏置项的作用

偏置项的主要作用是允许模型在没有输入特征时仍然可以输出一个非零值，从而增加模型的灵活性和表达能力。它可以帮助调整决策边界的位置，使得模型在处理各种数据集时更具有适应性。无论是单层感知机还是多层感知机，都具有偏置项，只不过单层感知机只会有一个常数偏置，故上图中数学表达式还可进一步理解：

多层感知机（MLP）

多层感知机是一种更复杂的神经网络，它由一个输入层、一个或多个隐藏层以及一个输出层组成。隐藏层的引入使MLP能够学习更复杂的数据模式，执行非线性分类和回归任务。

结构和工作原理：

输入层：接收原始数据输入。
隐藏层：每一层由多个神经元组成，每个神经元都接收前一层的所有输出作为输入，并输出到下一层。隐藏层允许网络捕捉输入数据中的复杂模式。
输出层：根据最后一个隐藏层的输出生成网络的最终输出。
激活函数：隐藏层和输出层的神经元通常使用非线性激活函数，如Sigmoid、tanh或ReLU。这些激活函数帮助网络捕捉非线性关系。

学习过程

无论是单层还是多层感知机，它们的学习过程通常涉及以下步骤：

前向传播：输入数据通过网络向前传递，每层的输出作为下一层的输入，直至生成最终输出。
损失计算：根据网络输出和真实标签计算一个损失值，该值衡量了网络的预测误差。
反向传播：通过计算损失相对于每个权重的导数，并利用这些导数更新权重，从而减小损失。

单层感知机和多层感知机是构建更复杂神经网络模型的基石。虽然单层感知机仅限于解决线性可分问题，但多层感知机通过引入一个或多个隐藏层，能够处理非线性问题，极大地扩展了神经网络的应用范围。这种基本的网络结构为现代深度学习的发展奠定了基础，从简单的二分类到复杂的图像识别、自然语言处理等问题都有广泛应用。

如何向神经网络中输入数据？

向神经网络输入数据通常涉及几个关键步骤，包括数据格式化、标准化或归一化、以及必要时的编码处理。这些预处理步骤对于模型的训练效率和最终性能至关重要。

数据输入与预处理

数据格式化（满足格式要求）：确保输入数据的格式符合神经网络的要求。例如，对于图像数据，通常需要将图片转换为统一的尺寸和色彩深度。

归一化与标准化：

归一化 (Normalization)：将数据缩放到0到1的范围内。这在处理图像数据时非常常见，通常通过将每个像素值除以255（像素的最大值）来实现。
标准化 (Standardization)：将数据转换为均值为0，标准差为1的分布。这主要用于处理数值型数据，有助于加快学习过程并提高模型的收敛速度。

编码：

对于分类任务，标签通常需要进行独热编码（One-Hot Encoding）。

使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。（因为有些类别为非数值型，例如‘男’、‘女’如果处于离散特征的计算范围之内，那么这些类别标签需要编码为二进制向量，才能更好地计算其欧式距离，进一步根据欧式距离计算特征相似性等）

预处理策略选择

预处理策略的选择取决于几个因素：

数据类型：图像、文本、声音或时间序列数据可能需要不同的预处理方法。
网络类型：不同的神经网络架构可能对数据的格式有特定的要求。例如，卷积神经网络通常需要将图像数据作为输入，而循环神经网络则优于处理序列数据。
数据分布：数据的原始分布可能会影响选择何种标准化或归一化方法。
计算效率：某些预处理技术可以减少模型训练时间和提高模型的收敛速度。

图像数据的具体处理

当我们想输入一张图片到神经网络时，需要处理图像的三个颜色通道（红色、绿色、蓝色），每个通道可以被看作一个矩阵（二维数组），其大小取决于图像的分辨率。例如，一张256x256像素的彩色图像将有三个256x256的矩阵，每个矩阵对应一个颜色通道。

在输入到神经网络之前，通常会执行以下步骤：

尺寸调整：确保所有输入图像具有相同的尺寸，这对于模型处理是必需的。通常，将所有图片特征（每个矩阵的特征数为像素px*px*256）以特征向量（一维，由三个RGB矩阵对应的全部特征组成）的形式传入神经网络。
归一化：将像素值从[0, 255]缩放到[0, 1]范围，这有助于网络更好地处理输入数据。

这样的预处理不仅有助于网络更有效地学习，还有助于避免某些常见问题，如梯度消失或爆炸，这些问题可能会在训练过程中导致不稳定。

归一化与激活函数的“归一化”

归一化

归一化通常是指在数据预处理阶段将输入数据（例如图像像素值）调整到一个统一的数值范围，比如将像素值从[0, 255]缩放到[0, 1]。这个过程通常是通过简单地将每个像素值除以255来实现的。主要目的是：

改善数值稳定性：避免在网络中出现过大的数值，这些数值可能导致计算中的数值不稳定性，例如梯度消失或梯度爆炸。
加快训练过程：当输入特征具有相似的数值范围时，梯度下降算法（或其他优化算法）更容易找到误差函数的最小值。

激活函数

激活函数如Sigmoid、ReLU等，则是在神经网络的各个层中使用，用来引入非线性，使得网络可以学习和模拟复杂的函数和决策边界。激活函数的作用包括：

非线性引入：没有激活函数，无论神经网络有多少层，其本质上还是一个线性模型，不能学习数据中的非线性关系。
决策制作：在分类问题中，如Sigmoid函数可以将值压缩到0和1之间，常用于二分类的最后输出，表示概率。所以，激活函数也可以实现类似“归一化”（Sigmoid）或者“非零化”（ReLU）的作用，但这只是对于输出数据而言，它不属于数据预处理部分。