当前位置：首页 > news >正文

一文彻底搞懂Transformer - FFNN（前馈神经网络）

news 2026/2/10 11:35:25

Transformer

**__**一、神经网络（N**eural Network**）**__**

神经网络： 神经网络（Neural Networks）是一种模仿生物神经网络的结构和功能的数学或计算模型。它由大量的人工神经元（也称为节点或处理单元）相互连接而成，这些神经元之间通过带有权重的连接进行信息的传递和处理。

神经网络的设计灵感来源于对生物神经系统（特别是大脑）的研究，尽管它们并不完全等同于生物神经网络，但已经成功地应用于各种复杂的计算问题，包括模式识别、预测、数据分类、聚类等。

神经网络

神经网络结构：由多个层（包括输入层、隐藏层和输出层）构成，层内包含多个神经元，神经元之间通过带权重的连接相互传递信息，并通过激活函数进行非线性转换。

层（Layers）：神经网络通常由多个层组成，包括输入层、隐藏层（可以有多个）和输出层。输入层接收外部数据，隐藏层对数据进行处理，输出层产生网络的最终输出。
神经元（Neurons）：神经网络的基本处理单元，模拟生物神经元的功能。每个神经元接收来自其他神经元的输入信号，对这些信号进行加权求和，并应用一个激活函数来决定是否将信号传递给其他神经元。
连接（Connections）：神经元之间的连接，每条连接都有一个权重（Weight），这个权重决定了该连接在信号传递中的重要性。权重的值在学习过程中被调整，以优化神经网络的整体性能。
激活函数（Activation Functions）：神经元在接收到加权求和的输入后，会通过一个非线性函数（即激活函数）来决定其输出。常见的激活函数包括Sigmoid、ReLU（Rectified Linear Unit）等，它们为神经网络引入了非线性特性，使得网络能够学习复杂的数据表示。

**_二、多层感知机（MLP）_**

多层感知机： 多层感知机（Multilayer Perceptron，简称MLP）是机器学习中的一种基本且重要的神经网络模型。多层感知机由多个神经元层组成，每一层的神经元与相邻层的所有神经元相连，即全连接。

输入层： 接收外部输入数据，并将其传递给下一层。
隐藏层： MLP中的中间层，其神经元数量可以根据需要进行调整。隐藏层通过线性变换和激活函数引入非线性，从而能够处理复杂的非线性关系。
输出层： 负责输出模型的预测结果。输出层的神经元数量取决于问题的类型，例如二分类问题通常使用一个神经元，多分类问题则使用多个神经元。

多层感知机

前馈神经网络： MLP属于前馈神经网络（Feedforward Neural Network）的范畴。前馈神经网络的主要特性在于数据的单向流动，即从输入层开始，经过隐藏层，最终到达输出层，每一层的神经元只接收来自前一层的输出作为输入，并不涉及层内或层间的反馈连接。

多层感知机

FFNN模型表达式： FFNN(x) = max(0, xW1 + b1)W2 + b2 (2)

在前馈神经网络中，权重（W）和偏置（b）是两个非常重要的参数，它们决定了神经元之间的连接强度和神经元的输出。

权重（W）：权重是神经网络中的连接参数，用于描述不同神经元之间的连接强度。在神经网络的前向传播过程中，输入数据会与权重进行加权求和，从而影响神经元的输出。权重的大小和正负决定了输入数据对输出数据的影响程度。
偏置（b）：偏置是神经网络中的一个附加参数，用于调整神经元的输出。偏置的作用类似于线性方程中的截距项，它使得神经元的输出可以偏离原点。偏置的存在使得神经网络能够学习更加复杂的函数关系。

权重W和偏置b

激活函数： 激活函数（Activation Function）是在前馈神经网络中用于将神经元的输入映射到输出端的函数。它决定了节点是否应该被激活（即，是否让信息通过该节点继续在网络中向后传播）。

在神经网络中，输入通过加权求和（权重（W）和偏置（b）），然后被一个函数作用，这个函数就是激活函数。

激活函数

激活函数的主要作用如下：

增加非线性：神经网络中，如果只有线性变换，那么无论神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当。引入非线性激活函数，使得神经网络逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。
特征转换：把当前特征空间通过一定的线性映射转换到另一个空间，让数据能够更好地被分类。

激活函数的作用

前馈神经网络模型训练： 前馈神经网络训练通过随机初始化参数，利用反向传播算法计算梯度，并采用优化算法如随机梯度下降来迭代更新参数，以最小化损失函数并提升模型性能。

模型训练的本质，通过不断训练、验证和调优，让模型达到最优的一个过程。

参数初始化：神经网络的参数（包括权重和偏置）在训练开始前会被随机初始化。
前向传播：在训练过程中，输入数据通过神经网络进行前向传播，计算出模型的输出。这个过程涉及将输入数据与每一层的权重和偏置进行线性组合，然后应用激活函数来引入非线性。
反向传播：利用反向传播算法来计算损失函数相对于模型参数的梯度。这个过程涉及从输出层开始，逐层计算损失对参数的偏导数，并将这些梯度信息从输出层传播回输入层。
参数更新：得到梯度后，使用优化算法（如随机梯度下降SGD、Adam、RMSprop等）来更新模型的参数。优化算法根据计算出的梯度来调整模型参数，以最小化损失函数。
迭代训练：上述步骤（从前向传播到参数更新）会反复进行，直到模型在验证集上的性能达到满意的水平，或者达到预设的训练轮数（epochs）。

神经网络模型训练

三、Transformer前馈神经网络

Transformer前馈神经网络： 在Transformer的编码器和解码器中，自注意力层之后紧跟着的是前馈神经网络（FFNN）。FFNN的主要作用是接收自注意力层的输出，并对其进行进一步的非线性变换，以捕获更复杂的特征和表示。

Transformer架构

Transformer前馈神经网络两层结构： 包括两个线性变换，并在它们之间使用ReLU激活函数。两个线性层的差异主要体现在它们的作用和维度变化上。

第一层线性变换负责将输入映射到更高维度的空间，并引入非线性；而第二层线性变换则负责将输出映射回与输入相同的维度（或兼容的维度），通常不引入额外的非线性。

第一层线性变换：这是一个全连接层，它接收自注意力层的输出作为输入，并将其映射到一个更高维度的空间。这个步骤有助于模型学习更复杂的特征表示。
激活函数：在第一层全连接层之后，通常会应用一个非线性激活函数，如ReLU（Rectified Linear Unit）。ReLU函数帮助模型捕获非线性关系，提高模型的表达能力。
第二层线性变换：这也是一个全连接层，它将前一层的输出映射回与输入相同的维度（或与模型其他部分兼容的维度）。这一层通常没有非线性激活函数。

Transformer前馈神经网络
在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

结语

【一一AGI大模型学习所有资源获取处（无偿领取）一一】
所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

本文转自 https://mp.weixin.qq.com/s/5bJErlJHREiarUYenZYrAQ，如有侵权，请联系删除。

一文彻底搞懂Transformer - FFNN（前馈神经网络）

Transformer 神经网络： 神经网络（Neural Networks）是一种模仿生物神经网络的结构和功能的数学或计算模型。它由大量的人工神经元（也称为节点或处理单元）相互连接而成，这些神经元之间通过带有权重的连接进行…...

编程日记 2024/8/22 12:14:24

SpringCloud Gateway及 Springboot 服务跨域配置

SpringCloud Gateway 跨域配置配置文件 #跨域支持 spring.cloud.gateway.globalcors.cors-configurations.[/**].allowed-headers[0]* spring.cloud.gateway.globalcors.cors-configurations.[/**].allowed-methods[0]* spring.cloud.gateway.globalcors.cors-configuration…...

编程日记 2024/8/22 12:12:22

【Solidity】安全与校验

信息传输发送方 A： 计算消息 message 的哈希值 H：hash(message) H 私钥 privateKey ➕ 哈希值 H 🟰 签名 signature：signature sign(H, privateKey) 将消息 message 和签名 signature 发送给 B 接收方 B： 计算…...

编程日记 2024/8/22 12:07:17

黑神话悟空四十二项修改器 v1.0

软件简介黑神话悟空四十二项修改器由风灵月影精心打磨，为《黑神话悟空》这款备受瞩目的游戏量身定制。这款修改器界面简洁、体积小巧、功能强大，它致力于为玩家提供便捷的游戏体验，让您能够根据个人喜好和需求，轻松调整游戏内的…...

编程日记 2024/8/22 12:06:15

RM电控RTOS

OS即（operating system）操作系统，比如我们常用的windows系统，mac系统，android系统，ios系统，linux系统等，都属于操作系统。操作系统的本质是一个特殊的软件，它直接管理硬件…...

编程日记 2024/8/22 12:05:14

Arduino开源四足蜘蛛机器人制作教程

视频教程：手把手叫你做四足蜘蛛机器人——1零件介绍_哔哩哔哩_bilibili 一、项目介绍 1.1 项目介绍 Arduino主控，图形化编程，趣味学习 Arduino nano开发板舵机扩展底板 4.8V可充电电池，支持Arduino C语言编程和米思齐图形化编程…...

编程日记 2024/8/22 12:03:12

【Axure高保真原型】中继器表格——标签使用情况案例

今天和大家分享中继器表格——标签使用情况案例的原型模板，效果包括： 模糊搜索——输入标签编号或者标签名称，可以快速查找对应的数据排序——点击排序按钮，可以按升序或降序排列分页——点击上拉列表，可以选择表格…...

编程日记 2024/8/22 12:02:11

ABAP字符串反转 and 寻找字符所在位置 and 根据数量汇总时把数量转为非数值类型

1.字符串反转 and 寻找字符所在位置 LOOP AT gt_wlmc ASSIGNING FIELD-SYMBOL(<fs_wlmc>). "遍历内表<fs_wlmc>-matnr <fs_wlmc>-matnr(8).DATA: l_output TYPE char50,v_off2 TYPE i,str TYPE i,str2 TYPE i.CALL FUNCTION STRING_REVERS…...

编程日记 2024/8/22 11:59:08

【机器学习第十二章——计算学习理论】

机器学习第十二章——计算学习理论 12.计算学习理论12.1 基础知识12.1 可能学习近似正确假设（PAC）12.3 有限假设空间12.4 VC维 12.计算学习理论 12.1 基础知识从理论上刻画了若干类型的机器学习问题中的困难和若干类型的机器学习算法的能力这个理论要…...

编程日记 2024/8/22 11:58:07

Docker私人学习笔记

俗话说“好记性不如烂笔头”，编程的海洋如此的浩大，养成做笔记的习惯是成功的一步！ 此笔记主要是antlr4.13版本的笔记，并且笔记都是博主自己一字一字编写和记录，有错误的地方欢迎大家指正。一、基础概念：…...

编程日记 2024/8/22 11:53:00

谷粒商城实战笔记-233~235-商城业务-认证服务-单点登录流程-原理

文章目录一，场景二，单点登录流程一，场景包含以下三节的内容： 一，233-商城业务-认证服务-单点登录流程-1二，233-商城业务-认证服务-单点登录流程-2三，233-商城业务-认证服务-单点登录流程-3…...

编程日记 2024/8/22 11:51:59

机器学习在旅游业的革新之旅

机器学习在旅游业的革新之旅随着科技的飞速发展，尤其是人工智能（AI）技术的广泛应用，各个行业都迎来了前所未有的变革。其中，旅游业作为全球经济的重要支柱之一，更是受益匪浅。机器学习（Machin…...

编程日记 2024/8/22 11:50:58

OpenCTI：开源网络威胁情报平台

OpenCTI 是一个开源平台，旨在帮助组织管理其网络威胁情报 (CTI) 数据和可观察数据。该平台由 Filigran 开发，使用基于 STIX2 标准的知识模式构建数据。它采用现代 Web 应用程序架构，配备 GraphQL API 和用户友好的前端。 OpenCTI 与 MIS…...

编程日记 2024/8/22 11:49:57

linux shell 脚本 let 数学计算

linux shell 脚本 let 数学计算 http://www.codebaoku.com/it-shell/ let命令中的算术表达式必须用双引号括起来，以避免解释器对特殊字符进行处理。在变量的计算中，不需要使用$符号来表示变量， #!/bin/shweek_daydate %u echo $week_day…...

编程日记 2024/8/22 11:47:55

mp3和mp4的区别是什么？怎么把mp3转成mp4？（全）

在生活中我们或多或少会听到“mp3”和“mp4”，那么什么是mp3和mp4呢？mp3和mp4的区别是什么？mp3是一种音频压缩技术，旨在在不显著牺牲音质的前提下减小音频文件的体积，使其适用于音乐和其他音频内容的存储与传输。相比之…...

编程日记 2024/8/22 11:45:52

合并params和query参数

场景：三级分类只有query参数，搜索框使用params参数。为了解决这个问题，文中在typeNav的index.vue和Head/index.vue分别进行了判断和处理，确保在不同的路径下合并params和query参数能正确合并并传递。如何当点击联动框时跳转到se…...

编程日记 2024/8/22 11:43:49

[数据集][目标检测]工程机械车辆检测数据集VOC+YOLO格式3189张10类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：3189 标注数量(xml文件个数)：3189 标注数量(txt文件个数)：3189 标注…...

编程日记 2024/8/22 11:40:47

构建域名服务器-BIND：Linux端的安装过程及配置文件详解

文章目录构建域名服务器工具-BINDBIND的安装BIND配置文件详解1. /etc/named.conf：2. /etc/named.rfc1912.zones：3. /var/named/named.localhost：4./etc/logrotate.d/named5./etc/named.iscdlv.key6./etc/named.root.key7./etc/rndc.conf8./e…...

编程日记 2024/8/22 11:36:43

linux查询目录文件基础操作

基础命令展示所有目录 ls 长格式列出（显示文件权限、所有者、大小和最后修改时间）： ls -l 忽略大小写查询 ls | grep -i name 查找特定名称的文件： find /path/to/search -name "filename" 忽略大小写查找文件&#…...

编程日记 2024/8/22 11:35:41

搭建TestBench，收藏这几条基本框架就够了

Verilog功能模块HDL设计完成后，并不代表设计工作的结束，还需要对设计进行进一步的仿真验证。掌握验证的方法，即如何调试自己的程序非常重要。在RTL逻辑设计中，要学会根据硬件逻辑来写测试程序即写Testbench。Verilog测试平台是一个…...

编程日记 2024/8/22 11:34:40

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2026/2/9 13:51:46

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园二、准备工作 1. 编译环境宿主机：Ubuntu 20.04.6 LTSHost：ARM32位交叉编译器：arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链在交叉编译之前&#x…...

编程新知 2025/11/10 15:33:04

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2026/1/28 10:58:50

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37

SpringCloudGateway 自定义局部过滤器

场景： 将所有请求转化为同一路径请求（方便穿网配置）在请求头内标识原来路径，然后在将请求分发给不同服务 AllToOneGatewayFilterFactory import lombok.Getter; import lombok.Setter; import lombok.extern.slf4j.Slf4j; impor…...

编程新知 2026/2/1 4:53:36

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/8/28 21:52:02

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中，损失函数的选择对模型性能具有决定性影响。均方误差（MSE）作为经典的损失函数，在处理干净数据时表现优异，但在面对包含异常值的噪声数据时，其对大误差的二次惩罚机制往往导致模型参数…...

编程新知 2026/1/28 2:18:46

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

船舶制造装配管理现状：装配工作依赖人工经验，装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书，但在实际执行中，工人对指导书的理解和遵循程度参差不齐。船舶装配过程中的挑战与需求挑战 (1…...

编程新知 2026/2/6 2:16:18

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

如何应对敏捷转型中的团队阻力

应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中，明确沟通敏捷转型目的尤为关键，团队成员只有清晰理解转型背后的原因和利益，才能降低对变化的…...

编程新知 2026/2/4 16:04:15

一文彻底搞懂Transformer - FFNN（前馈神经网络）

SpringCloud Gateway及 Springboot 服务跨域配置

【Solidity】安全与校验

黑神话悟空四十二项修改器 v1.0

RM电控RTOS

Arduino开源四足蜘蛛机器人制作教程

【Axure高保真原型】中继器表格——标签使用情况案例

ABAP字符串反转 and 寻找字符所在位置 and 根据数量汇总时把数量转为非数值类型

【机器学习第十二章——计算学习理论】

Docker私人学习笔记

谷粒商城实战笔记-233~235-商城业务-认证服务-单点登录流程-原理

机器学习在旅游业的革新之旅

OpenCTI：开源网络威胁情报平台

linux shell 脚本 let 数学计算

mp3和mp4的区别是什么？怎么把mp3转成mp4？（全）

合并params和query参数

[数据集][目标检测]工程机械车辆检测数据集VOC+YOLO格式3189张10类别

构建域名服务器-BIND：Linux端的安装过程及配置文件详解

linux查询目录文件基础操作

搭建TestBench，收藏这几条基本框架就够了

XML Group端口详解

Ubuntu系统下交叉编译openssl

大话软工笔记—需求分析概述

Module Federation 和 Native Federation 的比较

SpringCloudGateway 自定义局部过滤器

Java多线程实现之Thread类深度解析

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

如何应对敏捷转型中的团队阻力

一文彻底搞懂Transformer - FFNN（前馈神经网络）

Transformer前馈神经网络
在大模型时代，我们如何有效的去学习大模型？

一、AGI大模型系统学习路线

二、640套AI大模型报告合集

三、AI大模型经典PDF书籍

四、AI大模型各大场景实战案例

结语

相关文章：

Transformer前馈神经网络 在大模型时代，我们如何有效的去学习大模型？

相关文章：

Transformer前馈神经网络
在大模型时代，我们如何有效的去学习大模型？