论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)
论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)
- 一、理论
- 1.1 理论研读
- 1.2 什么是AI Agent?
- 二、实战
- 2.1 先导知识
- 2.1.1 tensor的创建与使用
- 2.1.2 PyTorch的模块
- 2.1.2.1 torch.nn.Module类的继承与使用
- 2.1.2.2 torch.nn.Linear类
- 2.2 Transformer代码实现
一、理论
1.1 理论研读
| 参考文章或视频链接 |
|---|
| [1] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)》- CSDN |
| [2] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (二)》- CSDN |
| [3] 《论文阅读笔记AI篇 —— Transformer模型理论+实战 (三)》- CSDN |
1.2 什么是AI Agent?
如果说钢铁侠中的
J.A.R.V.I.S.(贾维斯)是一个AGI通用人工智能的话,那么现阶段的AI Agent只是做到了感知任务、规划任务、执行任务。下面这张图的这个过程,看上去和强化学习是一模一样的。
Agent结构图——参考视频[1]
| 参考文章或视频链接 |
|---|
| [1]【动画科普AI Agent:大模型之后为何要卷它?】- bilibili |
| [2]【【卢菁老师说】Agent就是一场彻头彻尾的AI泡沫】- bilibili |
| [3] 《读懂AI Agent:基于大模型的人工智能代理》 |
| [4] LLM之Agent(一):使用GPT-4开启AutoGPT Agent自动化任务完整指南 |
二、实战
2.1 先导知识
2.1.1 tensor的创建与使用
对于一维的tensor,它是没有形状而言的,你不能准确的称它为行向量row vector或列向量col vector,只有你明确的指定之后,它才有准确的形状。
但是,在数学中肯定是要有明确的意义的,要么n*1,要么1*n,总得有个说法,说法就是,认为是列向量n*1,见参考文章[2]。
import torch
import torch.nn as nndef test1_tensor():x = torch.tensor([1, 1, 1, 1])print("Before reshape:", x.shape)# x = x.reshape(4, 1)x = x.view(4, 1) # 与reshape一样print(x)print("After reshape(4,1):", x.shape)# x = x.reshape(1, 4)x = x.view(1, 4) # 与reshape一样print(x)print("After reshape(1,4):", x.shape)if __name__ == '__main__':test1_tensor()"""Console Output
Before reshape: torch.Size([4])tensor([[1],[1],[1],[1]])
After reshape(4,1): torch.Size([4, 1])tensor([[1, 1, 1, 1]])
After reshape(1,4): torch.Size([1, 4])
"""
| 参考文章或视频链接 |
|---|
| [1] Introduction to PyTorch Tensors - PyTorch |
| [2] Is there any reason for using the word “column” in the context of one-dimensional tensor? |
2.1.2 PyTorch的模块
2.1.2.1 torch.nn.Module类的继承与使用
强调一点,你自己实现的所有模块,应该都是继承了nn.Module这个Class的(这也是PyTorch官方文档所强调的),不要觉得可以去掉nn.Module的继承,继承了这个类,才会有一些便捷的方法可供调用,否则你都要自己实现一遍。
class Encoder(nn.Module): # (1)Encoder继承了nn.Moduledef __init__(self):# ...def forward(self, enc_inputs): # 你不需要显示调用该方法,因为在nn.Module.__call__里,已经默认实现了对该方法的调用# ...class Decoder(nn.Module): # (2)Decoder继承了nn.Moduledef __init__(self):# ...def forward(self, dec_inputs, enc_inputs, enc_outputs): # 你不需要显示调用该方法,因为在nn.Module.__call__里,已经默认实现了对该方法的调用# ...
| 参考文章或视频链接 |
|---|
| [1] Module — PyTorch 2.1 documentation |
| [2] Learning Day 22: What is nn.Module in Pytorch |
| [3] Why do we need to inherit from nn.Module in PyTorch? - stackoverflow |
2.1.2.2 torch.nn.Linear类
关于Linear层有一点问题,就是它的权重矩阵,nn.Linear(4,3)中的4表示输入特征的维度,3表示输出特征的维度,按理来说是一个4 * 3的矩阵才对,但是输出结果偏不,这是因为常规的线性运算是写成这样的(假设维度已知), o u t = W 3 ∗ 4 i n 4 ∗ 1 + b 3 ∗ 1 out = W_{3*4}in_{4*1} + b_{3*1} out=W3∗4in4∗1+b3∗1,但网络层以从左至右的视角看去, i n in in在 W W W矩阵的左边,写成这样的形式 o u t = ( i n 1 ∗ 4 W 3 ∗ 4 T ) T + b 3 ∗ 1 = ( i n 1 ∗ 4 W 4 ∗ 3 ) T + b 3 ∗ 1 out = (in_{1*4}W_{3*4}^T)^T + b_{3*1} = (in_{1*4}W_{4*3})^T + b_{3*1} out=(in1∗4W3∗4T)T+b3∗1=(in1∗4W4∗3)T+b3∗1就很自然的模拟了这个视角,这样就能解释为什么输出的shape是反过来的。

请看参考文章[1]。
import torch
import torch.nn as nndef test2_Linear_weight():linear_layer = nn.Linear(4,3)print(linear_layer.shape) # torch.Size([3, 4])
if __name__ == '__main__':test2_Linear_weight()
| 参考文章或视频链接 |
|---|
| [1] Why does PyTorch’s Linear layer store the weight in shape (out, in) and transpose it in the forward pass? - stackoverflow |
2.2 Transformer代码实现
请看参考文章[1]与[4],我认为写的足够详细,也足够易懂,有些torch.transpose()的操作不太好从字面上读懂,就debug看看,无非就是高维矩阵的转置,和二维矩阵的转置也没本质区别。
| 参考文章或视频链接 |
|---|
| 本文代码来源:[1] 《Transformer 代码详解(Pytorch版)》- CSDN |
| [2] 【Transformer代码实现】- bilibili |
| 重点观看此视频:[3] [重置版]从零实现transfomer模型 || 理解ChatGPT基石 || pytorch- bilibili |
| 这篇写的也不错,可以重点阅读:[4] 《Transformer原理与代码实现》- CSDN |
相关文章:
论文阅读笔记AI篇 —— Transformer模型理论+实战 (四)
论文阅读笔记AI篇 —— Transformer模型理论实战 (四) 一、理论1.1 理论研读1.2 什么是AI Agent? 二、实战2.1 先导知识2.1.1 tensor的创建与使用2.1.2 PyTorch的模块2.1.2.1 torch.nn.Module类的继承与使用2.1.2.2 torch.nn.Linear类 2.2 Transformer代…...
Template -- Vue2
Vue2 版本 Node 14.14.0Npm 6.14.8Vue vue/cli 5.0.3 npm install -g vue/cli5.0.3 cnpm cnpm7.1.0 npm install -g cnpm7.1.0 --registryhttps://registry.npm.taobao.org 项目 创建 vue create single # vue 2.6.14配置 // vue.config.js const { defineConfi…...
zookeeper window 安装
下载 Apache ZooKeeper 解压Zookeeper安装包到指定目录,注意目录不要有空格。 备份zoo_sample.cfg并改名zoo.cfg 注意:此处的路径一定要使用双斜杠" \\ " D:\\apache-zookeeper-3.8.3-bin\\data 新建环境变量:ZOOKEEPER_HOME D…...
Redis 面试题 | 02.精选Redis高频面试题
🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…...
大数据开发之kafka(完整版)
第 1 章:Kafka概述 1.1 定义 Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。 发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只…...
单体架构、微服务和无服务器架构
前言 在这篇文章中,我将演示在决定使用单体架构、微服务架构和无服务器架构时的权衡的简化心智模型。目标是突显每种风格的固有优势和缺陷,并提供关于何时选择哪种架构风格的指导。 单体架构 对于小团队或项目来说是理想的入门架构。它简单易上手&…...
Github仓库使用方式
主要参考: 「详细教程」使用git将本地项目上传至Github仓库(MacOS为例)_github上传代码到仓库-CSDN博客 新建文件夹参考: GitHub使用指南——建立仓库、建立文件夹、上传图片详细教程-CSDN博客 一、新建一个 github 仓库&#…...
Harmony Ble蓝牙App(四)描述符
Harmony Ble蓝牙App(四)描述符 前言正文一、优化二、描述① 概念② 描述提供者③ 显示描述符 三、源码 前言 上一篇中了解了特性和属性,同时显示设备蓝牙服务下的特性和属性,本文中就需要来使用这些特性和属性来完成一些功能。 正…...
C# 实现单线程异步互斥锁
文章目录 前言一、异步互斥锁的作用是什么?示例一、创建和销毁 二、如何实现?1、标识(1)标识是否锁住(2)加锁(3)解锁 2、异步通知(1)创建对象(2&a…...
Java设计模式中策略模式可以解决许多if-else的代码结构吗? 是否能满足开闭原则?
Java设计模式中策略模式可以解决许多if-else的代码结构吗? 是否能满足开闭原则? 是的,策略模式可以帮助解决许多if-else的代码结构。通过将不同的算法封装成不同的策略类,然后在需要的时候动态地切换策略,可以避免使…...
[C#]C# winform部署yolov8目标检测的openvino模型
【官方框架地址】 https://github.com/ultralytics/ultralytics 【openvino介绍】 OpenVINO(Open Visual Inference & Neural Network Optimization)是由Intel推出的,用于加速深度学习模型推理的工具套件。它旨在提高计算机视觉和深度学…...
力扣刷MySQL-第五弹(详细讲解)
🎉欢迎您来到我的MySQL基础复习专栏 ☆* o(≧▽≦)o *☆哈喽~我是小小恶斯法克🍹 ✨博客主页:小小恶斯法克的博客 🎈该系列文章专栏:力扣刷题讲解-MySQL 🍹文章作者技术和水平很有限,如果文中出…...
用C语言实现简单的三子棋游戏
目录 1 -> 模块简介 2 -> test.c 3 -> game.c 4 -> game.h 1 -> 模块简介 test.c:测试游戏逻辑 game.c: 函数的实现 game.h:函数的声明 2 -> test.c #define _CRT_SECURE_NO_WARNINGS 1#include "game.h";void menu() {printf("****…...
Yaklang 中的类型和变量
Yaklang 的类型其实非常简单,我们仅需要记住如下类型即可 string 字符串类型,用以快速构建一个字符串int 整数类型:在 64 位机中,int 和 int64 是一样的float 浮点类型,用来定义和表示浮点数byte 本质上等同于 uint8u…...
C语言从入门到实战——编译和链接
编译和链接 前言一、 翻译环境和运行环境二、 翻译环境2.1 预处理(预编译)2.2 编译2.2.1 词法分析2.2.2 语法分析2.2.3 语义分析 2.3 汇编2.4 链接 三、 运行环境 前言 在C语言中,编译和链接是将源代码转换为可执行文件的两个主要步骤。 编…...
【实战教程】ThinkPHP6分页功能轻松实现,让你的网站更高效!
ThinkPHP是一款非常流行的PHP开发框架,其最新版本ThinkPHP6在性能和易用性方面都得到了很大的改善。分页功能是网页开发中非常常见的功能,而ThinkPHP6也提供了非常方便的分页方法。本文将介绍如何实现ThinkPHP6的分页功能。 一、了解分页功能 在Web应用…...
专业130+总分380+哈尔滨工程大学810信号与系统考研经验水声电子信息与通信
今年专业课810信号与系统130,总分380顺利考上哈尔滨工程大学,一年的努力终于换来最后的录取,期中复习有得有失,以下总结一下自己的复习经历,希望对大家有帮助,天道酬勤,加油!专业课&…...
旅游项目day08
1. 旅游日记(游记) 后端:实体类,列表,查看,审核 前端:目的地明细中-游记->带范围条件查询,游记首页,【扩展】游记添加/编辑,【扩展】添加游记时间没登录时…...
蓝桥杯真题(Python)每日练Day2
题目 题目分析 对于本题首先确定其数据结构为优先队列,即邮费最小的衣服优先寄,算法符合贪心算法。可以直接使用queue库的PriorityQueue方法实现优先队列。关于PriorityQueue的使用方法主要有: import queue q queue.Queue()# 队列 pq qu…...
IntelliJ IDEA 拉取gitlab项目
一、准备好Gitlab服务器及项目 http://192.168.31.104/root/com.saas.swaggerdemogit 二、打开 IntelliJ IDEA安装插件 打开GitLab上的项目,输入项目地址 http://192.168.31.104/root/com.saas.swaggerdemogit 弹出输入登录用户名密码,完成。 操作Comm…...
三步搞定B站视频转文字:终极高效内容提取方案
三步搞定B站视频转文字:终极高效内容提取方案 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text Bili2text是一款专为B站视频设计的智能文字提取工具…...
Z-Image Turbo提示词调试技巧:从失败案例反推有效表达逻辑
Z-Image Turbo提示词调试技巧:从失败案例反推有效表达逻辑 1. 为什么提示词调试如此重要 如果你用过AI绘画工具,一定遇到过这种情况:脑子里想的是赛博朋克少女,生成出来的却是模糊不清的怪异图像。这不是模型的问题,…...
开源大模型部署新范式:像素幻梦Streamlit前端+diffusers后端架构解析
开源大模型部署新范式:像素幻梦Streamlit前端diffusers后端架构解析 1. 项目概览 像素幻梦(Pixel Dream Workshop)是一款基于FLUX.1-dev扩散模型的像素艺术生成工具,它重新定义了AI艺术创作的用户体验。与传统AI绘图工具不同,它采用了独特的…...
操作系统原理与LiuJuan20260223Zimage性能优化深度解析
操作系统原理与LiuJuan20260223Zimage性能优化深度解析 1. 引言 在AI模型部署和推理过程中,很多人只关注算法本身的优化,却忽略了底层操作系统对性能的关键影响。实际上,操作系统的资源管理策略、内存分配机制和进程调度方式,直…...
从模型评估、梯度难题到科学初始化:一步步解析深度学习的训练问题
偏差 & 方差要理解模型的泛化能力,我们首先要量化它的“泛化误差”,即模型在未知数据上的表现。然而,泛化误差并非一个单一的问题,它源于三种不同性质的错误:模型固有的近似能力不足、对训练数据的过度敏感、模型数…...
Win11下VMware保姆级安装指南:从许可证到CentOS镜像下载全流程
Win11下VMware与CentOS镜像高效部署实战手册 开篇:为什么选择VMwareCentOS组合? 刚接触虚拟化技术的开发者常面临一个关键抉择:如何在本地快速搭建稳定的Linux开发环境?VMware Workstation作为桌面虚拟化领域的标杆工具࿰…...
别再只用总基尼系数了!用Python实现Dagum分解,看清区域差距的‘里子’
用Python拆解经济差距:Dagum基尼系数分解实战指南 当一份区域经济报告只给出一个总的基尼系数时,就像医生只告诉你"体温偏高"却不说明是哪个器官发炎——数据研究者常陷入这种诊断困境。传统基尼系数虽能反映整体不平等程度,却无法…...
Stateflow进阶:巧用‘历史节点’与‘内部转移’,实现带记忆功能的嵌入式状态机
Stateflow进阶:巧用‘历史节点’与‘内部转移’,实现带记忆功能的嵌入式状态机 在嵌入式系统开发中,状态机设计往往面临一个关键挑战:如何在系统重启或断电后恢复之前的工作状态?传统解决方案通常依赖外部存储或默认状…...
爱享素材下载器:跨平台资源下载的终极解决方案
爱享素材下载器:跨平台资源下载的终极解决方案 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode.com/GitHub…...
开源智能设备开发指南:从技术原理到实战应用
开源智能设备开发指南:从技术原理到实战应用 【免费下载链接】xiaozhi-esp32 Build your own AI friend 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32 开源智能设备开发正成为物联网创新的核心驱动力,通过边缘计算优化与跨平…...
