当前位置: 首页 > article >正文

2026.04.02随记

1、DL1、反向传播backward propagation是计算网络参数梯度的方法用链式法则从输出层到输入层遍历算出每个参数该怎么改。反向传播中每一个记录的梯度都是该函数的导数。梯度下降不等于反向传播反向传播是算梯度梯度下降是用梯度更新参数、2、梯度公式3、梯度消失、爆炸原因及其解决办法梯度损失函数L对某个变量的偏导数梯度消失和梯度爆炸定义梯度消失参数更新过小每次更新几乎不会移动导致模型无法学习。梯度爆炸参数更新过大破坏了模型的稳定收敛。梯度消失与梯度爆炸其实是一种情况。两种情况下梯度消失经常出现一是在深层网络中二是采用了不合适的激活函数比如sigmoid。梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。下面分别从这两个角度分析梯度消失和爆炸的原因比较简单的深层网络如下前向传播第一步线性组合第二步激活函数第二层输出层损失函数反向传播其中a1对z1求导就是对激活函数求导如果此部分大于1那么层数增多的时候最终的求出的梯度更新将以指数形式增加即发生梯度爆炸。如果此部分小于1那么随着层数增多求出的梯度更新信息将会以指数形式衰减即发生了梯度消失。下图为sigmoid导数图其梯度是不可能超过0.25的这样经过链式求导之后很容易发生梯度消失。同理tanh作为损失函数它的导数图如下可以看出tanh比sigmoid要好一些但是它的导数仍然是小于1的。权值初始化值太大做反向传播的时候总会有一些线性层而这些线性层的局部导数就等于权重本身如果权值初始化太大可能会造成梯度爆炸梯度消失、爆炸的解决方案采用ReLU函数、LeakyRelu函数、ELU函数等作为激活函数ReLU思想也很简单如果激活函数的导数为1那么就不存在梯度消失爆炸的问题了每层的网络都可以得到相同的更新速度relu就这样应运而生。下图是ReLU函数图和导数图ReLU的主要贡献在于解决了梯度消失、爆炸的问题计算方便计算速度快加速了网络的训练同时也存在一些缺点由于负数部分恒为0会导致一些神经元无法激活输出不是以0为中心的梯度 δ × 输入、δ 是“已经从后面所有层传回来的梯度信息最后再乘上“当前参数对输出的导数输入”得到参数的梯度。如果 ReLU 输出全是正数那么x0于是梯度符号完全取决于δ假设一个batch中所有样本的δ0那么所有权重的梯度都 0所有权重一起往同一个方向更新后果梯度更新“方向单一”你之前提到的 zig-zag 问题优化过程会变成不是“朝最优点直线走”而是“来回震荡 偏移”2、PyTorch1、N维数组就是有N个维度的数据结构0维标量、1维向量、2维矩阵、3维RGB图像数组也被称为张量tensor张量是多维数据的统一表示一中数据结构里面包含了多种 方法tNumPy 中的 ndarray 仅支持CPU 计算而 PyTorch 中的 Tensor 能够放到 GPU 上计算并且支持自动微分2、创建数组需要形状、数据类型int、float、元素值3、访问元素4、张量数据操作torch.__version__ # 查看torch版本 x torch.arange(12) # 标量 x.shape # torch.Size([]) x torch.arange(12) # 初始化一个0-11的张量这是一维的 x.shape # 张量的形状 torch.Size([12]) x.numel() # 张量中元素的总数 number of elements x x.reshape(3,4) # 一维张量改为3行4列的二维张量 y torch.zeros((2,3,4)) # 创建全0张量 #tensor([[[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]], [[0., 0., 0., 0.], [0., 0., 0., 0.], [0., 0., 0., 0.]]]) y torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]]) # 二维tensor创建特定值张量 z torch.tensor([[[2,1,4,3],[1,2,3,4],[4,3,2,1]]]) # 三维tensor x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) m torch.cat((x,y),dim0) # 按行合并起来 n torch.cat((x,y),dim1) # 按列合并起来 # 即使形状不同也可以张量广播运算 a torch.arange(3).reshape((3,1)) b torch.arange(2).reshape((1,2)) print(ab) tensor([[0, 1], [1, 2], [2, 3]]) # 张量内存变化 x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) before id(y) y x y # 为了保证安全y会开辟新的内存空间以免新y和旧y所占内存空间不同 print(id(y) before) x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) z torch.zeros_like(y) # z 的数据类型、尺寸和y一样里面的元素全为0 print(id(z):,id(z)) z[:] x y # 原地操作id不会变 print(id(z):,id(z)) x torch.arange(12,dtypetorch.float32).reshape((3,4)) y torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]]) before id(x) x y # 原地操作id不会变 print(id(x) before) x torch.arange(12,dtypetorch.float32).reshape((3,4)) A x.numpy() # tensor转ndaaray B torch.tensor(A) # ndaaray转tensor a torch.tensor([3.5]) print(a) # tensor([3.5000]) print(a.item()) # 3.5 .item()是把只包含一个元素的张量转化为python普通数值 print(float(a)) # 3.5 print(int(a)) # 3 sum_A A.sum(axis1,keepdimsTrue) #keepdimsTrue不丢掉维度否则三维矩阵按一个维度求和就会变为二维矩阵二维矩阵若按一个维度求和就会变为一维向量 torch.dot(x,y) # 向量点积 torch.mv(A,x) # 矩阵和向量的乘积 torch.mm(A,B) # 矩阵相乘y x y 是创建新的张量x y 是原地操作id不会变

相关文章:

2026.04.02随记

1、DL1、反向传播(backward propagation):是计算网络参数梯度的方法,用链式法则,从输出层到输入层遍历,算出每个参数该怎么改。反向传播中每一个记录的梯度都是该函数的导数。梯度下降不等于反向传播&#…...

WeChatMsg终极方案:构建个人微信数据管理中心

WeChatMsg终极方案:构建个人微信数据管理中心 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeChatMsg …...

Arm_Cortex-M3权威指南

这本权威指南只是对应某一种具体的处理器内核,深入一种处理器内核对于我们理解整个ARM架构大有帮助 书籍资源在下面的链接 Arm_Cortex-M3权威指南 第2章 Cortex-M3概览 简介 Cortex-M3是一个32位处理器内核。内部的数据路径是32位,寄存器是32位&…...

基于Stackelberg博弈与需求响应的光伏用户群内部优化定价模型研究

MATLAB代码:基于Stackelberg博弈的光伏用户群优化定价模型关键词:光伏用户群 内部电价 需求响应 斯塔克伯格博弈 参考文档:《基于Stackelberg博弈的光伏用户群优化定价模型》王程 刘念 仿真平台:MATLAB Cplex 主要内容&#xff1…...

做自媒体,如何从“不会写”到“持续输出”

我刚开始做自媒体的时候,最大的问题不是“没东西写”,而是“不知道怎么写”。素材准备好了,选题也定了,打开文档,光标一闪一闪,脑子里一片空白。第一句话该说什么?怎么开头才不枯燥?…...

虚幻引擎6.5 C++多线程渲染管线深度解密,揭秘Nanite+Lumen底层Hook点与自定义RenderPass安全注入时机

第一章:虚幻引擎6.5多线程渲染管线架构总览虚幻引擎6.5标志着渲染架构的重大演进,其核心是完全重写的多线程渲染管线(Multi-Threaded Rendering Pipeline),旨在最大化现代CPU多核并行能力与GPU异步执行潜力。该管线采用…...

Amazon日本站、欧洲站A+内容翻译怎么做?跨马翻译在多站点运营中的实际应用

【一、从一次上架被拒说起】上个月帮一个做家居品类的卖家朋友处理欧洲站上架问题,他花了两周精心设计的A页面被Amazon审核退回,原因只有一句话:"Please ensure all images contain text in the target marketplace language."&…...

棒板电极流注放电与氩气等离子体仿真的COMSOL研究

棒板电极流注放电, COMSOL,氩气形成的贯穿流注 氩气放电等离子体仿真。在高压实验室里见过那种细金属棒和接地板之间突然爆发的紫色放电吗?那玩意儿专业名称叫棒板电极流注放电。今天咱们用COMSOL扒开这朵"电火花"的外衣&#xff0…...

别再手写MCP适配层了!2024最新Python企业模板已内置SPI扩展点、链路追踪埋点与熔断降级策略

第一章:MCP服务器开发模板的演进与企业级定位 MCP(Model-Controller-Protocol)服务器开发模板并非静态规范,而是随云原生架构、服务网格与可观测性实践的深化持续演进的技术基座。早期版本聚焦于HTTP路由与基础中间件封装&#xf…...

为什么你的医疗3D体绘制在NVIDIA A100上仍掉帧?——解析CUDA流同步、纹理缓存对齐与HIP-Clang跨编译器ABI兼容性三大致命盲区

第一章:医疗3D体绘制性能瓶颈的临床级认知 在手术导航、放射治疗计划与介入影像诊断等临床场景中,3D体绘制(Volume Rendering)并非仅关乎视觉保真度,而是直接关联决策时效性与操作安全性。当CT或MRI体数据分辨率超过51…...

Python MCP服务器开发模板实战手册(含完整CI/CD流水线与OpenTelemetry集成)

第一章:Python MCP服务器开发模板概览与核心设计理念Python MCP(Model-Controller-Protocol)服务器开发模板是一套面向协议驱动、可插拔架构的轻量级服务框架,专为构建高内聚、低耦合的远程过程调用(RPC)与…...

【2026 Python原生AOT编译终极指南】:零依赖、亚毫秒启动、生产级瘦身——来自CPython核心组的3项未公开落地规范

第一章:Python原生AOT编译的范式革命与2026技术定位Python长久以来以解释执行和动态特性见长,但启动延迟、内存开销与冷加载性能瓶颈正成为云原生服务、嵌入式边缘计算及实时AI推理场景的关键制约。2024年起,CPython官方正式接纳PEP 712&…...

JetBrains GoLand 2026.1 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE

JetBrains GoLand 2026.1 (macOS, Linux, Windows) - 为 Go 开发者打造的完整 IDE JetBrains 跨平台开发者工具 请访问原文链接:https://sysin.org/blog/jetbrains-goland/ 查看最新版。原创作品,转载请保留出处。 作者主页:sysin.org Jet…...

RAG 不需要向量库?无向量检索新范式全攻略(非常硬核),大模型检索从入门到精通,收藏这一篇就够了!

基于推理的检索如何击败结构化文档上的相似性搜索,以及如何使用 PageIndex 构建它 你向 AI 智能体询问一份 200 页合同的问题。它自信地回答。答案是错误的。它从正确的主题中提取了文本,但却是错误的条款,而模型从未注意到。 这不是模型问…...

深入解析C语言位运算与操作符

目录 1. 原码,反码,补码 2. 移位操作符 2.1 左移操作符 2.2 右移操作符 3. 位操作符:&,|,^,~ 3.1 按位与:& 3.2 按位或:| 3.3 按位异或:^ 3.4 按位取反&…...

阿里云千问大模型API申请避坑指南:从注册到调用的完整流程

阿里云千问大模型API实战指南:从零到高效调用的全流程解析 第一次接触阿里云千问大模型API时,我花了整整三天时间才成功完成第一个有效调用。期间踩过的坑包括密钥权限配置错误、计费方式理解偏差、请求参数格式不对等典型问题。本文将把这些经验转化为系…...

2026 RAG 全景落地教程(非常详细),从大模型基座到 Agent 记忆从入门到精通,收藏这一篇就够了!

这是一份让你看完就能动手,少走半年弯路的实战指南。 为什么你必须搞懂 RAG 2023 年是大模型“百模大战”年,所有人都在刷榜单、比参数。2024 年起,战场转移了——谁能把大模型真正用起来,谁才有价值。 而检索增强生成&#xf…...

百考通:AI精准精准赋能论文降重与去AI痕迹,让学术成果更高效、更专业

在学术写作与论文发表的过程中,重复率过高、AI生成痕迹明显,是困扰无数学生与科研工作者的核心难题。不仅可能导致查重不通过,更会影响学术诚信与成果认可度。百考通(https://www.baikaotongai.com) 凭借智能文本优化技…...

【实测】GitNexus实测:拖入GitHub链接秒出代码知识图谱,今天涨了857星

腾讯10年程序员带你实测GitNexus——一款零服务器、纯浏览器端的代码知识图谱引擎,内置Graph RAG智能问答。今天GitHub Trending单日涨857星。 文章目录前言一、背景与痛点1.1 问题描述1.2 现有方案的不足二、GitNexus核心能力详解2.1 零服务器架构2.2 交互式知识图…...

【深度】GPT-6 定档4月14日 × Claude 4小时攻破FreeBSD:CUDA转CANN迁移实战 + AI安全防御架构全解

摘要 4月第一周同时爆了两个大的——GPT-6代号Spud(土豆)定档4月14日,性能比GPT-5.4涨了40%,200万Token上下文,ChatGPTCodexAtlas三合一;Claude那边拿着一份漏洞公告4小时攻破了FreeBSD内核拿到Root。本文…...

Vivado硬件调试避坑指南:为什么你的ILA信号总被优化?(附解决方案)

Vivado硬件调试避坑指南:为什么你的ILA信号总被优化?(附解决方案) 调试FPGA设计时,最令人抓狂的莫过于在ILA中设置好的信号,综合后却神秘消失。这背后是Vivado综合器的优化机制在作祟——它像一位过于热心…...

从零构建数字货币量化交易系统:Python实战指南

1. 为什么选择Python构建量化交易系统? 在数字货币市场这个724小时运转的竞技场中,量化交易就像一位不知疲倦的钢铁战士。我2018年第一次尝试用Python写交易策略时,发现它简直是量化的"瑞士军刀"。想象一下,你正在用Exc…...

人形机器人核心部件揭秘:减速器、传感器如何撑起宇树和智元的未来?

人形机器人核心部件揭秘:减速器与传感器的技术革命 当波士顿动力的Atlas完成后空翻,当特斯拉Optimus在工厂灵活抓取零件,这些看似科幻的场景背后,是无数精密部件协同工作的结果。人形机器人的核心部件——减速器和传感器&#xff…...

JavaScript中函数体代码量对V8内联优化特性的影响

V8是否内联函数取决于函数体的可预测性与优化友好度而非单纯行数:简单、纯函数、低复杂度AST更易内联;含try/catch、eval、闭包等结构即使短也常被拒绝;可通过--trace-inlining验证,优化应重结构清晰而非盲目压缩。函数体代码量直…...

西门子S7_200PLC与MCGS组态在污水处理控制设计中的应用

西门子S7_200PLC和MCGS组态的污水处理控制设计老铁们今天咱们唠点实在的工业自动化应用,污水处理厂里那套S7-200和MCGS组态配合的骚操作。这玩意儿可不是课本上那些理论,是实打实在某县污水处理站跑了两年的成熟方案。先说核心控制逻辑,五个污…...

MCGS 基于PLC的风力发电控制系统 带解释的梯形图程序,接线图原理图图纸,io分配

MCGS 基于PLC的风力发电控制系统 带解释的梯形图程序,接线图原理图图纸,io分配,组态画面最近在搞风力发电控制系统,发现MCGS和PLC的组合真是工业自动化领域的黄金搭档。今天就拿个真实项目里的风机控制程序开刀,带大家…...

Python flask django大学生一体化服务系统 校园生活服务平台 选课 失物招领 自习室预约,实习系统y98ioc9x

目录同行可拿货,招校园代理 ,本人源头供货商功能模块分析技术架构特性扩展接口项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块分析 校园生活服务平台 整合校内高频生活需求&a…...

Golang GORM怎么做Scopes复用_Golang GORM Scopes教程【推荐】

Scopes 是接收并返回 *gorm.DB 的函数,用于链式构建查询;需严格签名、避免提前执行、显式传参、控制分页参数、顺序影响SQL逻辑、事务中注意句柄、不处理错误。Scopes 就是带参数的 func(*gorm.DB) *gorm.DB它不是魔法,就是个普通函数签名——…...

OpenMMLab 环境配置避坑指南:从 ModuleNotFoundError 到 YOLO 模型成功部署

1. 环境配置的常见报错与诊断方法 当你第一次尝试在OpenMMLab框架下运行YOLO模型时,ModuleNotFoundError可能是最令人头疼的拦路虎。这个报错看似简单,背后却可能隐藏着多种环境配置问题。我最近在帮团队新人配置环境时,就遇到了至少三种不同…...

电源PFC入门 TI单相三相维也纳VIENNA整流器无桥 原理图PCB资料 一个PFC设计案例...

电源PFC入门 TI单相三相维也纳VIENNA整流器无桥 原理图PCB资料 一个PFC设计案例,大量的PFC相关的资料。 注意:设计案例无核心小板。电源设计里PFC总像个磨人的小妖精,尤其是做工业级大功率设备的时候。最近折腾TI的维也纳整流器方案发现&…...