当前位置: 首页 > article >正文

成功实现首个pytorch编写的softmax模型并调优的记录

第一次编写softmax模型测试通过跟随经典的深度学习“Dive-into-DL-Pytorch”编写softmax模型使用FashionMNIST数据集6万张训练数据集1万张测试数据集含10个类别的预测普通办公电脑cpuvscode编辑器jupyter上运行跑通。备注代码获取地址在“Dive-into-DL-Pytorch”中可从github上直接拉取。以下是第一次运行配置batchsize256, epoch5 lr0.1使用SGD随机优化器运行结果包含损失值、准确率评估结果思考每一轮训练损失loss都在下降 准确率accurary预测准确数/数据集总数上升到百分80十几。 想进一步提高准确率于是进一步调参重跑。第二模型调优加大epoch下降次数第二次运行配置batchsize256, epoch10 lr0.1使用SGD随机优化器优化点加大epoch继续下降、降低损失值运行结果结果思考可以发现第6个epoch开始损失没变化准确率也没多少提升。 是已经收敛到最佳性能还是收敛异常 想到可能原因是学习率过大或固定不变于是进一步调参重跑。第三模型调优使用学习率衰减第三次运行配置batchsize256, epoch10 lr使用torch.optim.lr_scheduler.StepLR使用SGD随机优化器优化点在训练过程中如果学习率太大优化器会在“最低损失点”附近反复横跳无法落入最深的谷底 如果学习率固定epoch后期就无法进行更精细的收敛。 torch.optim.lr_scheduler.StepLR是pythorch中的学习率调度器每隔固定轮数将学习率乘以一个衰减系数。运行结果结果思考效果和第二步差不多试下调整优化器。第四模型调优使用Adam优化器第四次运行配置batchsize256, epoch10lr0.01 使用Adam优化器优化点 SGD优化器收敛速度慢且容易陷入局部最优解 Adma优化器带有“动量”和“自适应学习率” 如果梯度方向一致就会加速如果振荡就会减速。运行结果结果思考准确率有小小幅提升但不多当前的网络是单层线性网络只能处理线性边界考虑加大模型复杂度。第五模型调优加大模型复杂度引入多层网络和激活函数第四次运行配置batchsize256, epoch10 使用Adam优化器模型从nn.linear-softmax变为nn.Linear - ReLU - nn.Linear - Softmax优化点 原来的模型是单层线性softmax模型只能处理线性边界。 图像分类数据可能是非线性的模型能力不够就会出现欠拟合。引入多层网络和激活函数能更好的拟合复杂的曲线。运行结果结果思考准确率有小幅提升难道这就是图像识别的极限了继续学习CNN等待后续使用CNN网络继续识别测试。。。。。。

相关文章:

成功实现首个pytorch编写的softmax模型并调优的记录

第一次编写softmax模型,测试通过跟随经典的深度学习“Dive-into-DL-Pytorch”,编写softmax模型,使用FashionMNIST数据集(6万张训练数据集1万张测试数据集,含10个类别的预测),普通办公电脑cpu&am…...

安达发|食品业数字化转型:APS计划排产排程排单软件破解生产难题

安达发APS高级生产计划智能排产排程自动排单软件系统推荐_MES 在当今快消品市场竞争日益激烈的背景下,食品行业正面临着前所未有的挑战——原材料保质期短、订单波动频繁、生产工艺复杂、多品种小批量生产常态化。传统的手工排产或Excel表格管理早已难以应对这些复…...

我想拍桌子,作为 Java 后端程序员,老板限我一天把 RAG 升级成 Agent

大家好,我是秃头哥,一名 Java 后端程序员,每天开心撸 CRUD、调 RAG 问答、搭 Spring BootElasticsearch 知识库,本来安安稳稳过日子。 然后,今天突变… 老板直接把我叫到工位,甩下死命令: “咱…...

STM32看门狗实战:用CubeMX和HAL库快速配置独立看门狗IWDG(附防误触发技巧)

STM32看门狗实战:用CubeMX和HAL库快速配置独立看门狗IWDG(附防误触发技巧) 在嵌入式系统开发中,系统稳定性是至关重要的考量因素。想象一下,你精心设计的智能家居控制器在用户家中运行数月后突然"卡死"&…...

ARM开发板触摸屏移植全记录:Qt应用依赖的tslib-1.4交叉编译与配置详解

ARM开发板触摸屏移植实战:从tslib交叉编译到Qt应用集成 触摸屏作为嵌入式设备最自然的人机交互方式,其性能直接影响用户体验。但在实际项目中,工程师常会遇到触摸坐标漂移、点击抖动、响应延迟等问题。本文将深入探讨如何通过tslib-1.4的定制…...

从“PPT小白”到“大神”,这些网站你必须知道!

一、引言在当今数字化信息飞速传播的时代,PPT 作为一种重要的演示工具,广泛应用于工作汇报、学术演讲、教学授课、项目展示等诸多场景 。无论是职场精英展示工作成果,还是学生群体进行课堂汇报,一份优秀的 PPT 都能成为成功的关键…...

突破游戏帧率限制:5种高级解锁方案的完整技术解析

突破游戏帧率限制:5种高级解锁方案的完整技术解析 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 引言:重新定义游戏性能优化的技术边界 在当今游戏体验追求极致…...

SI5351高频PCB布局避坑指南:从200MHz信号完整性问题到实测波形分析

SI5351高频PCB布局避坑指南:从200MHz信号完整性问题到实测波形分析 在射频电路设计中,时钟信号的纯净度往往决定着整个系统的性能上限。SI5351作为一款支持8通道输出的可编程时钟发生器,其200MHz的输出能力既带来了设计灵活性,也带…...

DevSpace:云原生开发效率革命,实时同步与热重载实战

1. 项目概述:云原生时代的开发效率革命如果你和我一样,常年泡在Kubernetes和容器化应用开发里,那你一定对“本地编码-构建镜像-推送仓库-更新部署-等待Pod重启”这套繁琐的流程深恶痛绝。每次改几行代码,都要经历一次完整的CI/CD管…...

认知神经科学研究报告【20260035】

ForeSight 5.87.2 离散与连续极限测试报告 测试5:200变量离散极限 问题:200变量300子句3-SAT,子句/变量1.5(相变区域,约50%可满足) 方法:推理器子句约束→相位传导→涌现检测自动发现冲突模式→…...

Windows生产力终极指南:为什么每个用户都需要PowerToys系统增强工具

Windows生产力终极指南:为什么每个用户都需要PowerToys系统增强工具 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending…...

如何彻底修复机械键盘连击问题:Keyboard Chatter Blocker实用指南

如何彻底修复机械键盘连击问题:Keyboard Chatter Blocker实用指南 【免费下载链接】KeyboardChatterBlocker A handy quick tool for blocking mechanical keyboard chatter. 项目地址: https://gitcode.com/gh_mirrors/ke/KeyboardChatterBlocker 机械键盘连…...

周红伟SEO能力加强和客户转化的能力点

🧬 周红伟老师背景速览维度内容身份定位大数据与人工智能实战专家 / 企业培训讲师核心背书法国科学院数据算法博士、前阿里AI专家、前马上消费风控负责人、前猪八戒大数据科学家主要平台CSDN博客(AI周红伟)、讲师宝、企业管理咨询网、京城名师…...

You and Your Research

一句话总结 伟大成果不是单靠天才、运气或环境,而是长期把自己放在重要问题附近,用足够的勇气、投入、判断力、表达能力和自我管理,把“可能发生的大事”变成“由你完成的事”。 核心观点 1. 不要把伟大归因于运气 Hamming 不否认运气&…...

模板失效预警,AISMM高管汇报常见8类致命偏差及监管现场否决实录

更多请点击: https://intelliparadigm.com 第一章:模板失效预警:AISMM高管汇报的系统性风险图谱 当AISMM(AI-Supported Management Matrix)平台中预置的高管汇报模板在季度审计前72小时内批量返回空渲染结果&#xff…...

毕业设计 深度学习口罩佩戴检测系统

简介 2020新冠爆发以来,疫情牵动着全国人民的心,一线医护工作者在最前线抗击疫情的同时,我们也可以看到很多科技行业和人工智能领域的从业者,也在贡献着他们的力量。近些天来,旷视、商汤、海康、百度都多家科技公司研…...

相机标定入门:别再混淆DLT、对极几何和PNP了,一文讲清区别与联系

相机标定入门:别再混淆DLT、对极几何和PNP了,一文讲清区别与联系 刚接触计算机视觉时,面对DLT、对极几何、PNP这些术语,就像走进了一个满是镜子的迷宫——每个概念都在反射其他概念的光芒,却让人看不清它们之间的真实关…...

又给老板省钱了[特殊字符]~

说实话,以前企业IT运维真的太折腾了!🥱海外设备一出故障,工程师就得立马打飞的跨国抢修,一趟差旅几万块花出去,还得耗上两三天,既费钱又耽误产能。✅自从用上Splashtop,直接开启办公…...

平台费用继续抬升之后跨境卖家如何判断哪些订单值得接

成本挤压下的订单抉择:跨境卖家的利润保卫战平台费用、物流成本、汇率波动……当一道道无形的“闸门”被抬高,原本宽阔的利润河道正逐渐变得狭窄。对于跨境卖家而言,每一个新订单的提示音,不再仅仅是收入的象征,更可能…...

别再复制粘贴了!手把手教你用C语言实现一个支持任意长度的CRC-8校验函数

从零构建通用CRC-8校验器:C语言实战指南 在嵌入式系统与通信协议开发中,数据完整性校验如同数字世界的"指纹识别"。当我们面对串口传输、文件校验或网络数据包处理时,CRC校验算法以其高效可靠的特性成为工程师的首选武器。本文将带…...

Highcharts 曲线图:深度解析与实战应用

Highcharts 曲线图:深度解析与实战应用 引言 Highcharts 是一个功能强大的图表库,允许用户轻松地在网页上创建交互式图表。其中,曲线图是一种非常受欢迎的图表类型,能够有效地展示数据随时间或其他连续变量的变化趋势。本文将深入解析 Highcharts 曲线图的特点、应用场景…...

别只盯着YOLO!用百元级OpenMV+STM32,5分钟搭建一个低成本运动追踪原型系统

百元级视觉方案实战:OpenMVSTM32运动追踪系统开发指南 当计算机视觉成为热门技术,许多初学者却被动辄数千元的GPU设备和复杂的深度学习框架劝退。其实,在嵌入式视觉领域,有一款仅需百元级的硬件——OpenMV,配合常见的S…...

Nacos客户端日志太吵?Spring Boot/Cloud项目里这样配置,瞬间清净

Nacos客户端日志优化实战:Spring Boot/Cloud项目静音指南 微服务架构下,Nacos作为配置中心和注册中心的核心组件,其客户端日志输出常常成为开发者调试时的"甜蜜负担"。想象一下这样的场景:你在IDEA中启动Spring Cloud服…...

工业物联通信升级方案:蓝牙对讲机如何打通“人、机、场”实时协同

在工业物联场景里,通信从来不是“可有可无”的配套能力,而是保障生产节奏、安全响应和协同效率的关键基础设施。过去很多企业依赖传统对讲系统,虽然满足了基本通话,但在复杂现场中仍面临明显短板:有线耳机束缚作业动作…...

独立站卖家必读:如何低成本申请毛里求斯专利翻译?保姆级教程

独立站卖家必读:如何低成本申请毛里求斯专利翻译?保姆级教程一、背景介绍及核心要点毛里求斯作为非洲与印度洋区域重要的贸易枢纽,其知识产权保护体系正日益受到跨境卖家的关注。对于独立站卖家而言,在毛里求斯进行专利布局&#…...

雷总发福利了!小米100万亿Token免费领,还没上车的速进!

搞AI、敲代码、或者平时爱折腾AI大模型的朋友注意了。 最近小米开源了自家的旗舰大模型 MiMo-V2.5 系列,不仅把支持100万上下文窗口的模型直接开源,还顺手整了个大活——推出了个叫“MiMo Orbit 百万亿 Token 创造者激励计划”的活动。 大白话翻译过来就…...

G-Helper:华硕笔记本的轻量级性能管家,告别Armoury Crate的臃肿体验

G-Helper:华硕笔记本的轻量级性能管家,告别Armoury Crate的臃肿体验 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProAr…...

Ozon选品工具怎么选?一篇讲透主流工具优劣势

工具选对了,每天省下3小时;选错了,越用越累还不出单做Ozon选品,光靠手动翻热销榜,一天扒几十个品就耗尽精力。市面上选品工具五花八门,功能各有侧重。这篇文章不吹不黑,从新手视角横向对比目前主…...

智能体管理系统架构设计:从容器化到消息队列的工程实践

1. 项目概述:从开源项目标题看智能体管理的核心价值 最近在GitHub上看到一个挺有意思的项目,叫“stainlu/openclaw-managed-agents”。光看这个标题,就能嗅到一股浓浓的“智能体管理”和“自动化”的味道。作为一个在自动化运维和智能体开发领…...

压缩距离(NCD)原理及其在客户端机器学习的应用

1. 压缩距离(NCD)原理与技术背景1.1 压缩距离的核心思想压缩距离(Normalised Compression Distance, NCD)是一种基于数据压缩的相似性度量方法,其核心思想是利用压缩算法的特性来评估两个数据对象之间的相似程度。当我…...