从0到1,AI我来了- (4)AI图片识别的理论知识-II
上篇文章,我们理解了我们程序的神经网络设计,这篇我们继续,把训练迭代过程分析一下,完成这两篇文章,下面问题,应该能回答了。
- 一张图片,如何被计算机读懂?
- pytorch 封装的网络,什么是卷积层,为什么要多层?层与层如何衔接?如何设计?
- 什么是池化?为什么要池化?
- 什么是全链接层?它有什么作用?
- 神经网络模型的前向传播?这个步骤的作用是什么?
- 什么梯度下降?梯度下降的价值?
- 什么是激活函数?为什么要用激活函数?
一、上篇完成网络设计后,神经网络如何训练,自优化的?
回到程序【如需解读,请参阅从0到1,AI我来了- (2)解读程序-从AI手写数字识别开始】
for epoch in range(num_epochs): running_loss = 0.0 correct = 0 total = 0 for images, labels in train_loader: optimizer.zero_grad() outputs = model(images) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() avg_loss = running_loss / len(train_loader) accuracy = 100 * correct / total # 记录到 TensorBoard writer.add_scalar('Loss/train', avg_loss, epoch) writer.add_scalar('Accuracy/train', accuracy, epoch) # 记录到列表 loss_values.append(avg_loss) accuracy_values.append(accuracy) print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}, Accuracy: {accuracy:.2f}%') writer.close()
这里做了10次训练,每次迭代训练会经过:
forward(前向传播)--》计算损失 --》backward(反向传播) --》更新权重
forward
前篇提到了,定义网络模型时,有个函数forword。

forward通常是指一个模型的前向传播过程,它的主要作用是计算输入数据通过网络时的输出,即这里的输入数据图片到输出数字概率的过程。
outputs = model(images)
程序中,这句代码,实际就是会调用SimpleCNN 的forward的方法,输入是图片,输出的是概率结果。
计算损失Loss
criterion = nn.CrossEntropyLoss()
...
loss = criterion(outputs, labels)
torch.nn模块提供了多种常用的损失函数,这些损失函数可以用于不同类型的机器学习任务。附录一,有一些主要的损失函数,这里是个多分类问题,所以nn.CrossEntropyLoss 可以满足我们要求。
那CrossEntropyLoss 是如何计算损失的?
CrossEntropyLoss 结合了 softmax 函数和负对数似然损失(Negative Log Likelihood Loss)
大白话就是模型会跑出一些结果,比如[1.0,2.0,7.0],这里表示7.0的可能性最大,CrossEntropyLoss 会先把这些分数转化为概率,即把这些值变为0~1之间的值,且和为1。[1.0,2.0,7.0] 转化为[0.1,0.2,0.7]。
backward 反向传播
loss.backward()
非常关键的一行代码,简单理解就是,为了追求更小的损失,自动优化模型参数,不断迭代。
原理尝试解读一下,网上找了个图,解释一下:
损失函数L(w),随机指定权重,偏置(bias,随机标量),比如图中的W0哪个点,为了让损失更小(找到波谷),需要对w求导,即寻找W0点的切线。
如果切线斜率为负(如下图,w越大,Loss越小),说明应该增加w的值,也就是会自动根据学习率,更新w的值。
如果切线斜率为正(w越大,Loss 越大),说明梯度应该减少w的值。

更新权重
optimizer.step()
在计算出梯度后,我们需要根据这些梯度更新模型的参数。这里使用的优化器(optimizer)将会在调用 optimizer.step() 时生成参数的更新。
optimizer.step() 会更新哪些参数?
在调用 optimizer.step() 时,所有在优化器中注册的参数(即 model.parameters() 返回的那些)都会被更新。
参数类型,包括哪些?
在深度学习模型中,这些可学习的参数通常包括全连接层(nn.Linear)的权重和偏置、卷积层(nn.Conv2d)的权重和偏置、以及其他层的参数。
综上,那7个问题,应该能基本解答出来了,不往底层算法钻的话,能理解就行了。
下篇,我们我们来实践一个本地智能知识库,把常见的Agent、RAG,向量数据库分析分析。
附录:
一、分类任务
-
交叉熵损失 (Cross Entropy Loss):
torch.nn.CrossEntropyLoss:用于多类分类问题torch.nn.BCEWithLogitsLoss:用于二分类问题的 logits(未经过 sigmoid)和目标相结合的二元交叉熵损失。
-
负对数似然损失 (Negative Log Likelihood Loss):
torch.nn.NLLLoss:配合在LogSoftmax后使用,适用于多类分类。
-
KL 散度损失 (KL Divergence Loss):
torch.nn.KLDivLoss:用于衡量两个概率分布之间的差异。
回归任务
-
均方误差损失 (Mean Squared Error Loss):
torch.nn.MSELoss:适用于回归问题,计算预测值和目标值之间的均方差。
-
平均绝对误差损失 (Mean Absolute Error Loss):
torch.nn.L1Loss:计算预测值和目标值之间的平均绝对差。
-
Huber 损失:
torch.nn.HuberLoss:结合了均方误差和平均绝对误差的特点,对于目标值较大时更为稳健。
其他损失函数
-
对比损失 (Contrastive Loss):
- 自定义损失,一般用于 Siamese 网络。
-
Triplet Loss:
- 自定义损失,适用于需保持距离的学习(如人脸识别)。
-
Focal Loss:
- 自定义损失,用于处理类别不平衡问题。
相关文章:
从0到1,AI我来了- (4)AI图片识别的理论知识-II
上篇文章,我们理解了我们程序的神经网络设计,这篇我们继续,把训练迭代过程分析一下,完成这两篇文章,下面问题,应该能回答了。 一张图片,如何被计算机读懂?pytorch 封装的网络&#…...
2024 Java 高分面试宝典 一站式搞定技术面
前言 每年9月和10月,被业界称为“金九银十”,这是人才市场一年中最活跃的时期。此时,企业为了来年的业务扩展,纷纷加大招聘力度,空缺岗位众多,招聘需求集中。同时,初秋的招聘活动也避开酷暑&am…...
MongoDB - 聚合操作符 $eq、$gte、$in、$sum、$avg
文章目录 1. $eq2. $gte3. $in4. $sum5. $avg 1. $eq $eq比较两个值并返回:true (当值相等时)|false(当值不相等时) { $eq: [ <expression1>, <expression2> ] }构造测试数据: db.inventory…...
C语言 | Leetcode C语言题解之第279题完全平方数
题目: 题解: // 判断是否为完全平方数 bool isPerfectSquare(int x) {int y sqrt(x);return y * y x; }// 判断是否能表示为 4^k*(8m7) bool checkAnswer4(int x) {while (x % 4 0) {x / 4;}return x % 8 7; }int numSquares(int n) {if (isPerfect…...
在appium中,如何通过匹配图片来进行断言?
在Appium中进行图片匹配断言,可以使用OpenCV来实现。以下是使用Appium和OpenCV进行图片匹配断言的示例代码。 首先,需要确保安装了必要的库: pip install opencv-python-headless pip install opencv-python pip install numpy然后…...
昇思25天学习打卡营第21天|CV-Shufflenet图像分类
打卡 目录 打卡 ShuffleNet 网络介绍 ShuffleNet 模型架构 Pointwise Group Convolution Channel Shuffle ShuffleNet模块 ShuffleNet 模块代码 构建ShuffleNet网络 模块代码 模型训练和评估 模型训练 模型评估 模型预测 ShuffleNet 网络介绍 ShuffleNetV1是旷视科…...
python 图片转文字、语音转文字、文字转语音保存音频并朗读
一、python图片转文字 1、引言 pytesseract是基于Python的OCR工具, 底层使用的是Google的Tesseract-OCR 引擎,支持识别图片中的文字,支持jpeg, png, gif, bmp, tiff等图片格式 2、环境配置 python3.6PIL库安装Google Tesseract OCR 3、安…...
SSRF (服务端请求伪造)
🎼个人主页:金灰 😎作者简介:一名简单的大一学生;易编橙终身成长社群的嘉宾.✨ 专注网络空间安全服务,期待与您的交流分享~ 感谢您的点赞、关注、评论、收藏、是对我最大的认可和支持!❤️ 🍊易编橙终身成长社群&#…...
SQL中的LEFT JOIN、RIGHT JOIN和INNER JOIN
在SQL中,JOIN操作是连接两个或多个数据库表,并根据两个表之间的共同列(通常是主键和外键)返回数据的重要方法。其中,LEFT JOIN(左连接)、RIGHT JOIN(右连接)和INNER JOIN…...
[网鼎杯 2020 朱雀组]Nmap(详细解读版)
这道题考察nmap的一些用法,以及escapeshellarg和escapeshellcmd两个函数的绕过,可以看这里PHP escapeshellarg()escapeshellcmd() 之殇 (seebug.org) 两种解题方法: 第一种通过nmap的-iL参数读取扫描一个文件到指定文件中第二种是利用nmap的参数写入we…...
【React】详解“最新”和“最热”切换与排序
文章目录 一、基本概念和初始化二、切换与排序功能的实现1. 函数定义和参数2. 设置活动 Tab3. 定义新列表变量4. 根据排序类型处理列表4.1 按时间降序排序4.2 按点赞数降序排序 5. 更新评论列表 三、渲染导航 Tab 和评论列表1. map 方法2. key 属性3. className 动态赋值4. onC…...
BUUCTF [MRCTF2020]Ezpop
这道题对于刚接触到pop链的我直接把我整懵了,一边看着魔术方法一边分析 魔术方法可以看这里PHP 魔术方法 - 简介 - PHP 魔术方法 - 简单教程,简单编程 (twle.cn) 代码解析 经过以上的分析我们可以理一下解题思路:接收参数反序列化之前先触发…...
RV1126 Linux 系统,接外设,时好时坏(一)应该从哪些方面排查问题
在 Linux 系统中接外设时,遇到“时好时坏”的问题,可能是由多种因素引起的。以下是一些排查问题的建议。 1. 硬件方面的排查 1.1 连接检查 物理连接: 确保外设与主板之间的连接良好,检查插头、插座及线缆是否牢固。引脚配置: 确认设备树中引脚的配置是否正确,尤其是引脚…...
Vue实现简单小案例
一、创建文件夹 二、引用vue.js <script src"../js/vue.js"></script> 三、准备一个容器 <div id"app"><h1>Hello,{{name}}</h1> </div> 四、创建实例 <script>new Vue({el:"#app", //el用于指…...
【MATLAB APP】建立独立桌面APP
背景:已有MATLAB APP的.mlapp文件,但客户提出需要可以直接使用的exe文件。 要求:点开即用,无需下载MATLAB。使用者无法修改APP的代码。 一、环境配置 APP创建者:安装MATLAB R2023a,配置Application Compile…...
Spring的优缺点?
Spring的优缺点 直接回答相关的Spring的特点: IOC AOP 事务 简化开发: 容易集成JDBCTemplateRestTemplate(接口远程调用)邮件发送相关异步消息请求支持 更加深入就讲源码了 优点: 方便解耦,简化开发…...
第一百八十三节 Java IO教程 - Java目录事件、Java异步I/O
Java IO教程 - Java目录事件 当文件系统中的对象被修改时,我们可以监听watch服务以获取警报。 java.nio.file包中的以下类和接口提供watch服务。 Watchable接口WatchService接口WatchKey接口WatchEvent接口WatchEvent.Kind接口StandardWatchEventKinds类 可监视对…...
【设计模式】(万字总结)深入理解Java中的创建型设计模式
1. 前言 在软件开发的世界里,设计模式是一种被广泛接受并应用的解决方案。它们不仅仅是代码的设计,更是对问题的思考和解决的方法论。在Java开发中,特别是在面向对象的编程中,设计模式尤为重要。创建型设计模式,作为设…...
【全面讲解下Docker in Docker的原理与实践】
🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 👉目录 👉前言👉原理👉实践👉安全和最佳实践👉前言 🦛…...
Android Settings增加多击事件,增加开发者模式打开难度
软件平台:Android11 硬件平台:QCS6125 需求来源:用户通过系统异常崩溃,进入原生Settings页面,通过默认的多击版本号方式打开开发者模式,继而打开adb调试开关,安装三方apk。 对付这种需求本来有…...
5分钟快速上手:使用pose-search实现智能人体姿态检测与搜索
5分钟快速上手:使用pose-search实现智能人体姿态检测与搜索 【免费下载链接】pose-search x6ud.github.io/pose-search 项目地址: https://gitcode.com/gh_mirrors/po/pose-search 你是否曾想过,如何让计算机像人类一样理解人体动作?&…...
APK Installer技术解析:Windows平台Android应用部署的创新架构
APK Installer技术解析:Windows平台Android应用部署的创新架构 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在传统Android开发与测试流程中,…...
从协议战争到SDN革命:华为数通技术演进中的那些关键抉择
从协议战争到SDN革命:华为数通技术演进中的关键抉择 在数据中心网络架构的演进历程中,技术路线的选择往往决定着企业未来十年的竞争力格局。当传统网络架构遭遇云计算时代的流量洪流,一场关于协议标准与技术范式的深刻变革悄然展开。这场变革…...
QGIS插件开发实战:手把手教你用Python调用高德地图API做路径规划(附坐标转换避坑指南)
QGIS插件开发实战:Python集成高德地图API的路径规划全流程解析 当我们需要在QGIS中实现路径规划功能时,高德地图API提供了丰富的服务接口。本文将带你从零开始,开发一个能够调用高德地图API进行路径规划的QGIS插件,并重点解决开发…...
禅道企业微信消息推送改造实战:如何让群消息自动@指定成员(附源码修改)
禅道与企业微信深度集成:打造智能提醒的自动化消息推送系统 在项目管理工具与企业通讯平台的融合应用中,消息推送的智能化程度直接影响团队协作效率。禅道作为国内广泛使用的项目管理软件,与企业微信的对接虽然提供了基础通知功能࿰…...
SpringBoot+Vue物流管理系统源码+论文
代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 分享万套开题报告任务书答辩PPT模板 作者完整代码目录供你选择: 《SpringBoot网站项目》1800套 《SSM网站项目》1500套 《小程序项目》1600套 《APP项目》1500套 《Python网站项目》…...
QWEN-AUDIO应用案例:如何制作一个会讲故事的AI语音玩具
QWEN-AUDIO应用案例:如何制作一个会讲故事的AI语音玩具 1. 项目背景与创意来源 1.1 儿童教育市场的语音需求 在当今儿童教育领域,互动性和趣味性成为产品设计的关键要素。传统的故事机往往只能播放预录制的音频内容,缺乏个性化和互动能力。…...
Wan2.2-I2V-A14B极限测试:挑战生成复杂网络拓扑结构的动态演化视频
Wan2.2-I2V-A14B极限测试:挑战生成复杂网络拓扑结构的动态演化视频 1. 开场白:当AI遇见网络拓扑 最近在测试Wan2.2-I2V-A14B模型时,我突发奇想:这个号称能理解复杂概念的文生视频模型,能否准确呈现网络拓扑结构的动态…...
Phi-3 Forest Laboratory 学术辅助:基于LaTeX的论文写作与公式编辑
Phi-3 Forest Laboratory 学术辅助:基于LaTeX的论文写作与公式编辑 写论文,尤其是理工科的论文,对很多学生和研究人员来说,是个既费时又费力的活儿。光是“相关工作”部分,就得翻遍文献,总结归纳ÿ…...
告别VS Code后,我在Trae里这样调教Dracula主题和代码片段(附同步指南)
从VS Code到Trae:打造极致Dracula主题与高效代码片段的完整指南 第一次在Trae里看到默认的白色主题时,我的眼睛几乎被闪瞎——这感觉就像半夜突然被强光手电筒直射瞳孔。作为从VS Code"叛逃"过来的开发者,我花了整整两周时间把Trae…...
