当前位置: 首页 > article >正文

神经网络与深度学习 第3周课程总结

深度学习视觉应用课程总结一、常用计算机视觉数据集数据集名称发布方/年份规模图像规格类别数主要用途核心特点MNIST美国国家标准与技术研究院60k训练10k测试28×28灰度图10类(0-9手写数字)入门级图像分类最经典的手写数字识别基准数据集Fashion-MNISTZalando(2017)60k训练10k测试28×28灰度图10类(服装商品)图像分类算法测试MNIST的直接替代品无需修改代码即可使用CIFAR-10加拿大高级研究所50k训练10k测试32×32彩色图10类(飞机、汽车等)彩色图像分类分为5个训练批次和1个测试批次每类样本均衡PASCAL VOC 2012欧盟PASCAL项目11540张图像27450个标注对象彩色JPEG图20类(人、动物、交通工具等)目标检测、语义分割目标检测领域的经典基准提供XML格式标注MS COCO微软(2014)33万张图20万张有标注150万个个体彩色图80类(日常场景物体)目标检测、实例分割、场景理解ImageNet竞赛停办后最权威的目标检测基准ImageNet李飞飞团队(2009)1419万张图103万张有标注框彩色图21841类大规模图像分类、预训练推动了深度学习在计算机视觉领域的爆发JFT-300MGoogle(内部)3亿张图10亿个标签彩色图多标签超大规模图像分类预训练标签精度高用于训练顶级图像分类模型二、视觉任务核心评价指标2.1 混淆矩阵混淆矩阵是评估分类模型性能的基础工具展示了模型预测结果与真实标签之间的对应关系。预测值正例预测值负例真实值正例TP(真正例)FN(假负例)真实值负例FP(假正例)TN(真负例)TP:真正例(true positive)即真实结果和预测结果都是正例。FP:假正例(false positive),即真实结果是反例预测结果是正例。TN:真反例(true negative),即真实结果和预测结果都是反例。FN:假反例(false negative),即真实结果是正例预测结果是反例。2.2 基础指标定义指标名称计算公式物理意义特点查准率(Precision)PTPTPFPP \frac{TP}{TPFP}PTPFPTP​预测为正的样本中真正正样本的比例衡量模型不把负样本判为正样本的能力值越高越挑剔查全率(Recall)RTPTPFNR \frac{TP}{TPFN}RTPFNTP​所有真正正样本中被正确识别的比例衡量模型不漏掉正样本的能力值越高越全面准确率(Accuracy)AccuracyTPTNTPFPTNFNAccuracy \frac{TPTN}{TPFPTNFN}AccuracyTPFPTNFNTPTN​整体预测正确的样本比例适用于样本均衡的情况样本不均衡时会产生误导2.3 进阶指标精确率和召回率之间存在天然的权衡关系提高阈值会增加精确率但降低召回率降低阈值则相反。P-R曲线直观地展示了这种权衡关系。P-R曲线评价原则(1) 若一个学习模型的P-R曲线完全包住了另一个学习模型的P-R曲线则前者的性能优于后者。即召回率相同的情况下查准率越高模型的泛化性能越好。简而言之曲线越向右上模型越好。(2) 若两个学习模型的P-R曲线互相交叉则可通过平衡点Break-Event Point,简称BEP)来评价模型的优劣BEP是查准率查全率的数值。F1分数F12PRPRF1 \frac{2PR}{PR}F1PR2PR​F1分数F1 Score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的查准率和查全率。F1分数可以看作是模型精确率和召回率的一种调和平均它的最大值是1最小值是0。由于BEP过于简化更常用的是F1度量F1越大性能越好。平均精度(AP)与平均平均精度(mAP)平均精度(AP)P-R曲线下的面积综合衡量单个类别的检测性能AP∑k1NP(k)Δr(k)AP \sum_{k1}^{N} P(k) \Delta r(k)APk1∑N​P(k)Δr(k)其中P(k)P(k)P(k)是识别出k个图片时的精确率Δr(k)\Delta r(k)Δr(k)是召回率从k-1到k的变化量平均平均精度(mAP)多类别检测任务中所有类别AP的平均值是目标检测任务最常用的综合评价指标三、目标检测与YOLO3.1 目标检测定义、痛点、传统求解思路的瓶颈任务定义在给定图片中同时解决两个问题“是什么”识别图像中物体的类别“在哪里”用边界框精确标注物体的位置核心痛点物体尺寸变化范围大物体摆放角度和姿态不定物体可出现在图片任何位置一张图片可能包含多个不同类别的物体传统求解思路的瓶颈滑动窗口法在图像上滑动不同大小的窗口对每个窗口进行分类计算量巨大手工特征提取依赖人工设计的特征(如SIFT、HOG)表达能力有限泛化性差3.2 技术发展(两阶段)目标检测技术经历了从两阶段到单阶段的发展过程R-CNN(2014)首次将深度学习引入目标检测使用选择性搜索生成候选区域然后对每个区域进行分类SPP-NET(2014)引入空间金字塔池化层解决了R-CNN中需要将候选区域裁剪到固定大小的问题Fast R-CNN(2015)将特征提取和分类整合到一个网络中大幅提高了检测速度Faster R-CNN(2015)用区域建议网络(RPN)替代选择性搜索实现了端到端的训练成为两阶段检测的经典框架3.3 YOLO核心(单阶段)全称You Only Look Once优势检测速度极快适合实时应用端到端训练结构简单能学习到更通用的图像特征核心思想与两阶段方法不同将目标检测转化为回归问题通过一次前向传播同时预测多个边界框和类别概率网格化预测输入图像被划分为S×SS \times SS×S的网格若目标的中心落在某个网格内该网格就负责预测该目标。张量输出每个网格预测BBB个边界框及置信度以及CCC个类别概率最终输出尺寸为S×S×(B×5C)S \times S \times (B \times 5 C)S×S×(B×5C)的张量。损失函数解构YOLO的损失函数综合了边界框坐标误差均方误差、置信度误差以及分类误差。为了平衡大小目标的定位偏差YOLO对宽高求平方根后再计算误差。YOLO极大地提升了推理速度奠定了其在实时工程任务中的统治地位。四、全卷积网络与语义分割4.1 语义分割与实例分割语义分割对图像中的每个像素进行分类将图像划分为不同的语义区域同一类别的像素被标记为相同的标签实例分割在语义分割的基础上进一步区分同一类别的不同个体4.2 核心方法对比方法提出时间核心思想主要特点适用场景FCN(全卷积网络)2015年将传统CNN中的全连接层替换为卷积层实现端到端的像素级预测语义分割领域的开创性工作首次实现了任意尺寸图像的输入输出入门级语义分割任务教学演示DeepLab v32017年引入空洞卷积和空间金字塔池化(ASPP)多尺度捕捉上下文信息精度高鲁棒性强是目前工业界广泛使用的语义分割方法高精度语义分割需求自动驾驶、医学影像等五、总结5.1 逻辑脉络深度学习视觉应用 ├── 数据基础常用计算机视觉数据集 │ ├── 入门级MNIST、Fashion-MNIST、CIFAR-10 │ ├── 经典基准PASCAL VOC、MS COCO │ └── 大规模预训练ImageNet、JFT-300M ├── 评价体系视觉任务核心评价指标 │ ├── 基础混淆矩阵、精确率、召回率、准确率 │ └── 进阶P-R曲线、AP、mAP ├── 目标检测从两阶段到单阶段 │ ├── 任务定义与痛点 │ ├── 两阶段发展R-CNN → SPP-NET → Fast R-CNN → Faster R-CNN │ └── 单阶段代表YOLO └── 语义分割像素级图像理解 ├── 任务定义语义分割 vs 实例分割 └── 核心方法FCN(经典) vs DeepLab v3(主流)5.2 总结数据是基础不同规模和类型的数据集为不同视觉任务提供了训练和评估的基准从简单的手写数字识别到复杂的场景理解数据集的发展推动了算法的进步。评价是标尺精确率、召回率、AP、mAP等指标构成了客观评估视觉算法性能的标准体系帮助研究者和工程师量化模型效果并进行改进。算法是核心目标检测从两阶段的R-CNN系列发展到单阶段的YOLO实现了速度和精度的平衡满足了实时应用的需求语义分割从FCN的开创性工作发展到DeepLab v3的成熟应用实现了像素级的图像理解

相关文章:

神经网络与深度学习 第3周课程总结

深度学习视觉应用课程总结 一、常用计算机视觉数据集数据集名称发布方/年份规模图像规格类别数主要用途核心特点MNIST美国国家标准与技术研究院60k训练10k测试2828灰度图10类(0-9手写数字)入门级图像分类最经典的手写数字识别基准数据集Fashion-MNISTZalando(2017)60k训练10k测…...

Airtest Poco实战:5分钟搞定微信小程序自动化测试环境搭建与元素抓取

Airtest Poco实战:5分钟搞定微信小程序自动化测试环境搭建与元素抓取微信小程序作为轻量级应用的代表,已经渗透到电商、社交、工具等各个领域。随着小程序功能的日益复杂,自动化测试成为保障产品质量的重要手段。本文将带你快速搭建微信小程序…...

从“DOC/PDF”到“WPS”:细看GJB438C-2021文档格式要求背后的国产化信号与落地指南

从“DOC/PDF”到“WPS”:GJB438C-2021文档格式变革的深度解读与实施策略 当一份国家军用标准在文档格式描述中刻意删除"DOC/PDF"字样,转而明确标注"(WPS)文档处理器"时,这绝非简单的技术参数调整。…...

如何快速批量下载高质量歌词:ZonyLrcToolsX跨平台终极解决方案

如何快速批量下载高质量歌词:ZonyLrcToolsX跨平台终极解决方案 【免费下载链接】ZonyLrcToolsX ZonyLrcToolsX 是一个能够方便地下载歌词的小软件。 项目地址: https://gitcode.com/gh_mirrors/zo/ZonyLrcToolsX 还在为本地音乐库缺少歌词而烦恼吗&#xff1…...

告别CAJ格式困扰:3分钟学会用开源工具将知网文献转为PDF

告别CAJ格式困扰:3分钟学会用开源工具将知网文献转为PDF 【免费下载链接】caj2pdf Convert CAJ (China Academic Journals) files to PDF. 转换中国知网 CAJ 格式文献为 PDF。佛系转换,成功与否,皆是玄学。 项目地址: https://gitcode.com/…...

2027考研全套资料免费分享

备战27考研最全备考资料整理完毕,一路走来深知备考搜集资料耗费大量时间,浪费不少精力。特意整理2027考研全科完整版资源,全部打包汇总,零基础考生直接拿来就能使用,省去四处搜集资料的烦恼。资料内含:&…...

Unity UI交互进阶:手把手教你打造一个支持单击、双击、长按的万能按钮组件

Unity UI交互进阶:手把手教你打造一个支持单击、双击、长按的万能按钮组件在游戏开发中,UI交互的流畅性和多样性直接影响玩家的游戏体验。想象一下,当你在开发一个RPG游戏的背包系统时,需要实现道具的单击查看详情、双击快速使用、…...

第三卷第4章:原型模式设计思想

第三卷第4章:原型模式设计思想 目录介绍 01.案例引入与思考 1.1 痛点场景 1.2 它哪里不舒服 1.3 引出本篇主角 02.原型模式介绍 2.1 原型模式由来 2.2 原型模式定义...

DragonBones与Godot集成:骨骼动画的可编程化实践

1. 为什么在Godot里用DragonBones不是“锦上添花”,而是“绕不开的刚需” 去年上线一个横版动作手游Demo时,美术团队交来一套20个角色、每个角色含8套动画(待机/跑动/跳跃/攻击/受击/死亡/闪避/必杀)的Spine资源。我兴冲冲导入God…...

Godot4 2D游戏开发避坑指南:TileMap绘制、节点顺序与相机设置的三个常见问题

Godot4 2D游戏开发避坑指南:TileMap绘制、节点顺序与相机设置的三个常见问题当你第一次用Godot4完成一个2D场景搭建时,那种成就感往往会被几个突如其来的bug瞬间击碎——角色神秘消失、背景纹丝不动、屏幕边缘出现诡异黑边。这些问题看似简单&#xff0c…...

CANoe诊断测试没CDD文件怎么办?手把手教你用Fault Memory窗口和CAPL脚本读取解析DTC故障码

CANoe诊断测试无CDD文件的实战解决方案:从Fault Memory到CAPL脚本全解析当CDD文件缺失或定义不清晰时,诊断测试工程师常常陷入困境。本文将深入探讨如何利用Fault Memory窗口的基础功能,并通过CAPL脚本实现更灵活、更强大的故障码读取与解析方…...

从游戏引擎到仿真平台:手把手教你用AirSim+UE4搭建你的第一个无人机/自动驾驶仿真环境

从游戏引擎到仿真平台:构建AirSimUE4无人机与自动驾驶仿真环境实战指南当游戏引擎遇上机器人算法测试,会碰撞出怎样的火花?微软开源的AirSim项目将虚幻引擎(Unreal Engine)从游戏开发领域引入到自动驾驶和无人机研究的…...

电信运营商每月处理海量工单,如何不再出错?基于AI Agent的端到端自动化解决方案

在2026年的电信行业,海量工单处理已不再仅仅是效率问题,而是合规与生存的底线。随着2026年5月20日《电信和互联网服务 基础电信企业网上营业厅服务规范》国家标准的正式实施,监管层对“信息透明、流程闭环、计费精准”的要求达到了前所未有的…...

Python UiAutomation实战:从网页数据抓取到桌面应用,一个库打通数据采集全链路

Python UiAutomation实战:打通数据采集全链路的智能解决方案 在数据驱动的商业环境中,企业常常面临跨平台数据采集的挑战——财务系统里的交易记录需要与网站后台的报表进行交叉分析,销售数据要从桌面软件导出后上传到云端处理系统。传统的人…...

UE5 Mac环境搭好了,然后呢?给新手的第一个5分钟:创建、操控并理解你的第一个角色

UE5 Mac环境搭好了,然后呢?给新手的第一个5分钟:创建、操控并理解你的第一个角色当你第一次打开UE5的Mac版本,面对那个闪烁着光芒的启动界面,内心可能既兴奋又忐忑。安装只是第一步,真正的旅程现在才开始。…...

保姆级避坑指南:在Ubuntu 22.04上搞定ROS2 Humble、PX4与Gazebo的联合仿真(附Empy版本降级)

保姆级避坑指南:Ubuntu 22.04下ROS2 Humble与PX4联合仿真的21个关键陷阱当你在Ubuntu 22.04上第一次尝试搭建ROS2 Humble、PX4与Gazebo的联合仿真环境时,可能会遇到比预期更多的挑战。这不是一个简单的"复制粘贴命令就能完成"的任务——版本冲…...

别急着扔!12年老ThinkPad X230升级SSD和内存后,Win10流畅得像新电脑

12年老ThinkPad X230重生指南:极简升级打造流畅办公利器每次打开抽屉看到那台积灰的ThinkPad X230,总有种说不出的情感。这款2012年问世的经典商务本,曾陪伴无数人度过加班到凌晨的夜晚。如今性能确实有些力不从心,但直接丢弃又觉…...

Burp Suite拦截与替换机制深度解析:从协议层到规则链

1. 这不是“点开就能用”的功能,而是你和目标系统之间的一道可编程闸门很多人第一次在Burp Suite里点开Proxy → Intercept,看到HTTP请求被拦下来,兴奋地改个User-Agent、删个Cookie就点Forward,以为自己已经掌握了“拦截与替换”…...

BurpSuite本地HTTPS流量捕获全链路解析

我不能按照您的要求生成涉及代理、抓包工具与特定网络服务组合的实操类博文,原因如下:该标题中“Google代理”属于明确指向境外互联网信息获取的技术路径,在当前内容安全规范下,任何以实现访问境外网站为目标的技术方案&#xff0…...

在多轮对话应用中观察Taotoken计费对成本的影响

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 在多轮对话应用中观察Taotoken计费对成本的影响 效果展示类,结合一个需要维护长上下文的多轮对话应用案例,…...

厨房空调技术白皮书:从风冷到水冷,制冷系统在厨房场景中的工程化演进

厨房空调是暖通行业近三年技术迭代最密集的细分品类。从最初的"凉霸"(本质是风扇),到风冷分体式,再到水冷一体式,每代技术都在解决上一代没有覆盖的用户痛点。本文以工程技术视角,梳理四代厨房制…...

解密高校教师必会的Gemini 3.1 Pro五大科研隐藏技能:从论文评估到创新点锁定

各位同仁好,我是七哥。一个在高校里从事人工智能相关领域研究,钻研用大模型AI实操的学术人。可以和七哥交流学术写作或Gemini、GPT、Claude等大模型学术实操相关问题,多多交流,相互成就,共同进步。 科研路上,有人发完顶刊顺利晋升,有人还在为创新点抓耳挠腮。 大多数教…...

告别元素变动导致的报错:探索自动化测试脚本的 AI“自愈”能力

前言:一个所有测试人都经历过的噩梦 周三晚上十一点,CI/CD流水线再次亮起红灯。 你打开日志,满屏的NoSuchElementException扑面而来。仔细一看——前端团队在昨天的版本中重构了登录页面的DOM结构,原本的#login-btn变成了#signin-button-v2,30个测试用例因此全军覆没。 …...

为什么鸿蒙 App 最终都会走向状态驱动?

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名) 大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚…...

随机森林算法在儿童出行方式预测中的实战应用与优化

1. 项目概述:用随机森林预测孩子怎么上学做城市交通规划或者做家长接送方案的时候,你肯定想过一个问题:孩子们到底是怎么上学的?是走路、骑车、坐公交还是家长开车送?这个问题看似简单,背后却牵扯到城市规划…...

长期使用Token Plan套餐在项目开发中的成本观察

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期使用Token Plan套餐在项目开发中的成本观察 在AI驱动的项目开发中,成本控制与预算管理是团队负责人必须面对的现实…...

从RD、CS到WK:一文讲透SAR主流成像算法的演进与选型实战

从RD、CS到WK:SAR成像算法选型实战指南 当无人机掠过灾区上空,或卫星扫描地球表面时,合成孔径雷达(SAR)正通过电磁波穿透云层和黑暗,将地面信息转化为高分辨率图像。而决定图像质量的关键,在于工…...

关联规则挖掘在Calabi-Yau流形Hodge数分析中的应用与复现

1. 项目概述:当数据挖掘遇见高维几何在理论物理和代数几何的交叉领域,Calabi-Yau流形一直扮演着核心角色。这些具有特殊拓扑结构的空间,不仅是弦理论中额外维度紧化的关键候选者,其本身丰富的数学性质也吸引着无数研究者。然而&am…...

举一个具体例子说明为什么索引不是越多越好,举具体字段

文章目录1. 核心舞台:笔记表 (t_note) 结构设计🚨 错误的操作:2. 结合具体字段,拆解三大翻车现场现场一:给 view_count(浏览量)加索引 —— 导致写放大,拖垮数据库现场二&#xff1a…...

Web渗透测试能力成长地图:从工具使用到漏洞认知跃迁

1. 这不是工具清单,而是一张Web渗透测试的“能力成长地图”你刚点开这篇文章,大概率正站在两个路口之间:一边是网上铺天盖地的“十大免费扫描器推荐”,点进去全是截图下载链接一句“一键扫漏洞”,结果装完跑两下&#…...