图像分类卷积神经网络模型综述
图像分类卷积神经网络模型综述
遇到问题
图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。
输入:图片
输出:类别。
数据集
MNIST数据集
MNIST数据集是用来识别手写数字,由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的,其中包含手写数字的二进制图像:
MNIST数据集将SD-3作为训练集,将SD-1作为测试集,但SD-3比SD-1更容易识别,原因在于SD-3来源于人工调查局雇员,
SD-1来源于高中生,以上表明分类结果要独立于完整样本集中训练集和测试集的选择,因此,通过混合MNIST数据集来建立新
的数据集很有必要,SD-1有58537幅图像,由500位作者书写,排列混乱,SSD-3的图像是顺序的,新的训练集共有60000幅图像,
一部分来源于SD-1的前250位作家书写,剩余部分来源于SD-3.新的测试集有60000幅图像,部分来源于SD-1剩余250位作家所书写,一部分来源于SD-3。
新数据集成为MNIST数据集,共10个类别:
- 在LeNEt5实验中,训练集共60000幅图像,测试集共10000幅图像。
- 数据集包含4个文件
train-images-idx3-ubyte:训练集图像 train-labels-idx1-ubyte:训练集标签 t10k-images-idx3-ubyte:测试集图像 t10k-labels-idx1-ubyte:测试集标签
图像像素28*28.
IMagenET训练数据集
ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库,这些图像大约属于22000个类别,这些图像由互联网收集,并由人工使用亚马逊的机械土耳其众包工具贴上标签。
从2010年开始,每年举行一次名为ImnageNet的大规模视觉识别挑战赛,ILSVRC使用ImageNet的子集
- 类别,共1000个类别
- 数量:总共大约有120万幅训练图像,其中,每个类别大约包含1000幅图像。
- 验证集合:50000幅验证图像
- 测试集:50000幅测试图像。
深度卷积网络模型在ImageNet数据集上进行训练和测试,衡量模型优劣的指标为top−1和top−5top-1和top-5top−1和top−5错误率。
top-5错误率
对每幅图像同时预测5个标签类别,若预测的五个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率为top-5错误率。
top-1错误率
若对图像预测一次,预测错误的概率为top-1错误率。
CIFAR-10/100数据集
CIFAR-10数据集
- 分辨率为32 ×\times× 32
- 类别:共10个类别
- 数量:共有60 000幅彩色图像。其中,每个类别包含6 000幅图像。
- 训练集:包含50000幅彩色图像。
- 测试集:包含10 000幅彩色图像。图像取自10个类别,每个类别分别取1 000幅。
CIFAR-100数据集
• 类别:共100个类别
• 数量:共60000幅图像。其中,每个类别包含600幅图像
• 训练集:每个类别有500幅
• 测试集:每个类别有100幅
CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)
SVHN数据集
该数据集用来检测和识别街景图像中的门牌号,从大量街景图像的剪裁门牌号图像中收集,包含600000幅小图像。
这些图像以两种格式呈现
- 一种是完整的数字,即原始的,分辨率可变的,彩色门牌号图像,每个图像包括检测到数字转录以及字符级的边界框。
- 一种是剪裁数字,图像的尺寸被调整为固定的32×3232 \times 3232×32像素。
SVHN数据集分为3个子集,73 257幅图像用于训练,26 032幅图像用于测试,531 131幅难度稍小的图像作为额外的训练数据。
类别**:10个类别,数字1~9对应标签1~9,而“0”的标签则为10**
•训练集:73257张图像
•测试集:26032张图像
•数据集格式**:带有字符级边界框的原始图像**。
评价标准
混淆矩阵
根据分类时预测与实际的情况,做出如下表格。
https://mp.weixin.qq.com/s/kAEZP20U0iRikuVKzeSe3w
准确率
准确率 = 正确预测的正反例数/总数
ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)ACC = (TP + TN)/(TP + TN + FP + FN) = (A + D)/(A + B + C + D)ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)
误分类率
误分类率 = 错误预测的正反例数/总数
误分类率 = 1 - ACC
查准率
查准率、精确率 = 正确预测到的正例数/预测正例总数。
召回率
查全率、召回率 = 正确预测到正例数/实际正例总数
F1 score
精确率与召回的调和平均值。
应用场景
- 智能楼宇中,根据人脸识别,识别员工为本大楼员工时,自动进行打卡,自动按工作流程设定电梯。
- 智能酒店中,根据人脸识别,办理自动入住,根据会员等级自动对接专属服务等。
- 电商行业中,根据图像识别、搜索类似商品。
- 教育行业中,根据人脸特征,记录学生的听课状态(打盹、走神、小动作、举手等)。
- 交通行业中,自动识别违规驾驶员
- 新零售行业中,根据人脸识别会员,实现到店提醒、导购引导、定制化运营等
- 公共交通中,实现刷脸支付。
- 游戏行业中,虚拟现实相关游戏。
解决框架
图像分类解决框架如下
第一步
输入:图像image
第二步
图像特征提取
方法1: 传统算法(手工提取特征) - HOG、SIFT等
方法2:**深度学习(自动提取特征)- 卷神经网络(CNN)、自注意机制(Transformer)**等
第三步
分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax
第四步
输出:类别(label)
)、自注意机制(Transformer)**等
第三步
分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax
第四步
输出:类别(label)
相关文章:

图像分类卷积神经网络模型综述
图像分类卷积神经网络模型综述遇到问题 图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。 输入:图片 输出:类别。 数据集MNIST数据集 MNIST数据集是用来识别手写数字,由0~9共10类别组成。 从MNIST数据集的SD-1和…...

艹,终于在8226上把灯点亮了
接上次点文章ESP8266还可以这样玩这次,我终于学会了在ESP8266上面点亮LED灯了现在一个单片机的价格是几块,加上一个晶振,再来一个快递费,十几块钱还是需要的。所以能用这个ESP8266来当单片机玩,还是比较不错的可以在ub…...

脱不下孔乙己的长衫,现代的年轻人该怎么办?
“如果我没读过书,我还可以做别的工作,可我偏偏读过书” “学历本该是我的敲门砖,却成了我脱不下的长衫。” 最近,“脱下孔乙己的长衫”在网上火了。在鲁迅的原著小说中,孔乙己属于知识阶级(长衫客…...
Matlab实现遗传算法
遗传算法(Genetic Algorithm,GA)是一种基于生物进化理论的优化算法,通过模拟自然界中的遗传过程,来寻找最优解。 在遗传算法中,每个解被称为个体,每个个体由一组基因表示,每个基因是…...
评价公式-均方误差
均方误差的公式可以通过以下步骤推导得出: 假设有n个样本,真实值分别为y₁, y₂, ……, yₙ,预测值分别为ŷ₁, ŷ₂, ……, ŷₙ。 首先,我们可以定义误差(error)为预测值与真实值之间的差: …...

冲击蓝桥杯-时间问题(必考)
目录 前言: 一、时间问题 二、使用步骤 1、考察小时,分以及秒的使用、 2、判断日期是否合法 3、遍历日期 4、推算星期几 总结 前言: 时间问题可以说是蓝桥杯,最喜欢考的问题了,因为时间问题不涉及到算法和一些复杂的知识…...
10个杀手级应用的Python自动化脚本
10个杀手级应用的Python自动化脚本 重复的任务总是耗费时间和枯燥的。想象一下,逐一裁剪100张照片,或者做诸如Fetching APIs、纠正拼写和语法等任务,所有这些都需要大量的时间。为什么不把它们自动化呢?在今天的文章中,…...

2023史上最全软件测试工程师常见的面试题总结 备战金三银四
在这里我给大家推荐一套专门讲解软件测试简历,和面试题的视频,实测有效,建议大家可以看看! 春招必看已上岸,软件测试常问面试题【全网最详细,让你不再踩坑】_哔哩哔哩_bilibili春招必看已上岸,…...
2023年全国最新安全员精选真题及答案29
百分百题库提供安全员考试试题、建筑安全员考试预测题、建筑安全员ABC考试真题、安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 81.(单选题)同一建筑施工企业在12个月内连续发生(&…...

关系数据库的7个基本特征
文章目录关系数据库中的二维表─般满足7个基本特征:①元组(行)个数是有限的——元组个数有限性。 ②元组(行)均不相同——元组的唯—性。 ③元组(行)的次序可以任意交换——元组的次序无关性。 ④元组(行)的分量是不可分割的基本特征——元组分量的原子性。 ⑤属性(列)名各不相…...
2023QT面试题总会
1、Qt信号槽机制的优势 (1)类型安全。需要关联的信号和槽的签名必须是等同的,即信号的参数类型和参数个数同接收该信号的槽的参数类型和参数个数相同。不过,一个槽的参数个数是可以少于信号的参数个数的,但缺少的参数…...

【微信小程序】-- npm包总结 --- 基础篇完结(四十七)
💌 所属专栏:【微信小程序开发教程】 😀 作 者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &…...

Leetcode刷题之经典双指针问题
光是话不行,要紧的是做。 ——鲁迅 目录 一.什么是双指针问题? 二.最接近的三数之和 第一种暴力法: 第二种双指针: 三.移除元素 第一种暴力法: 第二种双指针: 四.盛最…...

C语言学习之路--指针篇
目录一、前言二、指针一、指针是什么1、指针的重要理解2、指针变量3、其他问题二、指针和指针类型1、指针—整数2、指针的解引用三、野指针1、野指针成因2、如何规避野指针四、指针的运算1、指针—指针2、指针的关系运算五、指针和数组六、二级指针七、指针数组一、前言 本人是…...

吃透Java面试题,建议收藏
本文已经收录到Github仓库,该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点,欢迎star~ Github地址:https://github.com/…...

华为OD机试题,用 Java 解【最差产品奖】问题 | 含解题说明
华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典本篇题目:最差产品奖 题目 A 公司准备对…...

Redis缓存优化
数据库在用户数量多,系统访问量大的时候,系统性能会下降,用户体验差。1.缓存优化作用:1.降低数据库的访问压力2.提高系统的访问性能3.从而提高用户体验实现思路:1.先查询缓存2.如果缓存有数据,直接返回3.如…...
少儿Python每日一题(23):楼梯问题
原题解答 本次的题目如下所示: 楼梯有n阶台阶,上楼可以一步上1阶,也可以一步上2阶,走完n阶台阶共有多少种不同的走法? 输入格式: 输入楼梯的阶梯数n 输出格式: 输出不同走法的个数 输入样例: 10 输出样例: 89 这是一道非常经典的题目,我们可以先寻找一下上楼梯的规律…...

【Leetcode】队列实现栈和栈实现队列
目录 一.【Leetcode225】队列实现栈 1.链接 2.题目再现 3.解法 二.【Leetcode232】栈实现队列 1.链接 2.题目再现 3.解法 一.【Leetcode225】队列实现栈 1.链接 队列实现栈 2.题目再现 3.解法 这道题给了我们两个队列,要求去实现栈; 首先&…...

(一)Tomcat源码阅读:查看官网,厘清大概轮廓
一、进入官网 点击以下链接进入官网:Apache Tomcat - Welcome!,点击介绍进入介绍,查看tomcat的项目结构。 二、查看项目结构 进入介绍后,我们可以看到下面的这些东西,这些对于tomcat是比较重要的,我们要一一对其进行解读。 这段…...

华为云AI开发平台ModelArts
华为云ModelArts:重塑AI开发流程的“智能引擎”与“创新加速器”! 在人工智能浪潮席卷全球的2025年,企业拥抱AI的意愿空前高涨,但技术门槛高、流程复杂、资源投入巨大的现实,却让许多创新构想止步于实验室。数据科学家…...
FFmpeg 低延迟同屏方案
引言 在实时互动需求激增的当下,无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作,还是游戏直播的画面实时传输,低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架,凭借其灵活的编解码、数据…...

python/java环境配置
环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...
基于服务器使用 apt 安装、配置 Nginx
🧾 一、查看可安装的 Nginx 版本 首先,你可以运行以下命令查看可用版本: apt-cache madison nginx-core输出示例: nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

CentOS下的分布式内存计算Spark环境部署
一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架,相比 MapReduce 具有以下核心优势: 内存计算:数据可常驻内存,迭代计算性能提升 10-100 倍(文档段落:3-79…...

HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...

【从零开始学习JVM | 第四篇】类加载器和双亲委派机制(高频面试题)
前言: 双亲委派机制对于面试这块来说非常重要,在实际开发中也是经常遇见需要打破双亲委派的需求,今天我们一起来探索一下什么是双亲委派机制,在此之前我们先介绍一下类的加载器。 目录 编辑 前言: 类加载器 1. …...

毫米波雷达基础理论(3D+4D)
3D、4D毫米波雷达基础知识及厂商选型 PreView : https://mp.weixin.qq.com/s/bQkju4r6med7I3TBGJI_bQ 1. FMCW毫米波雷达基础知识 主要参考博文: 一文入门汽车毫米波雷达基本原理 :https://mp.weixin.qq.com/s/_EN7A5lKcz2Eh8dLnjE19w 毫米波雷达基础…...
人工智能 - 在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型
在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型。这些平台各有侧重,适用场景差异显著。下面我将从核心功能定位、典型应用场景、真实体验痛点、选型决策关键点进行拆解,并提供具体场景下的推荐方案。 一、核心功能定位速览 平台核心定位技术栈亮…...