当前位置: 首页 > news >正文

图像分类卷积神经网络模型综述

图像分类卷积神经网络模型综述

遇到问题

图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。
本地路径
输入:图片
输出:类别。

数据集

MNIST数据集

MNIST数据集是用来识别手写数字,由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的,其中包含手写数字的二进制图像:
本地路径
MNIST数据集将SD-3作为训练集,将SD-1作为测试集,但SD-3比SD-1更容易识别,原因在于SD-3来源于人工调查局雇员,
SD-1来源于高中生,以上表明分类结果要独立于完整样本集中训练集和测试集的选择,因此,通过混合MNIST数据集来建立新
的数据集很有必要,SD-1有58537幅图像,由500位作者书写,排列混乱,SSD-3的图像是顺序的,新的训练集共有60000幅图像,
一部分来源于SD-1的前250位作家书写,剩余部分来源于SD-3.新的测试集有60000幅图像,部分来源于SD-1剩余250位作家所书写,一部分来源于SD-3。

新数据集成为MNIST数据集,共10个类别:

  • 在LeNEt5实验中,训练集共60000幅图像,测试集共10000幅图像。
  • 数据集包含4个文件

train-images-idx3-ubyte:训练集图像 train-labels-idx1-ubyte:训练集标签 t10k-images-idx3-ubyte:测试集图像 t10k-labels-idx1-ubyte:测试集标签

图像像素28*28.
本地路径

IMagenET训练数据集

ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库,这些图像大约属于22000个类别,这些图像由互联网收集,并由人工使用亚马逊的机械土耳其众包工具贴上标签。
本地路径

从2010年开始,每年举行一次名为ImnageNet的大规模视觉识别挑战赛,ILSVRC使用ImageNet的子集

  • 类别,共1000个类别
  • 数量:总共大约有120万幅训练图像,其中,每个类别大约包含1000幅图像。
  • 验证集合:50000幅验证图像
  • 测试集:50000幅测试图像。

深度卷积网络模型在ImageNet数据集上进行训练和测试,衡量模型优劣的指标为top−1和top−5top-1和top-5top1top5错误率。

top-5错误率

对每幅图像同时预测5个标签类别,若预测的五个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率为top-5错误率。

top-1错误率

若对图像预测一次,预测错误的概率为top-1错误率。

CIFAR-10/100数据集

CIFAR-10数据集

本地路径

  • 分辨率为32 ×\times× 32
  • 类别:共10个类别
  • 数量:共有60 000幅彩色图像。其中,每个类别包含6 000幅图像。
  • 训练集:包含50000幅彩色图像。
  • 测试集:包含10 000幅彩色图像。图像取自10个类别,每个类别分别取1 000幅。

CIFAR-100数据集

• 类别:共100个类别
• 数量:共60000幅图像。其中,每个类别包含600幅图像
• 训练集:每个类别有500幅
• 测试集:每个类别有100幅

CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)

SVHN数据集

该数据集用来检测和识别街景图像中的门牌号,从大量街景图像的剪裁门牌号图像中收集,包含600000幅小图像。


这些图像以两种格式呈现

  • 一种是完整的数字,即原始的,分辨率可变的,彩色门牌号图像,每个图像包括检测到数字转录以及字符级的边界框。
  • 一种是剪裁数字,图像的尺寸被调整为固定的32×3232 \times 3232×32像素。
    SVHN数据集分为3个子集,73 257幅图像用于训练,26 032幅图像用于测试,531 131幅难度稍小的图像作为额外的训练数据。
    类别**:10个类别,数字1~9对应标签1~9,而“0”的标签则为10**
    •训练集:73257张图像
    •测试集:26032张图像
    •数据集格式**:带有字符级边界框的原始图像**。

评价标准

混淆矩阵

根据分类时预测与实际的情况,做出如下表格。

https://mp.weixin.qq.com/s/kAEZP20U0iRikuVKzeSe3w

准确率

准确率 = 正确预测的正反例数/总数
ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)ACC = (TP + TN)/(TP + TN + FP + FN) = (A + D)/(A + B + C + D)ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)

误分类率

误分类率 = 错误预测的正反例数/总数
误分类率 = 1 - ACC

查准率

查准率、精确率 = 正确预测到的正例数/预测正例总数。

召回率

查全率、召回率 = 正确预测到正例数/实际正例总数

F1 score

精确率与召回的调和平均值。

应用场景

  • 智能楼宇中,根据人脸识别,识别员工为本大楼员工时,自动进行打卡,自动按工作流程设定电梯。
  • 智能酒店中,根据人脸识别,办理自动入住,根据会员等级自动对接专属服务等。
  • 电商行业中,根据图像识别、搜索类似商品
  • 教育行业中,根据人脸特征,记录学生的听课状态(打盹、走神、小动作、举手等)。
  • 交通行业中,自动识别违规驾驶员
  • 新零售行业中,根据人脸识别会员,实现到店提醒、导购引导、定制化运营等
  • 公共交通中,实现刷脸支付。
  • 游戏行业中,虚拟现实相关游戏。

解决框架

图像分类解决框架如下

第一步

输入:图像image

第二步

图像特征提取
方法1: 传统算法(手工提取特征) - HOG、SIFT等
方法2:**深度学习(自动提取特征)- 卷神经网络(CNN)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)
)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)

相关文章:

图像分类卷积神经网络模型综述

图像分类卷积神经网络模型综述遇到问题 图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。 输入:图片 输出:类别。 数据集MNIST数据集 MNIST数据集是用来识别手写数字,由0~9共10类别组成。 从MNIST数据集的SD-1和…...

艹,终于在8226上把灯点亮了

接上次点文章ESP8266还可以这样玩这次,我终于学会了在ESP8266上面点亮LED灯了现在一个单片机的价格是几块,加上一个晶振,再来一个快递费,十几块钱还是需要的。所以能用这个ESP8266来当单片机玩,还是比较不错的可以在ub…...

脱不下孔乙己的长衫,现代的年轻人该怎么办?

“如果我没读过书,我还可以做别的工作,可我偏偏读过书” “学历本该是我的敲门砖,却成了我脱不下的长衫。” 最近,“脱下孔乙己的长衫”在网上火了。在鲁迅的原著小说中,孔乙己属于知识阶级(长衫客&#xf…...

Matlab实现遗传算法

遗传算法(Genetic Algorithm,GA)是一种基于生物进化理论的优化算法,通过模拟自然界中的遗传过程,来寻找最优解。 在遗传算法中,每个解被称为个体,每个个体由一组基因表示,每个基因是…...

评价公式-均方误差

均方误差的公式可以通过以下步骤推导得出: 假设有n个样本,真实值分别为y₁, y₂, ……, yₙ,预测值分别为ŷ₁, ŷ₂, ……, ŷₙ。 首先,我们可以定义误差(error)为预测值与真实值之间的差: …...

冲击蓝桥杯-时间问题(必考)

目录 前言: 一、时间问题 二、使用步骤 1、考察小时,分以及秒的使用、 2、判断日期是否合法 3、遍历日期 4、推算星期几 总结 前言: 时间问题可以说是蓝桥杯,最喜欢考的问题了,因为时间问题不涉及到算法和一些复杂的知识&#xf…...

10个杀手级应用的Python自动化脚本

10个杀手级应用的Python自动化脚本 重复的任务总是耗费时间和枯燥的。想象一下,逐一裁剪100张照片,或者做诸如Fetching APIs、纠正拼写和语法等任务,所有这些都需要大量的时间。为什么不把它们自动化呢?在今天的文章中&#xff0c…...

2023​史上最全软件测试工程师常见的面试题总结​ 备战金三银四

在这里我给大家推荐一套专门讲解软件测试简历,和面试题的视频,实测有效,建议大家可以看看! 春招必看已上岸,软件测试常问面试题【全网最详细,让你不再踩坑】_哔哩哔哩_bilibili春招必看已上岸,…...

2023年全国最新安全员精选真题及答案29

百分百题库提供安全员考试试题、建筑安全员考试预测题、建筑安全员ABC考试真题、安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 81.(单选题)同一建筑施工企业在12个月内连续发生(&…...

关系数据库的7个基本特征

文章目录关系数据库中的二维表─般满足7个基本特征:①元组(行)个数是有限的——元组个数有限性。 ②元组(行)均不相同——元组的唯—性。 ③元组(行)的次序可以任意交换——元组的次序无关性。 ④元组(行)的分量是不可分割的基本特征——元组分量的原子性。 ⑤属性(列)名各不相…...

2023QT面试题总会

1、Qt信号槽机制的优势 (1)类型安全。需要关联的信号和槽的签名必须是等同的,即信号的参数类型和参数个数同接收该信号的槽的参数类型和参数个数相同。不过,一个槽的参数个数是可以少于信号的参数个数的,但缺少的参数…...

【微信小程序】-- npm包总结 --- 基础篇完结(四十七)

💌 所属专栏:【微信小程序开发教程】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! &…...

Leetcode刷题之经典双指针问题

光是话不行,要紧的是做。 ——鲁迅 目录 一.什么是双指针问题? 二.最接近的三数之和 第一种暴力法: 第二种双指针: 三.移除元素 第一种暴力法: 第二种双指针: 四.盛最…...

C语言学习之路--指针篇

目录一、前言二、指针一、指针是什么1、指针的重要理解2、指针变量3、其他问题二、指针和指针类型1、指针—整数2、指针的解引用三、野指针1、野指针成因2、如何规避野指针四、指针的运算1、指针—指针2、指针的关系运算五、指针和数组六、二级指针七、指针数组一、前言 本人是…...

吃透Java面试题,建议收藏

本文已经收录到Github仓库,该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点,欢迎star~ Github地址:https://github.com/…...

华为OD机试题,用 Java 解【最差产品奖】问题 | 含解题说明

华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典本篇题目:最差产品奖 题目 A 公司准备对…...

Redis缓存优化

数据库在用户数量多,系统访问量大的时候,系统性能会下降,用户体验差。1.缓存优化作用:1.降低数据库的访问压力2.提高系统的访问性能3.从而提高用户体验实现思路:1.先查询缓存2.如果缓存有数据,直接返回3.如…...

少儿Python每日一题(23):楼梯问题

原题解答 本次的题目如下所示: 楼梯有n阶台阶,上楼可以一步上1阶,也可以一步上2阶,走完n阶台阶共有多少种不同的走法? 输入格式: 输入楼梯的阶梯数n 输出格式: 输出不同走法的个数 输入样例: 10 输出样例: 89 这是一道非常经典的题目,我们可以先寻找一下上楼梯的规律…...

【Leetcode】队列实现栈和栈实现队列

目录 一.【Leetcode225】队列实现栈 1.链接 2.题目再现 3.解法 二.【Leetcode232】栈实现队列 1.链接 2.题目再现 3.解法 一.【Leetcode225】队列实现栈 1.链接 队列实现栈 2.题目再现 3.解法 这道题给了我们两个队列,要求去实现栈; 首先&…...

(一)Tomcat源码阅读:查看官网,厘清大概轮廓

一、进入官网 点击以下链接进入官网:Apache Tomcat - Welcome!,点击介绍进入介绍,查看tomcat的项目结构。 二、查看项目结构 进入介绍后,我们可以看到下面的这些东西,这些对于tomcat是比较重要的,我们要一一对其进行解读。 这段…...

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中,时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志,到供应链系统的物流节点时间戳,时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库,其日期时间类型的…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...

Yolov8 目标检测蒸馏学习记录

yolov8系列模型蒸馏基本流程,代码下载:这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中,**知识蒸馏(Knowledge Distillation)**被广泛应用,作为提升模型…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由:大部分的转换软件需要收费,要么功能不齐全,而开会员又用不了几次浪费钱,借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

GO协程(Goroutine)问题总结

在使用Go语言来编写代码时,遇到的一些问题总结一下 [参考文档]:https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函数默认的Goroutine 场景再现: 今天在看到这个教程的时候,在自己的电…...

关于uniapp展示PDF的解决方案

在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项&#xff1a; 一、安装依赖 安装 pdf-vue3 和 PDF.js 核心库&#xff1a; npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

【Elasticsearch】Elasticsearch 在大数据生态圈的地位 实践经验

Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...

Monorepo架构: Nx Cloud 扩展能力与缓存加速

借助 Nx Cloud 实现项目协同与加速构建 1 &#xff09; 缓存工作原理分析 在了解了本地缓存和远程缓存之后&#xff0c;我们来探究缓存是如何工作的。以计算文件的哈希串为例&#xff0c;若后续运行任务时文件哈希串未变&#xff0c;系统会直接使用对应的输出和制品文件。 2 …...