当前位置: 首页 > news >正文

学习记录(11):训练图片分类的算法


文章目录

  • 一、卷积神经网络(CNN)架构
    • 1. ResNet(Residual Networks)
    • 2. DenseNet(Densely Connected Convolutional Networks)
    • 3. EfficientNet
    • 4. MobileNet
  • 二、变换器(Transformer)架构
    • 1. Vision Transformer(ViT)
    • 2. Swin Transformer
  • 三、混合架构
    • 1. ConvNeXt
    • 2. CoAtNet(Convolutional Attention Network)
  • 四、自监督学习和对比学习
    • 1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)
    • 2. BYOL(Bootstrap Your Own Latent)
  • 五 、大规模预训练学习
    • 1. CLIP(Contrastive Language–Image Pretraining)
    • 2. DINO(Self-Distillation with No Labels)


一、卷积神经网络(CNN)架构

1. ResNet(Residual Networks)

特点:引入了残差连接(skip connections),解决了深层网络中的梯度消失问题。
代表模型:ResNet-50、ResNet-101、ResNet-152。
优势:在ImageNet等大型数据集上表现优异,训练稳定。

2. DenseNet(Densely Connected Convolutional Networks)

特点:每一层都与前面的所有层直接连接,增强了特征复用。
代表模型:DenseNet-121、DenseNet-169、DenseNet-201。
优势:参数更少,特征传递和梯度流动更好。

3. EfficientNet

特点:通过复合缩放方法(compound scaling)系统地缩放网络的深度、宽度和分辨率。
代表模型:EfficientNet-B0到EfficientNet-B7。
优势:在参数量和计算量较少的情况下,达到了更高的准确率。

4. MobileNet

特点:设计轻量级网络,适用于移动和嵌入式设备。
代表模型:MobileNetV1、MobileNetV2、MobileNetV3。
优势:计算效率高,适合资源受限的环境。

二、变换器(Transformer)架构

1. Vision Transformer(ViT)

特点:将图像分割成固定大小的patches,然后将这些patches作为输入序列,使用标准的Transformer架构进行处理。
优势:在大规模数据集上训练时,能够达到或超过传统CNN的性能。

2. Swin Transformer

特点:引入了层次化的窗口注意力机制,能够在不同尺度上捕捉图像特征。
优势:在多个视觉任务中表现出色,包括图像分类、目标检测和语义分割。

三、混合架构

1. ConvNeXt

特点:结合了CNN和Transformer的优点,采用了现代化的设计理念,如LayerNorm、GELU激活函数等。
优势:在保持CNN高效性的同时,提升了模型的性能。

2. CoAtNet(Convolutional Attention Network)

特点:结合了卷积和注意力机制,利用卷积捕捉局部特征,利用注意力机制捕捉全局特征。
优势:在多个视觉任务中表现优异,具有较好的泛化能力。

四、自监督学习和对比学习

1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)

特点:通过对比学习方法,在没有标签的数据上进行预训练,然后在有标签的数据上进行微调。
优势:能够在没有大量标注数据的情况下,学习到高质量的特征表示。

2. BYOL(Bootstrap Your Own Latent)

特点:通过自我监督学习方法,不需要负样本对,直接优化特征表示。
优势:在多个数据集上表现出色,训练稳定。

五 、大规模预训练学习

1. CLIP(Contrastive Language–Image Pretraining)

特点:通过对比学习,将图像和文本嵌入到同一个向量空间中,能够处理多模态任务。
优势:在多个下游任务中表现优异,包括图像分类、图像生成、文本生成等。

2. DINO(Self-Distillation with No Labels)

特点:通过自监督学习方法,利用教师-学生模型进行特征提取。
优势:在没有标签的数据上进行预训练,然后在有标签的数据上进行微调,表现出色。

总结
目前,图像分类领域的最先进算法主要集中在深度学习模型,特别是卷积神经网络(CNN)和变换器(Transformer)架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求,可以考虑使用Vision Transformer(ViT)或Swin Transformer等变换器架构;对于资源受限的环境,可以考虑使用MobileNet或EfficientNet等轻量级模型。

相关文章:

学习记录(11):训练图片分类的算法

文章目录 一、卷积神经网络(CNN)架构1. ResNet(Residual Networks)2. DenseNet(Densely Connected Convolutional Networks)3. EfficientNet4. MobileNet 二、变换器(Transformer)架…...

上网防泄密,这些雷区不要碰!九招教你如何防泄密

李明:“最近看到不少关于信息泄露的新闻,真是让人担忧。咱们在工作中,稍有不慎就可能触碰到泄密的雷区啊。” 王芳:“确实,网络安全无小事。尤其是我们这种经常需要处理敏感信息的岗位,更得小心谨慎。那你…...

数据库篇--八股文学习第十五天| 一条SQL查询语句是如何执行的?,事务的四大特性有哪些?,数据库的事务隔离级别有哪些?

1、一条SQL查询语句是如何执行的? 答: 连接器:连接器负责跟客户端建立连接、获取权限、维持和管理连接。查询缓存: MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过的语句及其结果可能会以…...

elk + filebeat + kafka实验和RSync同步

elk filebeat kafka实验和RSync同步 elk filebeat kafka实验 filebeatkafkaELK实验的操作步骤: #在装有nginx的主机上解压filebeat压缩包 [roottest4 opt]# tar -xf filebeat-6.7.2-linux-x86_64.tar.gz #将解压后的压缩包更改名字 [roottest4 opt]# mv file…...

子类到底能继承父类中的哪些内容?

...

【超详细公式】曝光值(EV)、光圈(AV)、快门(TV)、感光度(SV)、照度(Lux)

文章目录 术语 E V A V T V − S V EV AV TV - SV EVAVTV−SV L u x 2.5 2 E V Lux 2.5 \times 2^{EV} Lux2.52EV通常环境光照度参照表 术语 术语全称中文名EVExposure Value曝光值AVAperture Value光圈值TVTime Value快门值SVSensitive Value感光值BVBrightness Value…...

【Java】增强for遍历集合。

增强for遍历 增强for底层就是迭代器。所有的单列集合和数组才能使用增强for遍历。 在循环过程中无法对集合中的元素进行修改。 package demo;import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;public class submit {public static void …...

【Qt】管理创建子项目

新建项目 打开是这样,无法添加子项目 pro添加 TEMPLATE subdirs有了 点击添加子项目 其他项目-子目录项目 (空的子项目,只有pro,无h、cpp) 子目录名字 直接创建子目录下子项目 选择有无界面或者其他类型项目 …...

力扣——238.移动零

题目 思路 利用双指针,先找到第一个为0的地方指向,指针2指向下一个,指针1之前是已经处理好的数据,指针2进行遍历,遇到非零则与指针1数据交换,然后指针1。 代码 class Solution { public:void moveZeroes(…...

编程的魅力

在数字化时代,编程已不仅仅是计算机科学家的专属领地,它正逐渐渗透到我们生活的每一个角落,成为连接现实与虚拟、创新与传统的重要桥梁。编程,这一门融合了逻辑、创造与解决问题的艺术,正以其独特的魅力引领着新一轮的…...

想提升跨境电商运营?浏览器多开为你助力!

在日常生活中,我们在使用浏览器访问网站时,可能会遇到一个尴尬的情况:无法同时登录一个网站的多个账号。对于跨境电商卖家来说,这种情况更为常见。例如,当我们需要在亚马逊管理店铺时,我们可能已经使用A账号…...

使用QML的ListView自制树形结构图TreeView

背景 感觉QML自带的TreeView不是很好用,用在文件路径树形结构比较多,但是想用在自己数据里,就不太方便了,所以自己做一个。 用‘ListView里迭代ListView’的方法,制作树形结构,成果图: 代码…...

2.MySQL面试题之索引

1. 为什么索引要用 B树来实现呢,而不是 B 树? MySQL 选择使用 B 树来实现索引,而不是 B 树,主要是基于以下几个原因: 1.1 数据存储和访问效率 B 树:在 B 树中,数据和索引都存储在每个节点中。…...

复制CodeIgniter新版的array_group_by辅助函数

很需要php数组的group_by功能,发现codeIgniter4.5新版中已有这个辅助函数,但我用的codeIgniter4.14没有,又不想升级php等一系列东西,就想把把codeIgniter4.5中array_group_by函数复制过来用。 先试着把新版本的array_helper文件及…...

合并两个 ES (Elasticsearch) 的数据

要将两个 Elasticsearch 实例中的同一个索引(/test_index)的数据合并到一个实例中,你可以按照以下步骤操作: 假设 Elasticsearch 1 (ES1) 和 Elasticsearch 2 (ES2) 都有相同的索引 /test_index。希望将 ES2 中的数据合并到 ES1 中。步骤 导出 ES2 的数据:使用 Elasticse…...

Linux网络协议.之 tcp,udp,socket网络编程(四).之网络转换函数htonl,ntohs等介绍

字节转换函数 把给定系统所采用的字节序称为主机字节序,为了避免不同类别主机之间在数据交换时由于对于字 节序的不同而导致的差错,引入了网络字节序。 主机字节序到网络字节序 u_long htonl(u_long hostlong); u_short htons(u_short short); 网络字节…...

LXC和udev知识点

1 POSIX pthread_create原理 1)fork()、pthread_create()、vfork()对应的系统调用分别是sys_fork()、sys_clone()、sys_vfork(),它们在内核中都是通过do_fork()实现的。 2)系统中所有的进程都组织在init_task.tasks链表下面,每个进…...

基于springboot+vue+uniapp的智慧校园管理系统小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…...

论文辅导 | 基于概率密度估计与时序Transformer网络的风功率日前区间预测

辅导文章 模型描述 本文所提出的时序优化Transformer 结构,该模型从结构上看由三部分组成:向量映射、编码器和解码器。编码器输入为数值天气预报数据以及相应的时间编码。解码器输入为预测日之前输出功率历史数据以及相应的时间编码。这些数据在经过向量…...

金蝶云星空单据体数量汇总-分组列信息

文章目录 金蝶云星空单据体数量汇总-分组列信息BOS配置效果展示 金蝶云星空单据体数量汇总-分组列信息 BOS配置 效果展示...

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...

佰力博科技与您探讨热释电测量的几种方法

热释电的测量主要涉及热释电系数的测定,这是表征热释电材料性能的重要参数。热释电系数的测量方法主要包括静态法、动态法和积分电荷法。其中,积分电荷法最为常用,其原理是通过测量在电容器上积累的热释电电荷,从而确定热释电系数…...

Java求职者面试指南:计算机基础与源码原理深度解析

Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...

LangChain 中的文档加载器(Loader)与文本切分器(Splitter)详解《二》

🧠 LangChain 中 TextSplitter 的使用详解:从基础到进阶(附代码) 一、前言 在处理大规模文本数据时,特别是在构建知识库或进行大模型训练与推理时,文本切分(Text Splitting) 是一个…...

数据库正常,但后端收不到数据原因及解决

从代码和日志来看,后端SQL查询确实返回了数据,但最终user对象却为null。这表明查询结果没有正确映射到User对象上。 在前后端分离,并且ai辅助开发的时候,很容易出现前后端变量名不一致情况,还不报错,只是单…...

ZYNQ学习记录FPGA(二)Verilog语言

一、Verilog简介 1.1 HDL(Hardware Description language) 在解释HDL之前,先来了解一下数字系统设计的流程:逻辑设计 -> 电路实现 -> 系统验证。 逻辑设计又称前端,在这个过程中就需要用到HDL,正文…...

虚拟机网络不通的问题(这里以win10的问题为主,模式NAT)

当我们网关配置好了,DNS也配置好了,最后在虚拟机里还是无法访问百度的网址。 第一种情况: 我们先考虑一下,网关的IP是否和虚拟机编辑器里的IP一样不,如果不一样需要更改一下,因为我们访问百度需要从物理机…...

2025-06-01-Hive 技术及应用介绍

Hive 技术及应用介绍 参考资料 Hive 技术原理Hive 架构及应用介绍Hive - 小海哥哥 de - 博客园https://cwiki.apache.org/confluence/display/Hive/Home(官方文档) Apache Hive 是基于 Hadoop 构建的数据仓库工具,它为海量结构化数据提供类 SQL 的查询能力&#xf…...

稻米分类和病害检测数据集(猫脸码客第237期)

稻米分类图像数据集:驱动农业智能化发展的核心资源 引言 在全球农业体系中,稻米作为最关键的粮食作物之一,其品种多样性为人类饮食提供了丰富选择。然而,传统稻米分类方法高度依赖人工经验,存在效率低、主观性强等缺…...

(33)课54:3 张表的 join-on 连接举例,多表查询总结。数据库编程补述及游标综合例题。静态 sqL与动态sqL(可带参数)

(112)3 张表的 join-on 连接举例 : (113) 多表查询总结 : (114)数据库编程补述 : 综合例题 : 以上没有动手练习,不知道这样的语法是否…...