当前位置: 首页 > news >正文

学习记录(11):训练图片分类的算法


文章目录

  • 一、卷积神经网络(CNN)架构
    • 1. ResNet(Residual Networks)
    • 2. DenseNet(Densely Connected Convolutional Networks)
    • 3. EfficientNet
    • 4. MobileNet
  • 二、变换器(Transformer)架构
    • 1. Vision Transformer(ViT)
    • 2. Swin Transformer
  • 三、混合架构
    • 1. ConvNeXt
    • 2. CoAtNet(Convolutional Attention Network)
  • 四、自监督学习和对比学习
    • 1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)
    • 2. BYOL(Bootstrap Your Own Latent)
  • 五 、大规模预训练学习
    • 1. CLIP(Contrastive Language–Image Pretraining)
    • 2. DINO(Self-Distillation with No Labels)


一、卷积神经网络(CNN)架构

1. ResNet(Residual Networks)

特点:引入了残差连接(skip connections),解决了深层网络中的梯度消失问题。
代表模型:ResNet-50、ResNet-101、ResNet-152。
优势:在ImageNet等大型数据集上表现优异,训练稳定。

2. DenseNet(Densely Connected Convolutional Networks)

特点:每一层都与前面的所有层直接连接,增强了特征复用。
代表模型:DenseNet-121、DenseNet-169、DenseNet-201。
优势:参数更少,特征传递和梯度流动更好。

3. EfficientNet

特点:通过复合缩放方法(compound scaling)系统地缩放网络的深度、宽度和分辨率。
代表模型:EfficientNet-B0到EfficientNet-B7。
优势:在参数量和计算量较少的情况下,达到了更高的准确率。

4. MobileNet

特点:设计轻量级网络,适用于移动和嵌入式设备。
代表模型:MobileNetV1、MobileNetV2、MobileNetV3。
优势:计算效率高,适合资源受限的环境。

二、变换器(Transformer)架构

1. Vision Transformer(ViT)

特点:将图像分割成固定大小的patches,然后将这些patches作为输入序列,使用标准的Transformer架构进行处理。
优势:在大规模数据集上训练时,能够达到或超过传统CNN的性能。

2. Swin Transformer

特点:引入了层次化的窗口注意力机制,能够在不同尺度上捕捉图像特征。
优势:在多个视觉任务中表现出色,包括图像分类、目标检测和语义分割。

三、混合架构

1. ConvNeXt

特点:结合了CNN和Transformer的优点,采用了现代化的设计理念,如LayerNorm、GELU激活函数等。
优势:在保持CNN高效性的同时,提升了模型的性能。

2. CoAtNet(Convolutional Attention Network)

特点:结合了卷积和注意力机制,利用卷积捕捉局部特征,利用注意力机制捕捉全局特征。
优势:在多个视觉任务中表现优异,具有较好的泛化能力。

四、自监督学习和对比学习

1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)

特点:通过对比学习方法,在没有标签的数据上进行预训练,然后在有标签的数据上进行微调。
优势:能够在没有大量标注数据的情况下,学习到高质量的特征表示。

2. BYOL(Bootstrap Your Own Latent)

特点:通过自我监督学习方法,不需要负样本对,直接优化特征表示。
优势:在多个数据集上表现出色,训练稳定。

五 、大规模预训练学习

1. CLIP(Contrastive Language–Image Pretraining)

特点:通过对比学习,将图像和文本嵌入到同一个向量空间中,能够处理多模态任务。
优势:在多个下游任务中表现优异,包括图像分类、图像生成、文本生成等。

2. DINO(Self-Distillation with No Labels)

特点:通过自监督学习方法,利用教师-学生模型进行特征提取。
优势:在没有标签的数据上进行预训练,然后在有标签的数据上进行微调,表现出色。

总结
目前,图像分类领域的最先进算法主要集中在深度学习模型,特别是卷积神经网络(CNN)和变换器(Transformer)架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求,可以考虑使用Vision Transformer(ViT)或Swin Transformer等变换器架构;对于资源受限的环境,可以考虑使用MobileNet或EfficientNet等轻量级模型。

相关文章:

学习记录(11):训练图片分类的算法

文章目录 一、卷积神经网络(CNN)架构1. ResNet(Residual Networks)2. DenseNet(Densely Connected Convolutional Networks)3. EfficientNet4. MobileNet 二、变换器(Transformer)架…...

上网防泄密,这些雷区不要碰!九招教你如何防泄密

李明:“最近看到不少关于信息泄露的新闻,真是让人担忧。咱们在工作中,稍有不慎就可能触碰到泄密的雷区啊。” 王芳:“确实,网络安全无小事。尤其是我们这种经常需要处理敏感信息的岗位,更得小心谨慎。那你…...

数据库篇--八股文学习第十五天| 一条SQL查询语句是如何执行的?,事务的四大特性有哪些?,数据库的事务隔离级别有哪些?

1、一条SQL查询语句是如何执行的? 答: 连接器:连接器负责跟客户端建立连接、获取权限、维持和管理连接。查询缓存: MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过的语句及其结果可能会以…...

elk + filebeat + kafka实验和RSync同步

elk filebeat kafka实验和RSync同步 elk filebeat kafka实验 filebeatkafkaELK实验的操作步骤: #在装有nginx的主机上解压filebeat压缩包 [roottest4 opt]# tar -xf filebeat-6.7.2-linux-x86_64.tar.gz #将解压后的压缩包更改名字 [roottest4 opt]# mv file…...

子类到底能继承父类中的哪些内容?

...

【超详细公式】曝光值(EV)、光圈(AV)、快门(TV)、感光度(SV)、照度(Lux)

文章目录 术语 E V A V T V − S V EV AV TV - SV EVAVTV−SV L u x 2.5 2 E V Lux 2.5 \times 2^{EV} Lux2.52EV通常环境光照度参照表 术语 术语全称中文名EVExposure Value曝光值AVAperture Value光圈值TVTime Value快门值SVSensitive Value感光值BVBrightness Value…...

【Java】增强for遍历集合。

增强for遍历 增强for底层就是迭代器。所有的单列集合和数组才能使用增强for遍历。 在循环过程中无法对集合中的元素进行修改。 package demo;import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;public class submit {public static void …...

【Qt】管理创建子项目

新建项目 打开是这样,无法添加子项目 pro添加 TEMPLATE subdirs有了 点击添加子项目 其他项目-子目录项目 (空的子项目,只有pro,无h、cpp) 子目录名字 直接创建子目录下子项目 选择有无界面或者其他类型项目 …...

力扣——238.移动零

题目 思路 利用双指针,先找到第一个为0的地方指向,指针2指向下一个,指针1之前是已经处理好的数据,指针2进行遍历,遇到非零则与指针1数据交换,然后指针1。 代码 class Solution { public:void moveZeroes(…...

编程的魅力

在数字化时代,编程已不仅仅是计算机科学家的专属领地,它正逐渐渗透到我们生活的每一个角落,成为连接现实与虚拟、创新与传统的重要桥梁。编程,这一门融合了逻辑、创造与解决问题的艺术,正以其独特的魅力引领着新一轮的…...

想提升跨境电商运营?浏览器多开为你助力!

在日常生活中,我们在使用浏览器访问网站时,可能会遇到一个尴尬的情况:无法同时登录一个网站的多个账号。对于跨境电商卖家来说,这种情况更为常见。例如,当我们需要在亚马逊管理店铺时,我们可能已经使用A账号…...

使用QML的ListView自制树形结构图TreeView

背景 感觉QML自带的TreeView不是很好用,用在文件路径树形结构比较多,但是想用在自己数据里,就不太方便了,所以自己做一个。 用‘ListView里迭代ListView’的方法,制作树形结构,成果图: 代码…...

2.MySQL面试题之索引

1. 为什么索引要用 B树来实现呢,而不是 B 树? MySQL 选择使用 B 树来实现索引,而不是 B 树,主要是基于以下几个原因: 1.1 数据存储和访问效率 B 树:在 B 树中,数据和索引都存储在每个节点中。…...

复制CodeIgniter新版的array_group_by辅助函数

很需要php数组的group_by功能,发现codeIgniter4.5新版中已有这个辅助函数,但我用的codeIgniter4.14没有,又不想升级php等一系列东西,就想把把codeIgniter4.5中array_group_by函数复制过来用。 先试着把新版本的array_helper文件及…...

合并两个 ES (Elasticsearch) 的数据

要将两个 Elasticsearch 实例中的同一个索引(/test_index)的数据合并到一个实例中,你可以按照以下步骤操作: 假设 Elasticsearch 1 (ES1) 和 Elasticsearch 2 (ES2) 都有相同的索引 /test_index。希望将 ES2 中的数据合并到 ES1 中。步骤 导出 ES2 的数据:使用 Elasticse…...

Linux网络协议.之 tcp,udp,socket网络编程(四).之网络转换函数htonl,ntohs等介绍

字节转换函数 把给定系统所采用的字节序称为主机字节序,为了避免不同类别主机之间在数据交换时由于对于字 节序的不同而导致的差错,引入了网络字节序。 主机字节序到网络字节序 u_long htonl(u_long hostlong); u_short htons(u_short short); 网络字节…...

LXC和udev知识点

1 POSIX pthread_create原理 1)fork()、pthread_create()、vfork()对应的系统调用分别是sys_fork()、sys_clone()、sys_vfork(),它们在内核中都是通过do_fork()实现的。 2)系统中所有的进程都组织在init_task.tasks链表下面,每个进…...

基于springboot+vue+uniapp的智慧校园管理系统小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…...

论文辅导 | 基于概率密度估计与时序Transformer网络的风功率日前区间预测

辅导文章 模型描述 本文所提出的时序优化Transformer 结构,该模型从结构上看由三部分组成:向量映射、编码器和解码器。编码器输入为数值天气预报数据以及相应的时间编码。解码器输入为预测日之前输出功率历史数据以及相应的时间编码。这些数据在经过向量…...

金蝶云星空单据体数量汇总-分组列信息

文章目录 金蝶云星空单据体数量汇总-分组列信息BOS配置效果展示 金蝶云星空单据体数量汇总-分组列信息 BOS配置 效果展示...

抖音批量下载终极指南:5分钟掌握无水印视频下载神器

抖音批量下载终极指南:5分钟掌握无水印视频下载神器 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support…...

Java的java.lang.foreign

Java的java.lang.foreign模块是近年来JDK引入的重要特性之一,旨在简化Java与本地代码的交互。随着现代应用对高性能和跨语言调用的需求日益增长,传统JNI(Java Native Interface)的复杂性成为开发瓶颈。而java.lang.foreign通过提供…...

快速上手LingBot-Depth:从镜像部署到深度图生成全流程

快速上手LingBot-Depth:从镜像部署到深度图生成全流程 1. 认识LingBot-Depth:深度感知的智能助手 1.1 深度图生成的核心价值 想象一下,当你看到一张照片时,大脑能自动判断画面中物体的远近关系——近处的树木轮廓清晰&#xff…...

实时反馈断层、特征偏移误判、推理链路静默降级……AI灰度发布6大暗礁(含可观测性埋点配置清单)

第一章:AI原生软件研发灰度发布策略设计 2026奇点智能技术大会(https://ml-summit.org) AI原生软件具备模型动态加载、推理路径可编程、反馈闭环实时驱动等特性,其灰度发布不能简单复用传统微服务的流量切分逻辑,而需耦合模型版本、特征服务…...

【计算机网络】思科实验:OSPF多区域配置与链路状态数据库解析

1. OSPF多区域配置实战指南 第一次接触OSPF多区域配置时,我被那些LSA类型和区域边界搞得头晕眼花。直到在真实项目里把整个网络搞瘫痪过一次,才真正理解多区域设计的精妙之处。这次我们就用Packet Tracer搭建一个包含Area 0、Area 1和Area 2的完整实验环…...

安卓WebRTC与SRS实战:从零搭建安全推拉流环境

1. 为什么需要WebRTC与SRS的组合? 在移动直播、在线教育、视频会议等实时互动场景中,WebRTC技术已经成为行业标配。它最大的优势在于点对点低延迟传输,实测端到端延迟可以控制在200ms以内。但纯P2P方案存在NAT穿透成功率问题,这时…...

腾讯云轻量2核2G Ubuntu 服务器配置 + Xshell 连接服务器

购买成功会跳转到这个页面一、第一步:放行防火墙端口(必做!否则连不上、访问不了) 我们现在在服务器列表页,必须先开放端口,否则 Xshell 连不上、项目也访问不了。 1. 进入防火墙设置 点击截图箭头指向的 「…...

具身智能科技行业前瞻探索——多任务操作、第一人称世界模型、低光照与模糊感知 国泰证券 2026-4

这份国泰海通证券 2026 年 4 月发布的具身智能科技前瞻探索(第 3 期),核心是梳理 6 项前沿技术成果,聚焦人形机器人与具身智能的多任务、感知、仿真、控制、多模态五大突破,明确学术价值与产业落地方向。一、核心背景人…...

mPLUG零售分析:消费者行为视觉识别方案

mPLUG零售分析:消费者行为视觉识别方案 1. 引言 走进任何一家零售门店,你是否曾好奇:顾客进门后往哪里走?他们在哪个货架前停留最久?哪些商品被拿起又放下?这些看似简单的行为背后,隐藏着消费…...

如何快速检测微信单向好友:免费工具WechatRealFriends使用完全指南

如何快速检测微信单向好友:免费工具WechatRealFriends使用完全指南 【免费下载链接】WechatRealFriends 微信好友关系一键检测,基于微信ipad协议,看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRea…...