学习记录(11):训练图片分类的算法
文章目录
- 一、卷积神经网络(CNN)架构
- 1. ResNet(Residual Networks)
- 2. DenseNet(Densely Connected Convolutional Networks)
- 3. EfficientNet
- 4. MobileNet
- 二、变换器(Transformer)架构
- 1. Vision Transformer(ViT)
- 2. Swin Transformer
- 三、混合架构
- 1. ConvNeXt
- 2. CoAtNet(Convolutional Attention Network)
- 四、自监督学习和对比学习
- 1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)
- 2. BYOL(Bootstrap Your Own Latent)
- 五 、大规模预训练学习
- 1. CLIP(Contrastive Language–Image Pretraining)
- 2. DINO(Self-Distillation with No Labels)
一、卷积神经网络(CNN)架构
1. ResNet(Residual Networks)
特点:引入了残差连接(skip connections),解决了深层网络中的梯度消失问题。
代表模型:ResNet-50、ResNet-101、ResNet-152。
优势:在ImageNet等大型数据集上表现优异,训练稳定。
2. DenseNet(Densely Connected Convolutional Networks)
特点:每一层都与前面的所有层直接连接,增强了特征复用。
代表模型:DenseNet-121、DenseNet-169、DenseNet-201。
优势:参数更少,特征传递和梯度流动更好。
3. EfficientNet
特点:通过复合缩放方法(compound scaling)系统地缩放网络的深度、宽度和分辨率。
代表模型:EfficientNet-B0到EfficientNet-B7。
优势:在参数量和计算量较少的情况下,达到了更高的准确率。
4. MobileNet
特点:设计轻量级网络,适用于移动和嵌入式设备。
代表模型:MobileNetV1、MobileNetV2、MobileNetV3。
优势:计算效率高,适合资源受限的环境。
二、变换器(Transformer)架构
1. Vision Transformer(ViT)
特点:将图像分割成固定大小的patches,然后将这些patches作为输入序列,使用标准的Transformer架构进行处理。
优势:在大规模数据集上训练时,能够达到或超过传统CNN的性能。
2. Swin Transformer
特点:引入了层次化的窗口注意力机制,能够在不同尺度上捕捉图像特征。
优势:在多个视觉任务中表现出色,包括图像分类、目标检测和语义分割。
三、混合架构
1. ConvNeXt
特点:结合了CNN和Transformer的优点,采用了现代化的设计理念,如LayerNorm、GELU激活函数等。
优势:在保持CNN高效性的同时,提升了模型的性能。
2. CoAtNet(Convolutional Attention Network)
特点:结合了卷积和注意力机制,利用卷积捕捉局部特征,利用注意力机制捕捉全局特征。
优势:在多个视觉任务中表现优异,具有较好的泛化能力。
四、自监督学习和对比学习
1. SimCLR(Simple Framework for Contrastive Learning of Visual Representations)
特点:通过对比学习方法,在没有标签的数据上进行预训练,然后在有标签的数据上进行微调。
优势:能够在没有大量标注数据的情况下,学习到高质量的特征表示。
2. BYOL(Bootstrap Your Own Latent)
特点:通过自我监督学习方法,不需要负样本对,直接优化特征表示。
优势:在多个数据集上表现出色,训练稳定。
五 、大规模预训练学习
1. CLIP(Contrastive Language–Image Pretraining)
特点:通过对比学习,将图像和文本嵌入到同一个向量空间中,能够处理多模态任务。
优势:在多个下游任务中表现优异,包括图像分类、图像生成、文本生成等。
2. DINO(Self-Distillation with No Labels)
特点:通过自监督学习方法,利用教师-学生模型进行特征提取。
优势:在没有标签的数据上进行预训练,然后在有标签的数据上进行微调,表现出色。
总结
目前,图像分类领域的最先进算法主要集中在深度学习模型,特别是卷积神经网络(CNN)和变换器(Transformer)架构上。选择合适的模型需要根据具体的应用场景、数据规模、计算资源等因素来决定。对于大规模数据集和高性能需求,可以考虑使用Vision Transformer(ViT)或Swin Transformer等变换器架构;对于资源受限的环境,可以考虑使用MobileNet或EfficientNet等轻量级模型。
相关文章:
学习记录(11):训练图片分类的算法
文章目录 一、卷积神经网络(CNN)架构1. ResNet(Residual Networks)2. DenseNet(Densely Connected Convolutional Networks)3. EfficientNet4. MobileNet 二、变换器(Transformer)架…...

上网防泄密,这些雷区不要碰!九招教你如何防泄密
李明:“最近看到不少关于信息泄露的新闻,真是让人担忧。咱们在工作中,稍有不慎就可能触碰到泄密的雷区啊。” 王芳:“确实,网络安全无小事。尤其是我们这种经常需要处理敏感信息的岗位,更得小心谨慎。那你…...
数据库篇--八股文学习第十五天| 一条SQL查询语句是如何执行的?,事务的四大特性有哪些?,数据库的事务隔离级别有哪些?
1、一条SQL查询语句是如何执行的? 答: 连接器:连接器负责跟客户端建立连接、获取权限、维持和管理连接。查询缓存: MySQL 拿到一个查询请求后,会先到查询缓存看看,之前是不是执行过这条语句。之前执行过的语句及其结果可能会以…...

elk + filebeat + kafka实验和RSync同步
elk filebeat kafka实验和RSync同步 elk filebeat kafka实验 filebeatkafkaELK实验的操作步骤: #在装有nginx的主机上解压filebeat压缩包 [roottest4 opt]# tar -xf filebeat-6.7.2-linux-x86_64.tar.gz #将解压后的压缩包更改名字 [roottest4 opt]# mv file…...

子类到底能继承父类中的哪些内容?
...
【超详细公式】曝光值(EV)、光圈(AV)、快门(TV)、感光度(SV)、照度(Lux)
文章目录 术语 E V A V T V − S V EV AV TV - SV EVAVTV−SV L u x 2.5 2 E V Lux 2.5 \times 2^{EV} Lux2.52EV通常环境光照度参照表 术语 术语全称中文名EVExposure Value曝光值AVAperture Value光圈值TVTime Value快门值SVSensitive Value感光值BVBrightness Value…...
【Java】增强for遍历集合。
增强for遍历 增强for底层就是迭代器。所有的单列集合和数组才能使用增强for遍历。 在循环过程中无法对集合中的元素进行修改。 package demo;import java.util.ArrayList; import java.util.Collection; import java.util.Iterator;public class submit {public static void …...

【Qt】管理创建子项目
新建项目 打开是这样,无法添加子项目 pro添加 TEMPLATE subdirs有了 点击添加子项目 其他项目-子目录项目 (空的子项目,只有pro,无h、cpp) 子目录名字 直接创建子目录下子项目 选择有无界面或者其他类型项目 …...

力扣——238.移动零
题目 思路 利用双指针,先找到第一个为0的地方指向,指针2指向下一个,指针1之前是已经处理好的数据,指针2进行遍历,遇到非零则与指针1数据交换,然后指针1。 代码 class Solution { public:void moveZeroes(…...
编程的魅力
在数字化时代,编程已不仅仅是计算机科学家的专属领地,它正逐渐渗透到我们生活的每一个角落,成为连接现实与虚拟、创新与传统的重要桥梁。编程,这一门融合了逻辑、创造与解决问题的艺术,正以其独特的魅力引领着新一轮的…...

想提升跨境电商运营?浏览器多开为你助力!
在日常生活中,我们在使用浏览器访问网站时,可能会遇到一个尴尬的情况:无法同时登录一个网站的多个账号。对于跨境电商卖家来说,这种情况更为常见。例如,当我们需要在亚马逊管理店铺时,我们可能已经使用A账号…...

使用QML的ListView自制树形结构图TreeView
背景 感觉QML自带的TreeView不是很好用,用在文件路径树形结构比较多,但是想用在自己数据里,就不太方便了,所以自己做一个。 用‘ListView里迭代ListView’的方法,制作树形结构,成果图: 代码…...
2.MySQL面试题之索引
1. 为什么索引要用 B树来实现呢,而不是 B 树? MySQL 选择使用 B 树来实现索引,而不是 B 树,主要是基于以下几个原因: 1.1 数据存储和访问效率 B 树:在 B 树中,数据和索引都存储在每个节点中。…...
复制CodeIgniter新版的array_group_by辅助函数
很需要php数组的group_by功能,发现codeIgniter4.5新版中已有这个辅助函数,但我用的codeIgniter4.14没有,又不想升级php等一系列东西,就想把把codeIgniter4.5中array_group_by函数复制过来用。 先试着把新版本的array_helper文件及…...
合并两个 ES (Elasticsearch) 的数据
要将两个 Elasticsearch 实例中的同一个索引(/test_index)的数据合并到一个实例中,你可以按照以下步骤操作: 假设 Elasticsearch 1 (ES1) 和 Elasticsearch 2 (ES2) 都有相同的索引 /test_index。希望将 ES2 中的数据合并到 ES1 中。步骤 导出 ES2 的数据:使用 Elasticse…...
Linux网络协议.之 tcp,udp,socket网络编程(四).之网络转换函数htonl,ntohs等介绍
字节转换函数 把给定系统所采用的字节序称为主机字节序,为了避免不同类别主机之间在数据交换时由于对于字 节序的不同而导致的差错,引入了网络字节序。 主机字节序到网络字节序 u_long htonl(u_long hostlong); u_short htons(u_short short); 网络字节…...
LXC和udev知识点
1 POSIX pthread_create原理 1)fork()、pthread_create()、vfork()对应的系统调用分别是sys_fork()、sys_clone()、sys_vfork(),它们在内核中都是通过do_fork()实现的。 2)系统中所有的进程都组织在init_task.tasks链表下面,每个进…...

基于springboot+vue+uniapp的智慧校园管理系统小程序
开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…...

论文辅导 | 基于概率密度估计与时序Transformer网络的风功率日前区间预测
辅导文章 模型描述 本文所提出的时序优化Transformer 结构,该模型从结构上看由三部分组成:向量映射、编码器和解码器。编码器输入为数值天气预报数据以及相应的时间编码。解码器输入为预测日之前输出功率历史数据以及相应的时间编码。这些数据在经过向量…...

金蝶云星空单据体数量汇总-分组列信息
文章目录 金蝶云星空单据体数量汇总-分组列信息BOS配置效果展示 金蝶云星空单据体数量汇总-分组列信息 BOS配置 效果展示...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...

2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...
【python异步多线程】异步多线程爬虫代码示例
claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...
Caliper 配置文件解析:config.yaml
Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...

华硕a豆14 Air香氛版,美学与科技的馨香融合
在快节奏的现代生活中,我们渴望一个能激发创想、愉悦感官的工作与生活伙伴,它不仅是冰冷的科技工具,更能触动我们内心深处的细腻情感。正是在这样的期许下,华硕a豆14 Air香氛版翩然而至,它以一种前所未有的方式&#x…...
音视频——I2S 协议详解
I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

莫兰迪高级灰总结计划简约商务通用PPT模版
莫兰迪高级灰总结计划简约商务通用PPT模版,莫兰迪调色板清新简约工作汇报PPT模版,莫兰迪时尚风极简设计PPT模版,大学生毕业论文答辩PPT模版,莫兰迪配色总结计划简约商务通用PPT模版,莫兰迪商务汇报PPT模版,…...
NPOI Excel用OLE对象的形式插入文件附件以及插入图片
static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...
深入浅出Diffusion模型:从原理到实践的全方位教程
I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...

论文阅读:Matting by Generation
今天介绍一篇关于 matting 抠图的文章,抠图也算是计算机视觉里面非常经典的一个任务了。从早期的经典算法到如今的深度学习算法,已经有很多的工作和这个任务相关。这两年 diffusion 模型很火,大家又开始用 diffusion 模型做各种 CV 任务了&am…...