当前位置: 首页 > news >正文

大模型被偷家?CNN结合多模态!

2025深度学习发论文&模型涨点之—— CNN+多模态

卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类或回归来完成任务。

多模态学习是指在不同类型数据之间学习共享表示的过程。多模态数据可以是图像、文本、音频等,每种模态都有其特定的表示和特征。因此,在多模态学习中,我们需要设计一种能够处理不同模态数据并在不同模态之间共享知识的算法。

我整理了一些 CNN+多模态【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

Change Detection between Multimodal Remote Sensing Data Using Siamese CNN

使用孪生卷积神经网络进行多模态遥感数据的变化检测

方法

多模态数据转换:将3D激光扫描点云和2D影像转换为2.5D数字表面模型(DSM),进一步转换为2D灰度图像块。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过比较两个输入图像块的特征向量来检测变化。

预处理和数据增强:对图像块进行数据增强(如翻转和旋转),以平衡正负样本数量。

对象级变化检测:将检测到的变化图像块分组并验证为单个对象的变化,利用点云分割和归一化植被指数(nEGI)进行验证。

图片

创新点

多模态数据融合:提出了一种将3D激光扫描和2D影像融合的框架,解决了多模态数据特性差异带来的挑战。

孪生卷积神经网络的应用:首次将S-CNN应用于多模态遥感数据变化检测,能够有效区分真实变化和由数据误差引起的虚假变化。

性能提升:实验结果表明,该方法在变化检测任务中能够正确分类86.4%的图像块对,显著优于传统方法。

图片

论文2:

CNN‑Siam: multimodal siamese CNN‑based deep learning approach for drug‒drug interaction prediction

CNN‑Siam:基于多模态孪生卷积神经网络的药物-药物相互作用预测深度学习方法

方法

多模态数据表示:将药物的化学结构、靶点和酶信息通过一热编码和Jaccard相似性转换为特征向量。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过两个共享权重的CNN分支分别学习药物对的特征表示,并将结果输入到多层感知机中进行分类。

优化算法:结合RAdam和LookAhead优化算法,提高模型训练的稳定性和收敛速度。

损失函数:采用Focal Loss,重点关注难以分类的样本,提升模型对不平衡数据集的分类能力。

图片

创新点

多模态数据融合:通过S-CNN架构同时学习药物对的多模态信息,提升了特征表示的准确性。

优化算法的改进:使用RAdam和LookAhead优化算法,显著提升了模型的训练效率和性能。

性能提升:在基准数据集上,CNN-Siam的AUPR分数达到0.96,准确率达到92%,相比现有最佳方法(准确率为86%)有显著提升。

图片

论文3:

Multimodal Convolutional Neural Networks for Matching Image and Sentence

用于匹配图像和句子的多模态卷积神经网络

方法

图像和句子的卷积神经网络(CNN):使用图像CNN编码图像内容,匹配CNN建模图像和句子的联合表示。

多模态匹配:通过不同层次(单词、短语、句子)的语义片段与图像的交互,学习图像和句子之间的匹配关系。

多层感知机(MLP):将匹配CNN生成的联合表示输入到MLP中,生成最终的匹配分数。

多模态卷积层:设计了多模态卷积层,使图像与句子的语义片段在不同层次上进行交互。

图片

创新点

多模态匹配的层次化处理:通过单词、短语和句子三个层次的匹配关系,全面捕捉图像和句子之间的语义关联。

性能提升:在Flickr8K和Flickr30K数据集上,m-CNN模型显著优于现有最佳方法。例如,在Flickr30K数据集上,m-CNNENS(使用VGG初始化)的R@10指标达到74.9%,相比其他方法有显著提升。

卷积架构的应用:首次将卷积架构应用于图像和句子匹配问题,为多模态匹配提供了更强大的表示能力。

图片

相关文章:

大模型被偷家?CNN结合多模态!

2025深度学习发论文&模型涨点之—— CNN多模态 卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类…...

UI自动化测试的优缺点?

优点 • 提高测试效率:可以快速地重复执行测试用例。例如,对于一个有大量表单需要验证的网页应用,自动化测试可以在短时间内完成多次输入检查,而手动测试则会花费大量时间。 • 保证测试一致性:每次执行测试的步骤和…...

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库有一些特殊的考虑,因为数据库通常运行在容器中,并且数据存储在卷(如 PersistentVolume)中。你可以通过几种方式在外部备份 PostgreSQL 数据库,下面是一些…...

机器视觉中的3d和2d的区别

在机器视觉中,3D和2D的主要区别体现在数据的维度、处理方式及应用场景上。以下是具体对比: 数据维度 2D视觉 :处理二维图像,仅包含宽度和高度信息,通常以像素矩阵表示。 3D视觉 :处理三维数据,…...

exr 格式下 全景图(经纬图、panorama)转 cubemap

先上效果 (X, -X, Y, -Y, Z, -Z) 下载 exr 经纬图 笔者用的这张:https://polyhaven.com/a/kloofendal_48d_partly_cloudy_puresky 使用 Openexr 的 exrenvmap 工具 下载 我 build 了一份 3.3.2 版本的,免积分下载。 https:/…...

STM32 ADC介绍(硬件原理篇)

目录 背景 AD转换器 采样与保持 量化 编码 AD转换器转换原理 DA转换原理 AD转换原理 背景 在数字系统的广泛应用中,用数字系统处理模拟量的情况十分普遍,因此引入了模拟信号和数字信号的接口问题。为了解决这一问题,首先利用模数转换…...

snort3.0 获取注册规则(19000多条)

面对生活中的手机、电脑网络监控,很多人都是束手无策的,只不过雁过留声风过留痕,黑客路过就会留下入侵痕迹,比如手机没玩的时候,流量异常的增多,并且一直和某一个IP地址通信很频繁,可能是黑客正…...

【GitHub】装修个人主页

持续更新各种好文,长期更新技能手册,建议关注收藏点赞! 创建仓库,仓库名自己用户名 权限:public 勾选add a README file修改README.md 这里都是运用markdown语法,以及html标签编写的,可以自行修…...

名词解释:npm,cnpm,yarn,vite,vue,electron

1. npm (Node Package Manager) 读音: “N-P-M” 或者直接读作 “npm”。 npm 是 Node.js 的官方包管理器,用于安装、发布和管理 JavaScript 软件包。它允许开发者轻松地共享代码,并且可以通过命令行工具来管理依赖关系。通过 npm init 命令可以交互式…...

XMOS的多项音频技术创新将大模型与边缘AI应用密切联系形成生态化合

2025蛇年春节,DeepSeek大语言模型以超低的训练成本震撼全球,预示着大模型技术将以更快的脚步全面走进我们的工作和生活,同时也促进了能够连通各种大模型和应用场景的智能终端将加速演进。语音作为人类与机器最常用的互动沟通媒体,…...

九.Spring Boot使用 ShardingSphere + MyBatis + Druid 进行分库分表

文章目录 前言一、引入依赖二、创建一个light-db_1备用数据库三、配置文件 application-dev.yml四、创建shardingsphere-config.yml完整项目结构 五、测试总结 前言 在现代化微服务架构中,随着数据量的不断增长,单一数据库已难以满足高可用性、扩展性和…...

大数据治理:构建数据驱动的未来基石

一、大数据治理的定义与核心价值 在大数据战略从顶层设计到底层实现的落地过程中,数据治理是基础,技术是承载,分析是手段,应用是目的。与传统数据管理不同,数据治理更侧重于制定行业级制度规范,通过建立数…...

常见的几种设计模式(详细)——应用场景和实现方式

文章目录 🎯单例模式应用实现 🏭工厂模式应用实现 ❓策略模式应用实现 🧑‍⚖️代理模式应用实现 🔍观察者模式(发布订阅模式)应用实现 🧰装饰器模式应用实现 📰模版方法模式应用实现…...

SonarQube

不同版本的sonarqube需要不同版本的数据库、jdk环境。这个看文档然后确定要求 (有时候文档里标注的系统要求是不行的。比如要求内存2G,但是实际上是不够的,要注意) 我安装的: 官方文档 Prerequisites and overview…...

Nginx 之Rewrite 使用详解

文章目录 1. 概述2. Rewrite 指令 2.1 指令语法2.2 Flag 标记说明 3. Rewrite 与 Location 3.1 Location 分类3.2 Rewrite 和 Location 比较 4. Rewrite 实际场景 4.1 基于域名的跳转4.2 基于客户端 IP 访问跳转4.3 基于参数匹配的跳转4.4 基于目录下所有 PHP 文件跳转4.5 基于…...

注册Gmail如何跳过手机验证环节?

很多小伙伴在注册Gmail的时候都会遇到一个难题:手机号码验证,有可能包括了“手机号无法验证” “国内手机号验证失败” “收不到验证码”等等问题,但 根据真实案例,还有部分人则是“幸运地”没有手机号验证环节,那么今…...

WordPress自助建站全攻略

一、基础概念与核心优势 WordPress自助建站是一种无需编程即可搭建网站的平台,基于开源CMS系统,支持高度定制化。其核心优势主要体现在: 易用性:拖拽式编辑器和直观的后台操作,适合零基础用户快速上手。低成本&#x…...

TreeSet(单列集合)

TreeSet 是 Java 集合框架中的一种实现了 Set 接口的类,它通过一个红黑树(Red-Black Tree)来存储元素。由于使用了树结构,TreeSet 保证了元素的有序性,并且不允许重复元素。 1. TreeSet 的基本特性 有序性&#xff1…...

Elasticsearch:同义词在 RAG 中重要吗?

作者:来自 Elastic Jeffrey Rengifo 及 Toms Mura 探索 RAG 应用程序中 Elasticsearch 同义词的功能。 同义词允许我们使用具有相同含义的不同词语在文档中搜索,以确保用户无论使用什么确切的词语都能找到他们所寻找的内容。你可能会认为,由于…...

Docker安装分布式vLLM

Docker安装分布式vLLM 1 介绍 vLLM是一个快速且易于使用的LLM推理和服务库,适合用于生产环境。单主机部署会遇到显存不足的问题,因此需要分布式部署。 分布式安装方法 https://docs.vllm.ai/en/latest/serving/distributed_serving.html2 安装方法 …...

JavaSec-RCE

简介 RCE(Remote Code Execution),可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景:Groovy代码注入 Groovy是一种基于JVM的动态语言,语法简洁,支持闭包、动态类型和Java互操作性&#xff0c…...

MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...

什么是库存周转?如何用进销存系统提高库存周转率?

你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...

【论文笔记】若干矿井粉尘检测算法概述

总的来说,传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度,通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

如何为服务器生成TLS证书

TLS(Transport Layer Security)证书是确保网络通信安全的重要手段,它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书,可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

听写流程自动化实践,轻量级教育辅助

随着智能教育工具的发展,越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式,也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建,…...

JVM 内存结构 详解

内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: ​ 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

JavaScript基础-API 和 Web API

在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征 封装性: 隐藏字段的实现细节 提供对字段的受控访问 访问控制: 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性: 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑: 可以…...