当前位置: 首页 > news >正文

大模型被偷家?CNN结合多模态!

2025深度学习发论文&模型涨点之—— CNN+多模态

卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类或回归来完成任务。

多模态学习是指在不同类型数据之间学习共享表示的过程。多模态数据可以是图像、文本、音频等,每种模态都有其特定的表示和特征。因此,在多模态学习中,我们需要设计一种能够处理不同模态数据并在不同模态之间共享知识的算法。

我整理了一些 CNN+多模态【论文+代码】合集,需要的同学公人人人号【AI创新工场】自取。

论文精选

论文1:

Change Detection between Multimodal Remote Sensing Data Using Siamese CNN

使用孪生卷积神经网络进行多模态遥感数据的变化检测

方法

多模态数据转换:将3D激光扫描点云和2D影像转换为2.5D数字表面模型(DSM),进一步转换为2D灰度图像块。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过比较两个输入图像块的特征向量来检测变化。

预处理和数据增强:对图像块进行数据增强(如翻转和旋转),以平衡正负样本数量。

对象级变化检测:将检测到的变化图像块分组并验证为单个对象的变化,利用点云分割和归一化植被指数(nEGI)进行验证。

图片

创新点

多模态数据融合:提出了一种将3D激光扫描和2D影像融合的框架,解决了多模态数据特性差异带来的挑战。

孪生卷积神经网络的应用:首次将S-CNN应用于多模态遥感数据变化检测,能够有效区分真实变化和由数据误差引起的虚假变化。

性能提升:实验结果表明,该方法在变化检测任务中能够正确分类86.4%的图像块对,显著优于传统方法。

图片

论文2:

CNN‑Siam: multimodal siamese CNN‑based deep learning approach for drug‒drug interaction prediction

CNN‑Siam:基于多模态孪生卷积神经网络的药物-药物相互作用预测深度学习方法

方法

多模态数据表示:将药物的化学结构、靶点和酶信息通过一热编码和Jaccard相似性转换为特征向量。

孪生卷积神经网络(Siamese CNN):使用S-CNN架构,通过两个共享权重的CNN分支分别学习药物对的特征表示,并将结果输入到多层感知机中进行分类。

优化算法:结合RAdam和LookAhead优化算法,提高模型训练的稳定性和收敛速度。

损失函数:采用Focal Loss,重点关注难以分类的样本,提升模型对不平衡数据集的分类能力。

图片

创新点

多模态数据融合:通过S-CNN架构同时学习药物对的多模态信息,提升了特征表示的准确性。

优化算法的改进:使用RAdam和LookAhead优化算法,显著提升了模型的训练效率和性能。

性能提升:在基准数据集上,CNN-Siam的AUPR分数达到0.96,准确率达到92%,相比现有最佳方法(准确率为86%)有显著提升。

图片

论文3:

Multimodal Convolutional Neural Networks for Matching Image and Sentence

用于匹配图像和句子的多模态卷积神经网络

方法

图像和句子的卷积神经网络(CNN):使用图像CNN编码图像内容,匹配CNN建模图像和句子的联合表示。

多模态匹配:通过不同层次(单词、短语、句子)的语义片段与图像的交互,学习图像和句子之间的匹配关系。

多层感知机(MLP):将匹配CNN生成的联合表示输入到MLP中,生成最终的匹配分数。

多模态卷积层:设计了多模态卷积层,使图像与句子的语义片段在不同层次上进行交互。

图片

创新点

多模态匹配的层次化处理:通过单词、短语和句子三个层次的匹配关系,全面捕捉图像和句子之间的语义关联。

性能提升:在Flickr8K和Flickr30K数据集上,m-CNN模型显著优于现有最佳方法。例如,在Flickr30K数据集上,m-CNNENS(使用VGG初始化)的R@10指标达到74.9%,相比其他方法有显著提升。

卷积架构的应用:首次将卷积架构应用于图像和句子匹配问题,为多模态匹配提供了更强大的表示能力。

图片

相关文章:

大模型被偷家?CNN结合多模态!

2025深度学习发论文&模型涨点之—— CNN多模态 卷积神经网络是一种特殊类型的神经网络,其主要结构包括卷积层、池化层、全连接层和输出层。卷积层通过卷积操作学习图像的特征,池化层通过下采样操作减少参数数量,全连接层和输出层通过分类…...

UI自动化测试的优缺点?

优点 • 提高测试效率:可以快速地重复执行测试用例。例如,对于一个有大量表单需要验证的网页应用,自动化测试可以在短时间内完成多次输入检查,而手动测试则会花费大量时间。 • 保证测试一致性:每次执行测试的步骤和…...

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库

在 Kubernetes (K8s) 环境中,备份 PostgreSQL 数据库有一些特殊的考虑,因为数据库通常运行在容器中,并且数据存储在卷(如 PersistentVolume)中。你可以通过几种方式在外部备份 PostgreSQL 数据库,下面是一些…...

机器视觉中的3d和2d的区别

在机器视觉中,3D和2D的主要区别体现在数据的维度、处理方式及应用场景上。以下是具体对比: 数据维度 2D视觉 :处理二维图像,仅包含宽度和高度信息,通常以像素矩阵表示。 3D视觉 :处理三维数据,…...

exr 格式下 全景图(经纬图、panorama)转 cubemap

先上效果 (X, -X, Y, -Y, Z, -Z) 下载 exr 经纬图 笔者用的这张:https://polyhaven.com/a/kloofendal_48d_partly_cloudy_puresky 使用 Openexr 的 exrenvmap 工具 下载 我 build 了一份 3.3.2 版本的,免积分下载。 https:/…...

STM32 ADC介绍(硬件原理篇)

目录 背景 AD转换器 采样与保持 量化 编码 AD转换器转换原理 DA转换原理 AD转换原理 背景 在数字系统的广泛应用中,用数字系统处理模拟量的情况十分普遍,因此引入了模拟信号和数字信号的接口问题。为了解决这一问题,首先利用模数转换…...

snort3.0 获取注册规则(19000多条)

面对生活中的手机、电脑网络监控,很多人都是束手无策的,只不过雁过留声风过留痕,黑客路过就会留下入侵痕迹,比如手机没玩的时候,流量异常的增多,并且一直和某一个IP地址通信很频繁,可能是黑客正…...

【GitHub】装修个人主页

持续更新各种好文,长期更新技能手册,建议关注收藏点赞! 创建仓库,仓库名自己用户名 权限:public 勾选add a README file修改README.md 这里都是运用markdown语法,以及html标签编写的,可以自行修…...

名词解释:npm,cnpm,yarn,vite,vue,electron

1. npm (Node Package Manager) 读音: “N-P-M” 或者直接读作 “npm”。 npm 是 Node.js 的官方包管理器,用于安装、发布和管理 JavaScript 软件包。它允许开发者轻松地共享代码,并且可以通过命令行工具来管理依赖关系。通过 npm init 命令可以交互式…...

XMOS的多项音频技术创新将大模型与边缘AI应用密切联系形成生态化合

2025蛇年春节,DeepSeek大语言模型以超低的训练成本震撼全球,预示着大模型技术将以更快的脚步全面走进我们的工作和生活,同时也促进了能够连通各种大模型和应用场景的智能终端将加速演进。语音作为人类与机器最常用的互动沟通媒体,…...

九.Spring Boot使用 ShardingSphere + MyBatis + Druid 进行分库分表

文章目录 前言一、引入依赖二、创建一个light-db_1备用数据库三、配置文件 application-dev.yml四、创建shardingsphere-config.yml完整项目结构 五、测试总结 前言 在现代化微服务架构中,随着数据量的不断增长,单一数据库已难以满足高可用性、扩展性和…...

大数据治理:构建数据驱动的未来基石

一、大数据治理的定义与核心价值 在大数据战略从顶层设计到底层实现的落地过程中,数据治理是基础,技术是承载,分析是手段,应用是目的。与传统数据管理不同,数据治理更侧重于制定行业级制度规范,通过建立数…...

常见的几种设计模式(详细)——应用场景和实现方式

文章目录 🎯单例模式应用实现 🏭工厂模式应用实现 ❓策略模式应用实现 🧑‍⚖️代理模式应用实现 🔍观察者模式(发布订阅模式)应用实现 🧰装饰器模式应用实现 📰模版方法模式应用实现…...

SonarQube

不同版本的sonarqube需要不同版本的数据库、jdk环境。这个看文档然后确定要求 (有时候文档里标注的系统要求是不行的。比如要求内存2G,但是实际上是不够的,要注意) 我安装的: 官方文档 Prerequisites and overview…...

Nginx 之Rewrite 使用详解

文章目录 1. 概述2. Rewrite 指令 2.1 指令语法2.2 Flag 标记说明 3. Rewrite 与 Location 3.1 Location 分类3.2 Rewrite 和 Location 比较 4. Rewrite 实际场景 4.1 基于域名的跳转4.2 基于客户端 IP 访问跳转4.3 基于参数匹配的跳转4.4 基于目录下所有 PHP 文件跳转4.5 基于…...

注册Gmail如何跳过手机验证环节?

很多小伙伴在注册Gmail的时候都会遇到一个难题:手机号码验证,有可能包括了“手机号无法验证” “国内手机号验证失败” “收不到验证码”等等问题,但 根据真实案例,还有部分人则是“幸运地”没有手机号验证环节,那么今…...

WordPress自助建站全攻略

一、基础概念与核心优势 WordPress自助建站是一种无需编程即可搭建网站的平台,基于开源CMS系统,支持高度定制化。其核心优势主要体现在: 易用性:拖拽式编辑器和直观的后台操作,适合零基础用户快速上手。低成本&#x…...

TreeSet(单列集合)

TreeSet 是 Java 集合框架中的一种实现了 Set 接口的类,它通过一个红黑树(Red-Black Tree)来存储元素。由于使用了树结构,TreeSet 保证了元素的有序性,并且不允许重复元素。 1. TreeSet 的基本特性 有序性&#xff1…...

Elasticsearch:同义词在 RAG 中重要吗?

作者:来自 Elastic Jeffrey Rengifo 及 Toms Mura 探索 RAG 应用程序中 Elasticsearch 同义词的功能。 同义词允许我们使用具有相同含义的不同词语在文档中搜索,以确保用户无论使用什么确切的词语都能找到他们所寻找的内容。你可能会认为,由于…...

Docker安装分布式vLLM

Docker安装分布式vLLM 1 介绍 vLLM是一个快速且易于使用的LLM推理和服务库,适合用于生产环境。单主机部署会遇到显存不足的问题,因此需要分布式部署。 分布式安装方法 https://docs.vllm.ai/en/latest/serving/distributed_serving.html2 安装方法 …...

基于STM32F103的MAX86150驱动移植与多模式数据采集实战

1. MAX86150芯片与STM32F103开发基础 MAX86150这颗芯片确实是个好东西,它把ECG(心电图)、PPG(光电容积图,也就是血氧检测用到的技术)、心率监测这些功能都集成到了一起。我最早是在一个智能手环项目上用到它…...

Perseus补丁:解锁碧蓝航线全皮肤功能的终极指南

Perseus补丁:解锁碧蓝航线全皮肤功能的终极指南 【免费下载链接】Perseus Azur Lane scripts patcher. 项目地址: https://gitcode.com/gh_mirrors/pers/Perseus 还在为碧蓝航线中那些精美的限定皮肤无法体验而烦恼吗?Perseus原生库补丁为你提供了…...

抖音无水印视频下载终极指南:douyin-downloader免费工具完整教程

抖音无水印视频下载终极指南:douyin-downloader免费工具完整教程 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fall…...

2026届必备的五大AI辅助论文工具横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在学术写作的进程当中,恰当地运用论文AI工具,能够明显地提高文献检索…...

深度解析B站视频下载器:技术架构与实战应用指南

深度解析B站视频下载器:技术架构与实战应用指南 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 在数字内容消费日益增长的…...

别再只会用多边形了!Maya NURBS挤出命令的三种玩法,轻松搞定复杂曲面建模

解锁Maya NURBS挤出命令的隐藏潜力:从基础到高阶的曲面建模实战 在三维建模领域,NURBS(非均匀有理B样条)技术一直是创建精确曲面的黄金标准。许多设计师在掌握了多边形建模后,面对NURBS工具时却感到无从下手。实际上&a…...

基于容器化技术的高交互蜜罐系统设计与实战部署

1. 项目概述:一个高交互的蜜罐系统最近在整理安全研究工具链时,又翻出了beelzebub这个项目。它不是一个新面孔,但在开源蜜罐领域,其设计理念和实现方式一直让我觉得很有意思。简单来说,beelzebub是一个用 Go 语言编写的…...

10分钟精通D3KeyHelper:暗黑3自动化操作终极实战指南

10分钟精通D3KeyHelper:暗黑3自动化操作终极实战指南 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 厌倦了在暗黑破坏神3中重复按技能键…...

ChatGPT 2023年1月更新解读:模型表现、事实性、数学能力与停止生成按钮

🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》 《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

解决跨平台表情显示难题:Noto Emoji技术实现深度解析

解决跨平台表情显示难题:Noto Emoji技术实现深度解析 【免费下载链接】noto-emoji Noto Emoji fonts 项目地址: https://gitcode.com/gh_mirrors/no/noto-emoji 在当今数字通信时代,表情符号已成为不可或缺的表达元素。然而,开发者面临…...