【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
目录
文章目录
- 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
- 目录
- 摘要
- 研究背景
- 问题与挑战
- 如何解决
- 创新点
- 算法模型
- 1. 知识总结模块(Knowledge Summarization Module)
- 2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)
- 3. 模态特定编码(Modality-Specific Encoding)
- 4. 模态融合(Modality Fusion)
- 5. 分类器(Classifier)
- 算法模型的关键特点
- 实验效果
- 推荐阅读指数
- 后记
探索思维链(Chain-of-Thought)在多模态隐喻检测中的应用
摘要
本文探讨了在广告和互联网迷因(meme)中常见的隐喻检测问题。由于互联网迷因的自由形式,导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读,并需要大量的常识知识,这对语言模型构成了挑战。为了应对这些挑战,作者提出了一个紧凑的框架C4MMD,该框架利用思维链(Chain-of-Thought, CoT)方法进行多模态隐喻检测。具体来说,该方法设计了一个三步过程,灵感来自CoT,从多模态大型语言模型(MLLMs)中提取并整合知识到较小的模型中。此外,作者还开发了一个模态融合架构,将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明,该方法不仅有效增强了小型模型的隐喻检测能力,而且超越了现有模型。据作者所知,这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。
“Metaphors” 在中文中通常被翻译为“隐喻”或“暗喻”。在文学和语言学中,隐喻是一种比喻,通过将一件事物说成另一件事物来暗示它们之间的相似性,而不是直接比较。例如,在句子“时间是金钱”中,“时间”被隐喻性地描述为“金钱”,强调了时间的宝贵和有限性。
“Memes” 在中文中通常被翻译为“迷因”或“模因”。这个词汇最初由生物学家理查德·道金斯(Richard Dawkins)在其1976年的著作《自私的基因》中提出,用于描述文化信息或行为模式的传播单位,类似于生物基因在生物进化中的角色。在互联网文化中,“迷因”通常指那些迅速在网络用户之间传播的图片、视频、文字等内容,它们往往带有幽默或讽刺的元素,能够引发共鸣并被广泛复制和分享。
研究背景
隐喻在日常生活中的表达和写作中非常普遍,对自然语言处理(NLP)中的下游任务,如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起,多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比,多模态隐喻检测不仅要在句子中发现隐喻,还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差,这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本,但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。
问题与挑战
多模态隐喻检测面临的主要问题和挑战包括:
- 多模态隐喻的复杂性和多样性:需要识别和分类图像和文本中的隐喻,以及它们之间的相互作用。
- 文本内容质量差:社交媒体上的广告和迷因中的文本内容质量参差不齐,导致隐喻检测困难。
- 位置信息丢失:使用OCR技术提取文本时,可能会丢失文本的位置信息,这对于理解隐喻至关重要。
如何解决
为了解决上述挑战,作者提出了以下解决方案:
- 利用MLLMs的丰富世界知识和上下文理解能力:通过LLMs生成补充信息,而不是对它们进行微调。
- 设计三步CoT方法:逐步获取MLLM的信息,描述图像、分析文本以及整合两种模态的信息。
- 模态融合架构:将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。
创新点
本文的创新点包括:
- 首次系统性地利用MLLMs进行隐喻检测任务:这是首次将MLLMs应用于隐喻检测,开辟了新的研究方向。
- 三步CoT方法:通过设计三步CoT方法,逐步提取和整合多模态信息,提高了模型对隐喻的理解能力。
- 模态融合架构:开发了一种新的模态融合架构,将大模型的知识转化为隐喻特征,提高了检测的准确性。
算法模型
C4MMD框架由以下主要组件构成:
- 知识总结模块:通过三步CoT提示,从MLLM中提取额外的文本信息。
- 下游多模态融合结构:将补充信息与原始文本合并,通过特定编码器处理这些输入,以获得特征向量。
- 模态特定编码:使用图像编码器和文本编码器获得图像和文本的向量化编码。
- 模态融合:将不同模态的向量尺寸调整一致,然后进行融合,以获得最终的融合向量表示。
- 分类器:使用跨模态向量进行隐喻分类,并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。
C4MMD框架的核心在于利用多模态大型语言模型(MLLMs)来增强小型模型的隐喻检测能力,C4MMD框架中关键组件包括:
1. 知识总结模块(Knowledge Summarization Module)
该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤:
- 第一步(STEP1):忽略图像中的文本,仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
- 第二步(STEP2):分析文本的含义,注意同音异义词和双关语,并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
- 第三步(STEP3):结合前两步的结果,整合图像和文本特征,以获得更深层次的跨模态交互信息。
2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)
在获取MLLM生成的额外模态信息后,设计的下游结构旨在促进模态间的整合,并有效利用这些额外信息来增强隐喻检测能力。
3. 模态特定编码(Modality-Specific Encoding)
- 图像编码器(Image Encoder):使用ViT-Encoder对输入图像进行编码,得到图像的特征向量。
- 文本编码器(Text Encoder):使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本,采用了类似于BERT的段编码方法,为每个模态的文本添加额外的可学习参数向量。
4. 模态融合(Modality Fusion)
在融合之前,需要确保两个编码器的向量尺寸一致。对于文本模态,计算所有词向量的平均值作为整个句子的向量表示。对于视觉模态,使用CLS标记的向量作为整个图像的表示。然后,使用线性层和GeLU激活函数将视觉模态的向量映射到与文本模态相同的特征空间。
最终,将两个模态的向量进行拼接,形成最终的融合向量表示,用于后续的分类任务。
5. 分类器(Classifier)
- 隐喻分类:使用一个线性层和softmax分类器对融合后的跨模态向量进行隐喻分类。
- 图像主导和文本主导分类:使用两个单独的分类器来识别图像主导和文本主导的隐喻特征,以减少最终分类器的分类复杂性。
算法模型的关键特点
- 跨模态交互:通过三步CoT方法,模型能够理解图像和文本之间的深层次交互,这对于隐喻检测至关重要。
- 模态融合:通过特定的编码器和融合策略,模型能够有效地整合来自不同模态的信息,提高隐喻检测的准确性。
- 辅助任务:通过设计辅助任务,模型能够在检测图像和文本中的隐喻特征之前,先进行细粒度的分类,这有助于提高最终分类器的性能。
C4MMD框架通过这些精心设计的组件和策略,实现了对多模态隐喻的有效检测,展现了在处理复杂语言和视觉挑战方面的潜力。
实验效果
在MET-MEME数据集上的实验结果表明,C4MMD方法在多模态隐喻检测任务上取得了优异的性能。以下是一些重要的数据和结论:
- 主要分类结果:C4MMD在多模态隐喻检测任务上取得了87.70%的准确率,83.33%的精确率,81.58%的召回率,以及82.44%的F1分数。
- 消融研究:消融研究表明,模型的融合结构和CoT生成方法对于提高性能至关重要。
- 不同语言和视觉模型组合的影响:ViT和XLM-R的组合在模态融合中表现最佳。
- 模型大小的影响:随着模型大小的增加,特别是当模型最初较小时,性能提升越来越明显。
推荐阅读指数
4.5
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。
相关文章:

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用 目录 文章目录 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用目录摘要研究背景问题与挑战如何解决创新点算法模型1. 知识总结模块(Knowledge Summarization Module&…...
Linux之初体验
目录 第1关:1-Linux初体验 第2关:1-Linux常用命令 第3关:1-Linux 查询命令帮助语句 第4关:2--查询命令-locate 第5关:2--查询命令-which/whereis 第6关:2--查询命令-find 第7关:3-Linux文…...

现代化水电管理:Spring Boot在大学城的实践
2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…...

黑马官网2024最新前端就业课V8.5笔记---HTML篇
Html 定义 HTML 超文本标记语言——HyperText Markup Language。 标签语法 标签成对出现,中间包裹内容<>里面放英文字母(标签名)结束标签比开始标签多 /拓展 : 双标签:成对出现的标签 单标签:只有开…...

GS-Blur数据集:首个基于3D场景合成的156,209对多样化真实感模糊图像数据集。
2024-10-31,由韩国首尔国立大学的研究团队创建的GS-Blur数据集,通过3D场景重建和相机视角移动合成了多样化的真实感模糊图像,为图像去模糊领域提供了一个大规模、高覆盖度的新工具,显著提升了去模糊算法在真实世界场景中的泛化能力…...

Linux下Java的多种方式安装
Linux下Java的多种方式安装 博客: www.lstar.icu 开源地址 Gitee 地址: https://gitee.com/lxwise/iris-blog_parent Github 地址: https://github.com/lxwise/iris-blog_parent 序言 Java是一门面向对象的编程语言,不仅吸收了…...
Android Studio:connect time out
参考:Android Studio:connect time out_android studio connection timed out-CSDN博客...

A014-基于Spring Boot的家电销售展示平台设计与实现
🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…...

数学期望和联合概率密度
数学期望的定义 数学期望是描述随机变量平均趋势的一个重要统计量。根据随机变量的类型(离散或连续),数学期望的定义有所不同。 离散型随机变量的数学期望: 若离散型随机变量 X X X取值为 x 1 , x 2 , … , x n , … x_1,x_2,\do…...

萤石私有化设备视频平台EasyCVR视频融合平台如何构建农业综合监控监管系统?
现代农业的迅速发展中,集成监控管理系统已成为提高农业生产效率和优化管理的关键工具。萤石私有化设备视频平台EasyCVR,作为一个具有高度可扩展性、灵活的视频处理能力和便捷的部署方式的视频监控解决方案,为农业监控系统的建设提供了坚实的技…...

【MongoDB】Windows/Docker 下载安装,MongoDB Compass的基本使用、NoSQL、MongoDB的基础概念及基础用法(超详细)
文章目录 Windows下载MongoDB Compass使用NoSQL的基本概念MongoDB常用术语MongoDB与RDBMS区别MongoDB的CRUD 更多相关内容可查看 Docker安装MongoDB可查看:Docker-安装MongoDB Windows下载 官网下载地址:https://www.mongodb.com/try/download/communi…...
微信小程序-自定义导航栏
一.自定义导航栏 1.JSON文件中配置"navigationStyle": “custom” "navigationStyle": "custom"2.给导航栏设置轮播图 <swiper class"custom-swiper" indicator-dots autoplay interval"2000"> <swiper-item>…...
vue中强制更新视图
vue3 中强制更新视图 方式 通过 $forceUpdate 与 vue2 相似 import {getCurrentInstance} from vueconst internalInstance getCurrentInstance() //操作数据后更新视图 internalInstance.ctx.$forceUpdate()通过 key 值改变更新 <compName :key"key" />co…...
mqsql 场景函数整理
场景1:行数据取多字段,取到有值为止 解决方案: mysql coaleace函数 场景2:字符串拼接文本并换行 解决方案1: mysql concate() 和char(10) 场景3:获取单汉字首拼 解决方案1:单汉字获取首拼 解…...
【AI日记】24.11.05 向量数据库 weaviate、混合搜索、多语言搜索、明确自己的南京
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】 工作 工作1 内容:学习deeplearning.ai的课程课程:Vector Databases: from Embeddings to Applications时间:6小时评估:不错,完成收获:学…...

Scrapy入门
Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 安装scrapy pip install scrapy2.5.0 1.新建 Scrapy项目 scrapy startproject mySpider # 项目名为mySpider 2.进入到spiders目录 cd mySpider/mySpider/spiders 3.创建爬虫 scrapy gensp…...
Ubantu/Linux 采用Repo或Git命令报错!!
简言: 遇事还是不要慌,出现这些问题,很正常的;如果那些你不需要,只是需要回到某一个版本,那么就是需要,方法可以尝试回退节点,也可以尝试强行merge合入冲突,或找到冲突文件解决,但这些方法都非常的繁杂且不实用。以下是研究出来的解决方案! 记得随时使用git statu…...

C++简单工厂模式
什么是简单工厂模式? 简单工厂模式属于创造型模式,而工厂就是负责生产和创造的,顾名思义。建立对象的类就如一个工厂,而需要被建立的对象就是一个个产品;在工厂中加工产品,使用产品的人,不用在…...

讲讲 kafka 维护消费状态跟踪的方法?
大家好,我是锋哥。今天分享关于【讲讲 kafka 维护消费状态跟踪的方法?】面试题?希望对大家有帮助; 讲讲 kafka 维护消费状态跟踪的方法? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中&#x…...
MySQL 和 PostgreSQL 的对比概述
MySQL 和 PostgreSQL 是两种广泛使用的开源关系型数据库管理系统(RDBMS),它们各自有其特点和优缺点。以下将从多个方面对它们进行详细比较。 1. 介绍 MySQL: MySQL 由瑞典公司 MySQL AB 开发,2008 年被 Sun Microsyst…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...
ip子接口配置及删除
配置永久生效的子接口,2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)
本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...

AirSim/Cosys-AirSim 游戏开发(四)外部固定位置监控相机
这个博客介绍了如何通过 settings.json 文件添加一个无人机外的 固定位置监控相机,因为在使用过程中发现 Airsim 对外部监控相机的描述模糊,而 Cosys-Airsim 在官方文档中没有提供外部监控相机设置,最后在源码示例中找到了,所以感…...
在树莓派上添加音频输入设备的几种方法
在树莓派上添加音频输入设备可以通过以下步骤完成,具体方法取决于设备类型(如USB麦克风、3.5mm接口麦克风或HDMI音频输入)。以下是详细指南: 1. 连接音频输入设备 USB麦克风/声卡:直接插入树莓派的USB接口。3.5mm麦克…...
【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅!
【把数组变成一棵树】有序数组秒变平衡BST,原来可以这么优雅! 🌱 前言:一棵树的浪漫,从数组开始说起 程序员的世界里,数组是最常见的基本结构之一,几乎每种语言、每种算法都少不了它。可你有没有想过,一组看似“线性排列”的有序数组,竟然可以**“长”成一棵平衡的二…...

GC1808:高性能音频ADC的卓越之选
在音频处理领域,高质量的音频模数转换器(ADC)是实现精准音频数字化的关键。GC1808,一款96kHz、24bit立体声音频ADC,以其卓越的性能和高性价比脱颖而出,成为众多音频设备制造商的理想选择。 GC1808集成了64倍…...

【JavaEE】万字详解HTTP协议
HTTP是什么?-----互联网的“快递小哥” 想象我们正在网上购物:打开淘宝APP,搜索“蓝牙耳机”,点击商品图片,然后下单付款。这一系列操作背后,其实有一个看不见的“快递小哥”在帮我们传递信息,…...
Caliper 配置文件解析:config.yaml 和 fisco-bcos.json 附加在caliper中执行不同的合约方法
Caliper 配置文件解析:config.yaml 和 fisco-bcos.json Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO…...

智能照明系统:具备认知能力的“光神经网络”
智能照明系统是物联网技术与传统照明深度融合的产物,其本质是通过感知环境、解析需求、自主决策的闭环控制,重构光与人、空间、环境的关系。这一系统由智能光源、多维传感器、边缘计算单元及云端管理平台构成,形成具备认知能力的“光神经网络…...