当前位置：首页 > news >正文

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

news 2025/7/12 21:28:40

论文（2023年）链接：https://arxiv.org/pdf/2302.00923.pdf

GitHub项目链接：GitHub - amazon-science/mm-cot: Official implementation for "Multimodal Chain-of-Thought Reasoning in Language Models" (stay tuned and more will be updated)

CoT（chain of thought）想必大家都略有耳闻，就是在问大语言模型问题的时候，加入一步一步的思考步骤，以便让大模型有更好的效果，之前大多是文本类型的描述。这篇2023年的文章直接提出了一种Multimodal-CoT：直接结合了文本和图片这两类数据类型来做CoT，实验效果那当然是显著提升。文章在开头给出了multimodal CoT的示例：

在介绍的时候作者提到，为了验证multimodal CoT的效果，目前有两类常用的方法来做multimodal CoT的实验，一种是将不同modality的数据转化成一种modality作为输入，比如把图片中的文字部分抽取出来，一起喂给大语言模型。另一种，是将不同modality的数据进行特征融合然后自己微调语言模型。这篇文章做了模型微调这个任务。实验数据是Science QA。接下来看下这篇文章的框架图：

首先，作者将文本和图片输入一起用于生成CoT的内容，这里说是rationale generation（原理生成），目测就是一边将图片生成讲解，一边结合原始的文本输入，一起得到我们的思维链内容（新的文本输入）。然后将我们的思维链内容结合原本的language input一起喂给大模型来得到最终的答案。因此本文将原理生成和答案生成分成了两步，作者写了一个算法流程：

再给一个具体例子的截图：

至于baseline，作者说他们：

To begin with, we fine-tune a text-only baseline for CoT reasoning on the ScienceQA benchmark...Our task is modeled as a text generation problem, where the model takes the textual information as the input and generates the output sequence that consists of the rationale and the answer.

看起来就是根据原始文本输出CoT。

实验过程中，作者发现图片标题其实并不起作用：

As using image captions does not yield significant performance gains in Section 3.3, we did not use the captions.

在抽取图片feature的时候，作者用了三个不同的模型进行了比较，分别是CLIP，DETR和ResNet，发现DETR效果最好哈。另外，还有一个有意思的发现是，作者抽样了一些回答正确的不正确的QA及其对应的CoT，在answer是正确的例子里，有10%的CoT其实是错的。。。咱们的模型有时候还是可以通过忽略不正确的逻辑推理还能预测正确的答案。

好的，读完了这篇文章，知道图片信息可能可以通过一些模型读出来，rationale信息可以自动生成，再用于CoT-based的结果判断。

哦，读了这篇文章还有一个非常有意思的项目是：https://github.com/salesforce/LAVIS/tree/f982acc73288408bceda2d35471a8fcf55aa04ca/projects/instructblip

这个项目大家可以看看，可以生成图片的说明哦！

from lavis.models import load_model_and_preprocess
# loads InstructBLIP model
model, vis_processors, _ = load_model_and_preprocess(name="blip2_vicuna_instruct", model_type="vicuna7b", is_eval=True, device=device)
# prepare the image
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)model.generate({"image": image, "prompt": "Write a short description for the image."})

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

相关文章：

Multimodal Chain-of-Thought Reasoning in Language Models阅读笔记

C语言例4-15：从键盘输入一个整数，求其绝对值并输出。

【Linux】调试器-gdb的使用说明（调试器的配置，指令说明，调试过程说明）

Oracle AI Vector Search Multi-Vector Similarity Search 即多向量相似度检索学习笔记

白板手推公式性质 AR模型时间序列分析

零基础学python之高级编程(6)---Python中进程的Queue 和进程锁,以及进程池的创建（包含详细注释代码）

184. 部门工资最高的员工

插值表达式、Vue指令、指令补充

qiankun实现基座、子应用样式隔离

C语言从入门到实战----数据在内存中的存储

接口关联和requests库

Python编程基础 001 开篇:为什么要学习编程

AQS源码分析

应对Locked勒索病毒威胁：你的数据安全准备好了吗？

周末分享一篇关于html和http的文章吧

Frechet分布

vue3全局引入element-plus使用Message教程

时序预测 | Matlab实现BiTCN-BiLSTM双向时间卷积神经网络结合双向长短期记忆神经网络时间序列预测

基于 Linux 的更新版 MaxPatrol VM 可扫描 Windows

【软件开发】给Ubuntu 18.04虚拟机安装最新的Python 3.12.2

华为云AI开发平台ModelArts

Java 语言特性(面试系列2)

零门槛NAS搭建：WinNAS如何让普通电脑秒变私有云？

SciencePlots——绘制论文中的图片

【大模型RAG】Docker 一键部署 Milvus 完整攻略

el-switch文字内置

镜像里切换为普通用户

反射获取方法和属性

leetcodeSQL解题：3564. 季节性销售分析

让AI看见世界：MCP协议与服务器的工作原理