当前位置：首页 > news >正文

（2024，LLaVA-Bench (Wilder)，LLaVA-NeXT，LLaMA3，Qwen-1.5，语言模型扩展）

news 2025/7/9 5:46:00

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild

1. 简介

2. 探索大规模语言模型的能力极限

3. LLaVA-Bench (Wilder)：日常生活视觉聊天基准

4. Benchmark 结果

1. 简介

我们通过引入近期更强大的开源大语言模型（LLM）扩展了 LLaVA-NeXT，并报告了在更强语言模型（LM）方面的研究成果：

通过更强大、更大规模的语言模型提升多模态能力：模型规模最高提升至 3 倍。这使多模态模型（LMM）能够更好地展示来自 LLM 继承的视觉世界知识和逻辑推理能力。目前支持 LLaMA3（8B）和 Qwen-1.5（72B 和 110B）。
优化的视觉对话能力，适用于更多真实场景：覆盖不同应用场景。为评估改进后的多模态能力在实际中的表现，我们收集并开发了新的评估数据集——LLaVA-Bench（Wilder）。该数据集继承了 LLaVA-Bench（in-the-wild）的精神，聚焦日常生活中的视觉对话，同时扩大数据规模以进行更全面的评估。

为了清楚地体现 LLM 在提升多模态性能中的作用，我们继续沿用 LLaVA-NeXT 的相同训练策略，从而保持 LLaVA 家族的极简设计与数据效率。最大规模的 110B 模型在 128 张 H800 显卡上训练完成仅需 18 小时。

2. 探索大规模语言模型的能力极限

在我们对 LLaVA-NeXT 的探索中，当将 LLM 的规模从 13B 扩展到 34B 时，我们见证了显著的性能飞跃。随着更强大的开源 LLM 的出现，人们自然会对多模态性能的极限产生好奇，从而提出一个问题：LLM 的语言能力能多有效地迁移到多模态环境中？

为评估 LLM 的语言能力，我们采用了 “大规模多任务语言理解”（Massive Multitask Language Understanding，MMLU）benchmark 的得分。为评估在应用相同 LLaVA-NeXT 训练策略后的多模态能力，我们研究了四个关键基准：

用于跨学科理解的 MMMU、
用于视觉数学推理的 Mathvista、
用于科学图表理解的 AI2D，
用于日常视觉聊天场景的 LLaVA-W

这些基准涵盖了 LMM 在现实世界中的多种应用场景。

多模态能力与语言能力之间的相关性通过图 1 直观展示，其中利用回归线显示了各基准的趋势。

改进的语言能力：在可比规模的 LLM（例如 7B Mistral/Vicuna、7B Qwen、8B LLaMa3）中，有一个一致的趋势，即语言能力越强（通过 MMMU 得分衡量），多模态能力也越强。

模型规模的影响：在同一 LLM 系列中（例如 Qwen LLM：7B、72B、110B），较大规模的模型在多模态基准上始终表现更优。这进一步表明，较大规模的模型往往具备更强的语言能力，从而在多模态任务中表现更好。

在上述两种分析中，更强大的 LLM 通常表现出更优的多模态能力。这种现象可以归因于更广泛的世界知识、强大的逻辑推理能力以及卓越的对话能力，这些能力通常与更强大的 LLM 相关。通过 LLaVA-NeXT 的轻量级训练，这些语言能力得以良好地保留并转移到视觉语言领域，这得益于跨模态概念的对齐，以及视觉指令调优中与人类意图的对齐。

3. LLaVA-Bench (Wilder)：日常生活视觉聊天基准

开发大语言模型（LLM）的终极目标之一是构建一个通用助手，帮助人类处理日常生活中的各种多模态任务。因此，建立稳健的基准来精准衡量相关进展显得尤为重要。LLaVA-Bench（In-the-Wild），也被称为 LLaVA-W，就是这样一个基准，用于衡量多模态模型（LMMs）的日常生活视觉聊天能力。

然而，由于仅包含 60 个示例，我们认识到需要一个更大规模的数据集。基于此，我们引入了 LLaVA-Bench（Wilder），该基准包括两个版本：一个较小的版本，包含 120 个示例，用于快速评估；以及一个中等规模的版本，包含 1020 个示例，用于全面测量。这些数据集涵盖了多种场景，例如数学问题解决、图像理解、代码生成、视觉 AI 助手和基于图像的推理。为了构建这些数据集，我们收集了来自在线服务的反映真实用户需求的指令和图像。随后，我们对样本进行了严格筛选，以解决隐私问题并降低潜在风险。这些提示的回答均使用 GPT4-V 生成。

与其他基准的比较。图 2 展示了 LLaVA-Bench（Wilder）与现有 LMM 评估基准之间的可视化对比。许多现有基准采用固定格式的问答（QA）模式，这种模式因其在评估指标和模型比较中的易用性而被广泛采用。基于这一趋势，诸如 MMMU、Mathvista 和 AI2D 等基准被设计用于评估 LMM 在特定知识密集领域的性能。而 RealWorldQA 则聚焦于日常场景，但局限于简短回答格式。然而，作为助手模型，具备与用户进行自由形式对话的能力对激发兴趣至关重要，超越了简单短答的局限性。因此，在日常生活视觉聊天场景中加入自由形式的对话变得尤为关键。LLaVA-W 通过引入这样一个基准原型树立了先例，而 LLaVA-Bench-Wilder 则通过涵盖更多日常生活场景和不同应用进一步拓展了这一基准。

4. Benchmark 结果

项目页面：https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/

LLaVA-Bench (in-the-wild)：https://github.com/haotian-liu/LLaVA/blob/main/docs/LLaVA_Bench.md

（2024，LLaVA-Bench (Wilder)，LLaVA-NeXT，LLaMA3，Qwen-1.5，语言模型扩展）

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild

1. 简介

2. 探索大规模语言模型的能力极限

3. LLaVA-Bench (Wilder)：日常生活视觉聊天基准

4. Benchmark 结果

相关文章：

（2024，LLaVA-Bench (Wilder)，LLaVA-NeXT，LLaMA3，Qwen-1.5，语言模型扩展）

IPEX-LLM开发项目过程中的技术总结和心得

HTTP/HTTPS ②-Cookie || Session || HTTP报头

【软考】软件设计师

K8s Pod OOMKilled，监控却显示内存资源并未打满

C++ 原子变量

linux网络 | http结尾、理解长连接短链接与cookie

金融项目实战 02|接口测试分析、设计以及实现

二、智能体强化学习——深度强化学习核心算法

Mysql--架构篇--存储引擎InnoDB（内存结构，磁盘结构，存储结构，日志管理，锁机制，事务并发控制等）

JVM实战—13.OOM的生产案例

client-go 的 QPS 和 Burst 限速

使用docker-compose安装Redis的主从+哨兵模式

数据结构(Java版)第七期：LinkedList与链表(二)

ant-design-vue 1.X 通过id获取a-input组件失败

Flutter：吸顶效果

MATLAB语言的数据类型

priority_queue优先队列

HarmonyOS 鸿蒙Next 预览pdf文件

vscode开启调试模式,结合Delve调试器调试golang项目详细步骤

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

Java线上CPU飙高问题排查全指南

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

HDFS分布式存储 zookeeper

安宝特案例丨Vuzix AR智能眼镜集成专业软件，助力卢森堡医院药房转型，赢得辉瑞创新奖

无人机侦测与反制技术的进展与应用

JS手写代码篇----使用Promise封装AJAX请求

免费数学几何作图web平台