当前位置：首页 > news >正文

智源联合多所高校推出首个多任务长视频评测基准MLVU

news 2026/5/11 13:30:56

当前，研究社区亟需全面可靠的长视频理解评估基准，以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此，智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准MLVU（A Comprehensive Benchmark for Multi-Task Long Video Understanding）。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行多模态大模型（MLLM）评测发现，排名第一的GPT-4o的单选正确率不足65%，揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素，期待MLVU能够推动社区对长视频理解研究的发展。

论文标题：MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接：https://arxiv.org/abs/2406.04264

项目链接：https://github.com/FlagOpen/FlagEmbedding/tree/master/MLVU

背景介绍

使用MLLM进行长视频理解具有极大的研究和应用前景。然而，当前研究社区仍然缺乏全面和有效的长视频评测基准，它们主要存在以下问题：

1、视频时长不足：当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计，大部分视频的长度都在1分钟以内。

2、视频种类和任务类型不足：现有评测基准往往专注在特定领域的视频（例如电影[4, 5]，第一视角[6]）和特定的视频评测任务（例如Captioning[2]，Temporal Perception[7]，Action Understanding[8]）

3、缺乏合理的长视频理解任务设计：现有部分长视频理解评测任务往往只和局部帧有关[4]；或者使用针对经典电影进行问答[9]，MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU的构建过程

针对以上不足，我们提出了MLVU：首个全面的多任务长视频理解Benchmark。MLVU具有以下特点：

1、充足且灵活的视频时长

MLVU的视频时长覆盖了3分钟到超过2小时，平均视频时长12分钟，极大扩展了当前流行的Video Benchmark的时长范围。另外，MLVU的大部分任务标注过程中进行了片段-问题对应标注（例如，Video Summarization任务分段标注了视频的前3分钟，前6分钟...）。MLLMs可以灵活地在MLVU上选择测试不同时长情况下的长视频理解能力。

2、覆盖真实和虚拟环境的多种视频来源

MLVU收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。

3、针对长视频理解设计的全面任务类别

我们针对长视频理解设计了9类不同的任务，并进一步将他们任务分为三类：全面理解，单细节理解、多细节理解。

·全面理解任务：要求MLLMs理解和利用视频的全局信息来解决问题；

·单细节理解任务：要求MLLMs根据问题定位长视频中的某一细节，并利用该细节来解决问题；

·多细节理解任务：要去MLLMs定位和理解长视频中的多个相关片段来完成和解决问题。

此外，我们还包括了单项选择题形式和开放生成式问题，全面考察MLLMs在不同场景下的长视频理解能力。

（文末提供了MLVU的9类任务示例图参考）

4、合理的问题设置与高质量答案标注

以情节问答（Plot Question Answering）任务为例。一部分Benchmark[9, 10]使用电影/电视的角色作为问题线索来对MLLMs进行提问，然而他们使用的视频多为经典电影/电视，MLLMs可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分Benchmark[4]试图避免这个问题，但由于长视频的复杂性，仅仅利用代词和描述性语句来指代情节细节非常困难，他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让MLLMs自己根据题目寻找对应细节。

MLVU通过精细的人工标注克服了这些问题，在所有的情节问答任务中，MLVU均使用“具有详细细节的代词”来指代情节中的人物、事件或背景，避免了问题泄露带来的潜在影响，MLLMs需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外，MLVU的Plot QA问题具备丰富的多样性，增强了评测的合理性和可靠性。

详细分析MLLMs在MLVU上的表现

我们在MLVU上对20个流行的MLLM进行了评测，包括开源模型和闭源模型。评测结果如下：

实验结果发现：

（1）长视频理解仍然是富有挑战的任务。尽管GPT-4o[11]在所有任务中均取得了第1名的成绩，然而，它的单选平均准确率只有64.6%。所有的模型都在需要细粒度理解能力的任务上（单细节、多细节理解任务）表现糟糕。此外，大部分模型的性能都会随着视频时长增加显著下降。

（2）开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的InternVL-1.5[12]单选平均准确度仅有50.4%；开放生成式题目最强的LLaMA-Vid得分仅有4.22，均远远落后于GPT-4o的64.6%和5.80。此外，现有长视频模型并没有在长视频理解任务上取得理想的成绩，说明当前的MLLMs在长视频理解任务上仍然存在较大的提升空间。

（3）上下文长度、图像理解能力、LLM Backbone 是MLLMs提升长视频理解能力的关键因素。实证研究发现，提升上下文窗口，提升MLLM的图像理解能力，以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。这揭示了未来MLLMs在提升长视频理解能力的重要改进方向。

总结

我们提出MLVU，首个专为长视频理解任务设计的全面多任务评测基准。MLVU极大扩展了现有基准的视频长度、提供了丰富的视频类型，并针对长视频理解设计了多样化的评估任务，从而为MLLMs提供了一个可靠高质量的长视频理解评测平台。

通过评估当前流行的20个MLLMs，我们发现，长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究，我们揭示了多个影响长视频理解能力的因素，为未来MLLMs的长视频理解能力构建提供了洞见。此外，我们将不断扩展和更新MLVU覆盖的视频类型和评估任务，期待MLVU能够促进社区对长视频理解研究的发展。

附录：MLVU的任务示例图

部分参考文献：

[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.

[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.

[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.

[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.

[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.

[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.

[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.

[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

智源联合多所高校推出首个多任务长视频评测基准MLVU

背景介绍

MLVU的构建过程

详细分析MLLMs在MLVU上的表现

总结

相关文章：

智源联合多所高校推出首个多任务长视频评测基准MLVU

Linux系统：线程概念线程控制

LearnOpenGL - Android OpenGL ES 3.0 绘制纹理

山东济南最出名的起名大师颜廷利：二十一世纪哲学的领航者

Nginx 负载均衡实现上游服务健康检查

小程序使用接口wx.getLocation配置

Protobuf安装配置--附带每一步截图

力扣1019.链表中的下一个更大节点

查询mysql库表的几个语句

【CT】LeetCode手撕—103. 二叉树的锯齿形层序遍历

1958springboot VUE宿舍管理系统开发mysql数据库web结构java编程计算机网页源码maven项目

LVS DR模式

myslql事务示例

解决Flutter应用程序的兼容性问题

整合微信支付一篇就够了

视创云展为企业虚拟展厅搭建，提供哪些功能？

c++ 常用的锁及用法介绍和示例

PostgreSQL源码分析——口令认证

Stability-AI（图片生成视频）

Linux机器通过Docker-Compose安装Jenkins发送Allure报告

AI伦理决策：从技术中立到可执行框架的工程实践

第四章数字孪生制作完整流程

MMD创作者必看：除了跳舞，你还能用MikuMikuDance玩出哪些花样？

ARMv8内存管理：TCR_EL1寄存器详解与实战配置

QMCDecode终极指南：如何快速解锁QQ音乐加密文件实现跨设备播放

5分钟上手Efficient-KAN：高效Kolmogorov-Arnold网络实战指南

C#循环入门指南：从0到1掌握循环逻辑

从‘主仆’到‘边沿’：一个硬件工程师眼中的触发器进化史，以及为什么主从结构今天依然值得学

深入Acid引擎架构：模块化设计与现代C++17的最佳实践指南

从苹果三星2016年困境看消费电子行业创新与供应链管理