论文解读 | ECCV2024 AutoEval-Video:一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试...
点击蓝字

关注我们
AI TIME欢迎每一位AI爱好者的加入!

点击 阅读原文 观看作者讲解回放!
作者简介
陈修元,上海交通大学清源研究院硕士生
概述
总结来说,我们提出了一个新颖且具有挑战性的基准测试AutoEvalVideo,用于全面评估大型视觉-语言模型在开放式视频问答中的表现。AutoEvalVideo的全面性体现在两个方面:1) AutoEval-Video构建了跨越9个技能维度的开放式视频问题,涵盖了感知、理解和生成的能力;2) AutoEval-Video包含了新收集的视频,覆盖了超过40个不同的主题。为了高效评估对开放式问题的回应,我们采用了基于大型语言模型(LLM)的评估方法,但与仅仅提供参考答案不同,我们为每一个实例(视频-问题对)标注了独特的评估规则。为了最大化这些规则的鲁棒性,我们开发了一种新颖的对抗性标注机制。通过使用特定实例规则作为提示,GPT-4作为一个自动评估器,能够实现大约97.0%的稳定评估准确率,与人类评估者94.9% - 97.5%的准确率相当。此外,我们在AutoEval-Video上评估了十一个大型视觉-语言模型的性能。其中,GPT-4V(视觉)显著优于其他模型,达到了32.2%的准确率。然而,与人类72.8%的准确率相比,仍有相当大的提升空间。通过进行广泛的案例研究,我们揭示了GPT4V的几个缺点,例如时间理解和跨帧理解能力有限,以及回应不够切题等。
论文地址:https://arxiv.org/abs/2311.14906
代码链接:https://github.com/XiuyuanChen/AutoEval-Video
Research Background
本文首先探讨了大型模型从文本单模态到视频多模态的发展历程。通过以人与大模型对话的形式呈现的图像,清晰地展示了多模态模型的演变。从图中可以观察到,信息交流从单一的文本模态逐步扩展至图片模态,最终发展到可以进行视频交互。
目前,大多数研究工作集中在图片和文本这两个模态上。然而,随着抖音、B站和YouTube等短视频平台的兴起,仅依靠图片模态传递的信息开始显得相对有限。这促使了对视频内容深入理解的模型的发展,使得这些模型能够与人类就视频内容进行文字交互,并提供相应的回应。
为了评估视频理解模型对视频内容的理解程度,可以通过视频问答形式来进行,这也成为了评测这类模型能力的主要方法。

在该任务中,出现了诸如 MSRVTTQA、TGIFQA 等众多视频数据集。然而,这些数据集存在一些不足。首先,它们提出的问题的任务维度具有局限性。其次,这些数据集的问答任务大多采用多选题形式,有些数据集的问题与视频甚至采用了预设的模板和剧本。
多选题形式因答案固定,便于使用如准确率这样的定量指标来评估模型表现,从而避免了对开放式回答的评测。然而,这种形式对于生成式视频理解模型的输出格式不太友好。在多选题场景下,非生成式模型可以把任务视为分类任务,即在所有候选答案中输出概率分布并选择最符合的选项。这种做法在一定程度上简化了视频问答任务。例如,在包含 ABCD 四个选项的单选题中,随机选择的答对概率为四分之一。
理想情况下,模型应该能够像与人类交谈的机器人一样回答问题。因此,从适用性角度出发,应将任务框架从多选题转变为单选题或简答题格式,要求模型以简明的话语回答问题,而非从多个候选答案中选择。这是当前视频评测机制存在的主要问题之一。
另一个问题在于,如 DeepMind 的 Perception Test 数据集,其在标注数据时采用的视频和问题具有预设的脚本或模板。具体操作是先划分任务维度,再根据任务维度制定问题模板和视频剧本,有目的地构造数据。然而,这种方法并不适宜,因为在全面评测视频理解能力时,问题的提出方式和视频内容应该是多样化的,而非格式化和受限的。

Motivation
正如前面所讨论的,现有研究工作中存在的主要问题可以分为三类:任务维度划分过于简单、采用多选题的任务形式、以及问题和视频的模板化。然而,其中最关键的问题是如何有效地评测开放式回答。
在对视频内容的简答题进行评分时,评卷老师拥有一份参考答案,但学生提交的答案往往千差万别,这使得量化评分变得复杂。在此情境中,评分通常依赖于详尽的评分准则,其中明确列出了关键的得分点和分数分配方式。
受到这种评分模式的启发,本文希望构建一套基于详细评分规则的评测体系,并让大型语言模型(LLM)扮演评判的角色。这样的评测体系将允许对模型生成的开放式答案进行更精确和公正的评估。通过设定明确的评分准则和得分点,LLM将能够评估答案的质量,从而提高评分的一致性和可靠性。

AutoEval-Video
在AutoEval-Video的标志性工作中,作者首先根据对推理能力的要求划分出九个评测维度。这些任务维度进一步被分类为三种类型:感知、认知和生成。
感知类任务主要考察模型对视频中基本信息的识别和提取能力;认知类任务在感知的基础上要求模型进行更深层次的推理和思考,包括时间空间推理、因果推理等;生成类任务期望模型能够根据给定的视频内容和指令生成描述性文本或广告词等。
为了实现这些任务维度的有效评测,本工作会训练专门的人员,使他们能够根据这些维度平衡地提出问题,并从YouTube等平台寻找合适的视频素材进行标注。

AutoEval-Video的评测流程和数据样例如图所示。流程本身相当简洁:每条数据包括一个视频、一个相关问题,以及一个对应的评判规则。模型需要根据视频内容回答问题,其提供的答案随后将与评判规则一同输入到大型语言模型(LLM)中进行评估。在这个实验中,使用的是目前最先进的LLM,即GPT-4,它作为评判机制,能够基于提供的输入给出判断依据和结论。

AutoEval-Video的视频素材来源于YouTube,标注人员根据自身的想象力并遵循特定的任务要求来构造问题。展示的数据包括文字标注、视频长度及内容主题的分布等统计特征。
种类繁多的网络视频使得AutoEval-Video的主题分布显得尤为多样化。这些视频主要包括运动记录、Vlog、生活记录等内容。此外,还涵盖了交通记录视频、游戏实况、直播等多种类型,为模型提供了丰富的场景和背景,以便进行更全面和深入的视频内容理解和分析。

Piplines of Rules Annotation
本项目采用的规则标准流程较之前的工作拥有更细化的规则设置。在GPT工具中,评分系统通常基于统一的情节,即给定一段描述,GPT根据自身模型回答并提供参考答案,评分则从语句通顺性或语法错误等角度进行主观量化,评分范围为0到5分。而AutoEval-Video则将规则细化到每个样本点,具体地,每个样本都会单独构造规则,包括视频描述、问题本身及裁分点,以及对GPT返回格式的具体约束。
为确保GPT根据这些规则给出的判断既公平又客观,本文引入了对抗性标注机制。具体操作如AutoEval-Video所述,规则制定团队负责维护和更新规则,并引入另一标注团队作为“攻击团队”,该团队会根据旧规则编写可能引发GPT误判的答案。所谓“误判”是指答案在规则设定的场景下GPT判断结论与人类判断结果不一致的情况,这类答案被称为“有效攻击答案”。通过攻击答案的提出,激励规则得以不断更新。整个过程在攻击和规则更新中循环进行,最终形成一套完备、客观公平且具有说服力的规则体系。
此外,作者还设立了奖励机制,以激励两队人员在标注过程中保持积极主动性,并维护标注工作的对抗性竞争性,确保标注过程的质量和效率。

Experiment on AutoEval-Video
下面呈现的是该平台上对几个状态最先进模型(Sota模型)的评测结果,其中包括了相应的case study。
在实验结果的展示中,左边的表格展示了几个Sota模型在AutoEval-Video上的评测结果,显示出GPT-4V在视频理解方面的性能远超其他模型。然而,与人类的表现相比,GPT-4V仍然有较大的提升空间。
右边的表格则展示了在三种不同配置下的消融实验结果:统一提示、使用初始规则进行判断,以及在对抗性迭代后使用更新规则进行判断。在这三种配置下,GPT-4V的判断准确率几乎可以与普通人的判断能力相媲美,而判断结果的Ground Truth是通过人类标记者的投票产生的。
这些实验结果展示了AutoEval-Video在自动视频评测领域的潜力,表明通过精细化的规则和适当的配置,LLM的判断能力可以接近甚至达到人类水平。

Case Study
除了量化实验结果之外,作者还对包括GPT-4V在内的多模态模型进行了深入的案例研究。结果表明,尽管GPT-4V在多模态处理方面具有先进的能力,但在处理多帧连续信息、理解时序特征以及物体运动等方面的表现仍有待改进。特别是,该模型在处理视频内容时,其输出往往显得冗长且不够简练。

在评估其他多模态模型时,作者发现它们普遍存在几个关键问题:首先是幻觉问题,其次是输出语序的混乱。幻觉问题的具体表现在于模型有时会为其错误的答案编造自我解释,从而创造出视频中实际不存在的视觉信息。这导致模型的输出与视频内容不符,损害了结果的可靠性和准确性。而对于输出中出现乱码以及语序混乱的问题,作者认为是被评测模型本身所用到的LLM语言能力不足所导致的。

本篇文章由陈研整理
往期精彩文章推荐

关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

我知道你
在看
提出观点,表达想法,欢迎
留言

点击 阅读原文 观看作者讲解回放!
相关文章:
论文解读 | ECCV2024 AutoEval-Video:一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试...
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 点击 阅读原文 观看作者讲解回放! 作者简介 陈修元,上海交通大学清源研究院硕士生 概述 总结来说,我们提出了一个新颖且具有挑战性的基准测试AutoEvalVideo,用于全…...
postgresql14主从同步流复制搭建
1. 如果使用docker搭建请移步 Docker 启动 PostgreSQL 主从架构:实现数据同步的高效部署指南_docker安装postgresql主从同步-CSDN博客 2. 背景 pgsql版本:PostgreSQL 14.13 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4…...
企业信息化管理中的数据集成方案:销售出库单对接
企业信息化管理中的数据集成方案:销售出库单对接 销售出库单旺店通→金蝶:高效数据集成案例分享 在企业信息化管理中,数据的高效流动和准确对接是实现业务流程自动化的关键。本文将聚焦于一个具体的系统对接集成案例:如何将旺店通…...
3.cpp基本数据类型
cpp基本数据类型 1.cpp基本数据类型 1.cpp基本数据类型 C基本数据类型和C语言的基本数据类型差不多 注意bool类型:存储真值 true 或假值 false,C语言编译器C99以上支持。 C语言的bool类型:要添加 #include <stdbool.h>头文件 #includ…...
MCK主机加固与防漏扫的深度解析
在当今这个信息化飞速发展的时代,网络安全成为了企业不可忽视的重要议题。漏洞扫描,简称漏扫,是一种旨在发现计算机系统、网络或应用程序中潜在安全漏洞的技术手段。通过自动化工具,漏扫能够识别出系统中存在的已知漏洞࿰…...
《软件估算之原始功能点:精准度量软件规模的关键》
《软件估算之原始功能点:精准度量软件规模的关键》 一、软件估算的重要性与方法概述二、原始功能点的构成要素(一)数据功能(二)事务功能 三、原始功能点的估算方法(一)功能点分类估算࿰…...
序列化与反序列化
序列化和反序列化是数据处理中的两个重要概念,它们在多种场景下都非常有用,尤其是在分布式系统、网络通信、持久化存储等方面。下面是对这两个概念的详细解释: 序列化(Serialization) 定义:序列化是将对象…...
安装nginx实现多ip访问多网站
[rootlocalhost ~]# systemctl stop firewalld 关防火墙 [rootlocalhost ~]# setenforce 0 关selinux [rootlocalhost ~]# mount /dev/sr0 /mnt 挂载点 [rootlocalhost ~]# dnf install nginx -y 安装nginx [rootlocalhost ~]# nmtui 当前主机添加多地址 [rootlocal…...
每日回顾:简单用C写 冒泡排序、快速排序
冒泡排序 冒泡排序(Bubble Sort)是一种简单的排序算法,它通过重复遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复进行直到没有再需要交换,也就是说该数列已…...
前端_007_Axios库
文章目录 配置响应结构拦截器 引入: 官网: https://www.axios-http.cn/ 一句话简介:浏览器里基于XmlHttpRequests,node.js里基于http模块封装的网络请求库,使用非常方便 //通用例子axios({method:post,url: request…...
NAND FLASH 与 SPI FLASH
面试的时候再有HR针对从数据手册开始做,直接说明:例如RK3588等高速板设计板都有设计指导书,基本把对应的DDR等型号和布局规范都说明,或者DCDC电路直接给一个典型设计原理图,或者BMS更加经典,原理图给的是最…...
QTCreator打不开双击没反应
问题描述 双击后进程里显示有,当过几秒直接消失 解决 找到C\用户\AppData\Roaming\QtProject,删除目录下QtCreator.ini文件(这会重置QtCreator的默认设置),再打开QtCreator时会自动生成对应于默认设置的QtCreator.ini文件&…...
vue npm run ...时 报错-系统找不到指定的路径
vue项目修改时,不知道那一步操作错误了,运行npm run …时报错 系统找不到指定的路径,对此进行记录一下! 解决方法: 1、执行 npm install 命令,重新下载模块 2、根据下方提示执行 npm fund 查看详细信息 …...
54页可编辑PPT | 大型集团企业数据治理解决方案
这份PPT是关于大型集团企业数据治理的全面解决方案,它详细介绍了数据治理的背景、需求、管理范围、框架、解决思路,以及数据治理在实际操作中的关键步骤。内容涵盖了数据架构、数据质量、数据应用等方面的问题,并提出了数据资产透视、智能搜索…...
STM32嵌入式移植GmSSL库
前言 最近在做一个换电柜的项目,需要和云端平台对接json协议,由于服务端规定了,需要采用sm2 sm3 sm4用来加密。在嵌入式方面只能用北京大学的GmSSL了。 下载GmSSL 在https://github.com/guanzhi/GmSSL下载库 也可以通过git命令下载&#x…...
【mod分享】极品飞车10高清模组,,全新道路,全新建筑,高清植被,全新的道路围栏,全新的天空,画质直逼极品飞车20。支持光追
各位好,今天小编给大家带来一款新的高清重置魔改MOD,本次高清重置的游戏叫《极品飞车10卡本峡谷》。 《极品飞车10:卡本峡谷》该游戏可选择四个模式:生涯、快速比赛、挑战赛、多人连线游戏模式(已不可用)&…...
使用U-KAN训练自己的数据集 — 医疗影像分割
<U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation> U-Net已成为各种视觉应用的基石,如图像分割和扩散概率模型。虽然通过整合变压器或mlp引入了许多创新设计和改进,但网络仍然局限于线性建模模式以及缺乏可解释性。为了应对这些挑战,受到…...
游戏盾在防御DDoS与CC攻击中的作用与实现
随着网络游戏的普及和发展,DDoS(分布式拒绝服务)攻击和CC(Challenge Collapsar)攻击成为了游戏服务器面临的主要威胁之一。游戏盾作为一种专门针对游戏行业设计的防御解决方案,能够在很大程度上减轻甚至消除…...
为什么说红帽认证(RHCE)是网络工程师的万金油证书?
在网络工程师圈子里,大家都知道考证的重要性,但面对一堆琳琅满目的认证,你可能会疑惑到底哪个证书含金量高、适用面广? 如果你问我,红帽认证(RHCE)绝对是当之无愧的“万金油”证书,…...
89.【C语言】编译和链接
1.翻译环境和运行环境总述 翻译环境:源代码被转换为机器码(又称为二进制指令)(包含编译和链接两个过程)依赖此环境 运行环境:可执行程序(Windows下的*.exe)到输出结果依赖此环境 2.翻译环境 翻译环境的解释 拆分为预处理(又称为预编译),编译和汇编三个过程 VS下的编译器:…...
装饰模式(Decorator Pattern)重构java邮件发奖系统实战
前言 现在我们有个如下的需求,设计一个邮件发奖的小系统, 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式(Decorator Pattern)允许向一个现有的对象添加新的功能,同时又不改变其…...
地震勘探——干扰波识别、井中地震时距曲线特点
目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波:可以用来解决所提出的地质任务的波;干扰波:所有妨碍辨认、追踪有效波的其他波。 地震勘探中,有效波和干扰波是相对的。例如,在反射波…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
基于Docker Compose部署Java微服务项目
一. 创建根项目 根项目(父项目)主要用于依赖管理 一些需要注意的点: 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件,否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...
令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
短视频矩阵系统文案创作功能开发实践,定制化开发
在短视频行业迅猛发展的当下,企业和个人创作者为了扩大影响力、提升传播效果,纷纷采用短视频矩阵运营策略,同时管理多个平台、多个账号的内容发布。然而,频繁的文案创作需求让运营者疲于应对,如何高效产出高质量文案成…...
宇树科技,改名了!
提到国内具身智能和机器人领域的代表企业,那宇树科技(Unitree)必须名列其榜。 最近,宇树科技的一项新变动消息在业界引发了不少关注和讨论,即: 宇树向其合作伙伴发布了一封公司名称变更函称,因…...
Kubernetes 网络模型深度解析:Pod IP 与 Service 的负载均衡机制,Service到底是什么?
Pod IP 的本质与特性 Pod IP 的定位 纯端点地址:Pod IP 是分配给 Pod 网络命名空间的真实 IP 地址(如 10.244.1.2)无特殊名称:在 Kubernetes 中,它通常被称为 “Pod IP” 或 “容器 IP”生命周期:与 Pod …...
