当前位置: 首页 > news >正文

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V情感:多模态情感理解的zero-shot基准

1.摘要

最近,GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而,它在情感识别方面的功效仍然是个问题。本文定量评估了GPT-4V在多通道情感理解方面的能力,包括面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别等任务。我们的实验表明,GPT-4V表现出令人印象深刻的多模态和时间理解能力,甚至在某些任务中超过了监督系统。尽管取得了这些成就,GPT-4V目前是为一般领域定制的。它在需要专业知识的微表情识别中表现不佳。本文的主要目的是呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准。代码和评测结果可在:https://github . com/zero qiaoba/GPT 4v-emotion获取。

GPT-4V:

        虽然在多模态任务上表现良好,但情感识别方面仍有提升潜力

        GPT-4V的优点:多模态和时间理解能力优秀,甚至在某些任务中超过了监督系统

        GPT-4V的不足:在需要专业知识的微表情识别中表现不佳

多模态情感理解任务: 

        面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

本文的目的:呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准

zero-shot就可以被定义为:利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。【摘自:Zero-shot(零次学习)简介-CSDN博客】

2.背景及研究意义

  • 多模态情感理解任务旨在整合多模态信息(即图像、视频、音频和文本)来理解情绪。
  • 为每项任务选择有限数量的样本,对GPT-4V的性能进行定性评估,当前GPT-4V请求限制100+左右。
  • 目前的GPT-4V只支持图像和文本,对于音频,我们试图转换成梅尔频谱图,以捕捉副语言信息然而,GPT-4V拒绝承认梅尔光谱图。因此,我们的评估主要集中在图像、视频和文本上

创新性:

        这是第一个定量评估GPT-4V在情绪任务中表现的工作。我们希望我们的工作可以为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。

评估对象:

        GPT 4 API(GPT-4-1106-preview)

GPT-4对请求有三个限制:

        每分钟令牌数(TPM)、每分钟请求数(RPM)和每天请求数(RPD)

        为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入。
 

面部表情识别为例

提示:请扮演一个面部表情分类专家的角色。我们提供20张图片。

请忽略说话者的身份,专注于面部表情。

对于每幅图像,请根据与输入的相似性从高到低对提供的类别进行排序。

以下是可选的类别:[快乐、悲伤、愤怒、恐惧、厌恶、惊讶、中性]。

每个图像的输出格式应该是{'name ':,' result ':}。

Prompt:

Please play the role of a facial expression classification expert.We provide 20 images.

Please ignore the speaker’s identity and focus on the facial expression.

For each image,please sort the provided categories from high to low according to the similarity with the input.

Here are the optional categories:[happy,sad,angry,fearful,disgusted,surprised,neutral].

The output format should be {’name’:,’result’:}for each image.

总结

        实验专注于:图像、视频和文本模态

        评估的模型GPT 4 API(GPT-4-1106-preview),为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入

        创新性:第一个定量评估GPT-4V在情绪任务中表现的工作。目标为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。 

3.实验和结果

在本文中,我们评估了GPT-4V在五个任务中的zero-shot性能

表1 2总结了数据集统计和标注方法:

  • 表1:五类基本情感理解任务及数据集信息:(面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

        面部情绪识别识别:对于视频的处理:提取每个序列的最后三帧用于情感识别。

                                        提取关键帧,包括各种头部姿势、遮挡和光照

        视觉情感分析:旨在识别由图像引起的情感,而不要求图像以人为中心

                                为了与之前的作品进行公平的比较,我们将这些标签重新映射为积极和消极的情绪。

        微表情识别:微表情持续时间短,强度低,并且出现在稀疏的面部动作单元中[28]

                              使用apex框架评估GPT-4V对微表情的识别

        动态面部情绪识别将分析扩展到图像序列或视频。需要进一步利用时态信息。

                                        评价指标包括未加权平均召回率(UAR)和加权平均召回率(WAR)

        多模态情绪识别情绪:整合不同来源的信息

                                            本文主要研究否定/肯定分类任务。分别为< 0分和> 0分分配正类和负类。

  • 表2:数据集及采用的情感标签信息。

对于视觉情感分析(见表4),GPT-4V优于监督系统,表明其在从视觉内容理解情感方面的强大能力。然而,GPT-4V在微表情识别方面表现不佳(见表5),这表明GPT-4V目前用于一般领域。它不适合需要专业知识的领域

表6-7显示了GPT-4V和监督系统在视频理解方面的差距。值得注意的是,由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。

对色彩空间的稳健性在表3中,GPT-4V在CK+和FERPlus上表现稍差。由于两个数据集都有灰度图像,一个合理的假设出现了:当面对灰度图像时,GPT-4V的表现会更差吗为了探索这种可能性,我们将RAF-DB中的所有RGB图像转换为灰度图像,并将结果报告在表8中。有趣的是,GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性

时间理解能力为了降低评估成本,我们对每个视频统一采样三帧。在本节中,我们将进一步研究不同采样数的影响。如表9所示,当采样帧数从3减少到2时,性能明显下降。这突出了在未来工作中增加采样帧数的重要性

多模态情感理解:表10报告了三个基准数据集上的单峰和多峰结果。

观察到多模态结果优于单峰结果,证明了GPT-4V整合和利用多模态信息的能力。但是对于CMU-MOSI,我们在多模态结果中观察到轻微的性能下降。这个数据集主要依赖于词汇信息[77],视觉信息的加入可能会给GPT-4V理解情绪带来一些困惑

总结

  1. 对于视觉情感分析,GPT-4V优于监督系统,其在从视觉内容理解情感方面的强大能力。
  2. GPT-4V在微表情识别方面表现不佳,GPT-4V目前用于一般领域。不适合需要专业知识的领域
  3. GPT-4V和监督系统在视频理解方面的差距。由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。
  4. GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性
  5. 多模态结果优于单峰结果

4.结论

本文做了什么:提供了对GPT-4V在五个不同任务中的多模态情绪理解性能的评估

结论是什么:GPT-4V在理解视觉内容的情感方面有很强的能力,甚至超过了监督系统。然而,它在需要专业领域知识的微表情识别中表现不佳

本文还做了什么:为后续研究的zero-shot基准

本文还能做什么

  • 由于GPT-4V API成本较高,本文对视频输入统一采样3帧。未来的工作将探索更高采样率下的性能
  • 整合更多与情感相关的任务和数据集,以提供对GPT-4V的全面评估

5.读后感

1.本文的价值在哪里?

        对于最新的模型,GPT4的情感识别能力进行了第一次全方位评估。

2.本文的对于情感的可解释性做了哪些阐释?

        将模型的情感理解能力体现为以下任务的性能:面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别——【情感分类任务】

3.如何理解其作为zero-shot基准?

        本文工作希望为后续研究的zero-shot基准, 其目标在于让计算机模拟人类的情感推理方式,来识别从未见过的新事物的情感。

        其在大量的情感任务及数据集上做了初次尝试。

4.接下来的工作可能从哪些方面开展?

        视频更好的采样来观测性能变化

        收集更多的情感数据集评估GPT-4情感能力。

相关文章:

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding GPT-4V情感:多模态情感理解的zero-shot基准 1.摘要 最近&#xff0c;GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而&#xff0c;它在情感识别方面的功效仍然是个问题。本文定…...

CogVLM与CogAgent:开源视觉语言模型的新里程碑

引言 随着机器学习的快速发展&#xff0c;视觉语言模型&#xff08;VLM&#xff09;的研究取得了显著的进步。今天&#xff0c;我们很高兴介绍两款强大的开源视觉语言模型&#xff1a;CogVLM和CogAgent。这两款模型在图像理解和多轮对话等领域表现出色&#xff0c;为人工智能的…...

CSS的盒子模型(重点)

网页布局的三大核心&#xff1a;盒子模型、浮动、定位 网页布局的过程&#xff1a; 1. 先准备好相关的网页元素&#xff0c;网页元素基本都是盒子 Box 。 2. 利用 CSS 设置好盒子样式&#xff0c;然后摆放到相应位置。 3. 往盒子里面装内容.网页布局的核心本质&#xff1a; 就…...

论文笔记:Bilinear Attention Networks

更精简的论文学习笔记 1、摘要 多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而&#xff0c;学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。为了解决这个问题&#xff0c;共同注意力为每个模态建立了两个独立的注意分布&#x…...

2312llvm,01基本介绍

LLVM设计的核心是它的IR. 在把LLVMIR翻译特定汇编语言时,LLVM首先将程序变换为(DAG)有向无环图,以更易选指(SelectionDAG)容易,然后变换回三地址指令,来调度指令(MachineFunction). 为了看清驱动编译程序时,调用的后续工具,用-###命令行参数: $ clang -### hello.c -o hello…...

Spring之手写IoC

学习的最大理由是想摆脱平庸&#xff0c;早一天就多一份人生的精彩&#xff1b;迟一天就多一天平庸的困扰。各位小伙伴&#xff0c;如果您&#xff1a; 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持&#xff0c;想组团高效学习… 想写博客但无从下手&#xff0c;急需…...

IDEA运行JSP启动后页面中文乱码

源代码截图&#xff1a; 运行结果截图&#xff1a; 在<head>标签内加入代码 <% page contentType"text/html; charsetgb2312"%> 重启服务器&#xff0c;问题已改善 ————————————————— 该文仅供学习以及参考&#xff0c;可做笔记收藏…...

Python 自动化之收发邮件(二)

发邮件之Windows进程监控 文章目录 发邮件之Windows进程监控前言一、基本内容二、基本结构三、库模块四、函数模块1.进程监控2.邮件发送 五、程序运行模块1.获取时间2.用户输入3.进程监控3.1进程启动发邮件3.2进程停止发邮件 总结 前言 上一篇简单写了一下如何进行邮件的收发操…...

RHEL8_Linux_Ansible常用模块的使用

本章主要介绍Ansible中最常见模块的使用 shell模块文件管理模块软件包管理模块服务管理模块磁盘管理模块用户管理模块防火墙管理模块 ansible的基本用法如下。 ansible 机器名 -m 模块x -a "模块的参数" 对被管理机器执行不同的操作&#xff0c;只需要调用不同的模块…...

2023 英特尔On技术创新大会直播 | AI 融合发展之旅

前言 2023 年的英特尔 On 技术创新大会中国站&#xff0c;主要聚焦最新一代增强 AI 能力的计算平台&#xff0c;深度讲解如何支持开放、多架构的软件方案&#xff0c;以赋能人工智能并推动其持续发展。 大会的目标之一是优化系统并赋能开发者&#xff0c;特别注重芯片增强技术…...

【JavaWeb】往浏览器打印一个hello world

上集:建一个web项目 第一步&#xff1a;建好Servlet类的文件 右键src&#xff0c;建一个class 就行 第二步&#xff1a;编代码 可以直接复制粘贴 用来测试的类 import javax.servlet.annotation.WebServlet; import javax.servlet.http.HttpServlet; //↓是注解&#xff0…...

技术探秘:在RISC Zero中验证FHE——由隐藏到证明:FHE验证的ZK路径(1)

1. 引言 开源代码实现见&#xff1a; https://github.com/hashcloak/fhe_risc0_zkvm&#xff08;Rust&#xff09;https://github.com/weikengchen/vfhe-profiled&#xff08;Rust&#xff09;https://github.com/l2iterative/vfhe0&#xff08;Rust&#xff09; L2IV Resea…...

Spring容器中scope为prototype类型Bean的回收机制

文章目录 一、背景二、AutowireCapableBeanFactory 方法 autowireBean 分析三、Spring 容器中 scope 为 prototype 类型 Bean 的回收机制四、总结 一、背景 最近做 DDD 实践时&#xff0c;遇到业务对象需要交给 Spring 管理才能做一些职责内事情。假设账号注册邮箱应用层代码流…...

Python生成器(python系列25)

前言&#xff1a;什么是生成器&#xff0c;他和迭代器的区别是什么&#xff1f;什么时生成器表达式&#xff0c;为什么和列表推导式那么像呢&#xff1f; 生成器&#xff1a; 定义&#xff1a;能够动态&#xff08;循环一次&#xff0c;计算一次&#xff0c;返回一次&#xf…...

Vue项目搭建过程

Vue项目搭建过程 1、安装NodeJs 1.1 下载安装包 在 http://nodejs.cn/download/ 上下载64位安装包&#xff0c;然后进行安装&#xff0c;和普通软件的安装一样。 C:\Users\Administrator>node -v v16.13.1C:\Users\Administrator>npm -v 8.5.51.2 安装cnpm # 安装cn…...

系统分析师(软考)知识点整理(一)

第一章 信息 信息是不确定性的减少 xi: n个状态中的第i个状态p(xi):出现第i个状态的概率b: b一般取值为2 特征 #mermaid-svg-pvPkY9RE5GZIIIxl {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-pvPkY9RE5GZIIIxl…...

2021年数维杯国际大学生数学建模D题2021年电影市场票房波动模型分析求解全过程文档及程序

2021年数维杯国际大学生数学建模 D题 2021年电影市场票房波动模型分析 原题再现&#xff1a; 1、电影票房预测建模背景   随着人们文化消费需求的增加&#xff0c;电影院和银幕的数量不断增加&#xff0c;我国的电影产业不断呈现出繁荣景象。2019年&#xff0c;全国电影票房…...

Kubernetes 的用法和解析 -- 5

一.企业级镜像仓库Harbo 准备&#xff1a;另起一台新服务器&#xff0c;并配置docker yum源&#xff0c;安装docker 和 docker-compose 1.1 上传harbor安装包并安装 [rootharbor ~]# tar xf harbor-offline-installer-v2.5.3.tgz [rootharbor ~]# cp harbor.yml.tmpl harbor…...

HTML选择题试题——附答案

单选题 HTML的缩写是什么&#xff1f; A) Hyper Tool Markup LanguageB) Hyperlinks and Text Markup LanguageC) Hyper Text Markup LanguageD) Home Tool Markup Language 下列哪个标签用于定义文档的主体内容&#xff1f; A) <head>B) <body>C) <title>D)…...

html之CSS的高级选择器应用

文章目录 一、CSS高级选择器有哪些呢&#xff1f;二、高级选择器的应用1、层次选择器后代选择器子选择器相邻兄弟选择器通用兄弟选择器 2、结构伪类选择器&#xff08;不常用&#xff09;3、属性选择器E[attr]E[attrval]E[attr^val]E[attr$val]E[attr*val] 一、CSS高级选择器有…...

elementui+ <el-date-picker type=“datetime“/>时间组件的当前时间的180天之内的禁止选择处理

需求1如下&#xff1a;当前时间180天不可选择&#xff0c;180天之后可以选择&#xff0c;之前的时间都禁止选择 页面代码如下&#xff1a; <el-date-picker v-model"temp.expire_time" :picker-options"pickerOption" type"datetime" placeh…...

全网好听的BGM都在这里下载,赶紧收藏好了

无论是自媒体创作者还是从事视频剪辑工作的朋友&#xff0c;对于BGM的选择都很重要&#xff0c;一首适配的BGM能大大提升你作品的质量&#xff0c;还能让作品更优秀。哪里才能找到好听又免费的BGM&#xff1f;下面推荐几个我多年收藏的6个音效、音频素材网站&#xff0c;赶紧收…...

Spark编程实验一:Spark和Hadoop的安装使用

目录 一、目的与要求 二、实验内容 三、实验步骤 1、安装Hadoop和Spark 2、HDFS常用操作 3、Spark读取文件系统的数据 四、结果分析与实验体会 一、目的与要求 1、掌握在Linux虚拟机中安装Hadoop和Spark的方法&#xff1b; 2、熟悉HDFS的基本使用方法&#xff1b; 3、掌…...

代理和AOP

一:java代理 整体分为两种&#xff1a;静态代理和动态代理 静态代理&#xff1a;23种设计模式里面有个代理模式&#xff0c;那个就是静态代理。 动态代理&#xff1a;分为编译时增强(AspectJ)和运行时增强(JDK动态代理和CGLIB动态代理) 1:静态代理 这种代理在我们日常生活中其…...

Solidity-3-类型

Solidity 是一种静态类型语言&#xff0c;这意味着每个变量&#xff08;状态变量和局部变量&#xff09;都需要在编译时指定变量的类型。 “undefined”或“null”值的概念在Solidity中不存在&#xff0c;但是新声明的变量总是有一个 默认值 &#xff0c;具体的默认值跟类型相…...

【mask转json】文件互转

mask图像转json文件 当只有mask图像时&#xff0c;可使用下面代码得到json文件 import cv2 import os import json import sysdef func(file:str) -> dict:png cv2.imread(file)gray cv2.cvtColor(png, cv2.COLOR_BGR2GRAY)_, binary cv2.threshold(gray,10,255,cv2.TH…...

华清远见嵌入式学习——ARM——作业1

要求&#xff1a; 代码&#xff1a; mov r0,#0 用于加mov r1,#1 初始值mov r2,#101 终止值loop: cmp r1,r2addne r0,r0,r1addne r1,r1,#1bne loop 效果&#xff1a;...

如何在公网环境使用固定域名远程访问内网BUG管理系统协同办公

文章目录 前言1. 本地安装配置BUG管理系统2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射本地服务3. 测试公网远程访问4. 配置固定二级子域名4.1 保留一个二级子域名5.1 配置二级子域名6. 使用固定二级子域名远程 前言 BUG管理软件,作为软件测试工程师的必备工具之一。在…...

k8s pod网络排查教程

1、背景 背景&#xff1a;在日常的k8s运维中&#xff0c;经常会遇到pod之间网络无法访问&#xff0c;域名无法解释的情况。且容器中网络排查命令不全&#xff0c;导致无法准确定位问题。 2、nsenter介绍 #Centos 下载方式 $ yum install util-linux -ynsenter 是一个 Linux …...

Apollo Planning——换道:LANE_CHANGE_DECIDER

LaneChangeDecider 是lanefollow 场景下&#xff0c;所调用的第一个task&#xff0c;它的作用主要有两点&#xff1a;判断当前是否进行变道&#xff0c;以及变道的状态&#xff0c;并将结果存在变量lane_change_status中&#xff1b;变道过程中将目标车道的reference line放置到…...