当前位置: 首页 > news >正文

An Early Evaluation of GPT-4V(ision)

本文是LLM系列文章,针对《An Early Evaluation of GPT-4V(ision)》的翻译。

GPT-4V的早期评估

  • 摘要
  • 1 引言
  • 2 视觉理解
  • 3 语言理解
  • 4 视觉谜题解决
  • 5 对其他模态的理解
  • 6 结论

摘要

在本文中,我们评估了GPT-4V的不同能力,包括视觉理解、语言理解、视觉解谜以及对深度、热、视频和音频等其他模式的理解。为了评估GPT-4V的性能,我们手动构建656个测试实例,并仔细评估GPT-4V的结果。研究结果的亮点如下:(1)GPT-4V在以英语视觉为中心的基准测试中表现出令人印象深刻的性能,但无法识别图像中的简单中文文本;(2) GPT-4V在回答与性别、种族和年龄等敏感特征相关的问题时表现出不一致的拒绝行为;(3) GPT-4V在包括一般语言理解基准和视觉常识知识评估基准在内的语言理解任务上获得比GPT-4(API)更差的结果;(4) 小样本提示可以提高GPT-4V在视觉理解和语言理解方面的表现;(5) GPT-4V努力寻找两张相似图像之间的细微差别,并解决简单的数学图片难题;(6)GPT-4V在与图像类似的模式(如视频和热)的任务上表现出了非凡的性能。我们的实验结果揭示了GPT-4V的能力和局限性,我们希望我们的论文能为GPT-4V的应用和研究提供一些见解。

1 引言

2 视觉理解

3 语言理解

4 视觉谜题解决

5 对其他模态的理解

6 结论

在本文中,我们定量研究了GPT-4V在各种任务中的性能。根据研究结果,我们发现GPT-4V虽然在标准的以英语为中心的视觉基准上取得了很高的性能,但仍然不能进行中文文本识别。这一观察结果表明,有必要对中国基准进行进一步深入评估,以衡量GPT-4V的能力。我们还观察到,GPT-4V即使具有很强的视觉理解能力和数学问题解决能力,也无法解决简单的数学图片谜题。原因可能是GPT-4V没有很好地推广到这个领域。另一个问题是,GPT-4V在回答与身份和性别、种族和年龄等敏感特征有关的问题时表现出不一致的拒绝行为。这个问题可能会导致GPT-4V的性能明显下降,在未来的研究中应该小心处理。
至于局限性,我们承认GPT4V的性能可能会因采用不同的提示方法而有所不同。例如,更具体的指令和更好的示例将提高其性能。我们希望在未来的工作中探索利用其他高级提示,如思维链提示。我们也承认,每个任务的更多测试实例可以使估计结果更准确,但由于劳动力成本高,我们只对部分实例进行了采样。
尽管如此,这还是首次尝试定量研究GPT-4V在各种任务中的性能。在我们的研究中,我们揭示了GPT-4V的优势和局限性。我们希望我们的研究能够为未来的研究和应用提供见解。

相关文章:

An Early Evaluation of GPT-4V(ision)

本文是LLM系列文章,针对《An Early Evaluation of GPT-4V(ision)》的翻译。 GPT-4V的早期评估 摘要1 引言2 视觉理解3 语言理解4 视觉谜题解决5 对其他模态的理解6 结论 摘要 在本文中,我们评估了GPT-4V的不同能力,包括视觉理解、语言理解、…...

Vue在移动端实现图片的手指缩放

使用V-View点击图片进行预览: npm install v-viewer --save 在main.js进行引入 在图片下方会有 轮播箭头下一张上一张等,因此要用配置来关闭。 import Viewer from v-viewer // viewer.js一种图片预览处理工具 import viewerjs/dist/viewer.css …...

Failed to prepare the device for development

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的编码爱好者 大家好,我是 DevO…...

PPT文档图片设计素材资源下载站模板源码/织梦内核(带用户中心+VIP充值系统+安装教程)

源码简介: PPT文档图片设计素材资源下载站模板源码,作为织梦内核素材资源下载站源码,它自带了用户中心和VIP充值系统,也有安装教程。 织梦最新内核开发的模板,该模板属于素材下载、文档下载、图库下载、PPT下载、办公…...

万能鼠标设置 SteerMouse v5.6.8

鼠标可谓是用户们在使用电脑时候的必备外接设备呢!适合你自己的鼠标设置也绝对能够优化你的Mac使用体验!想要更好的Mac体验就试试用Steermouse Mac版吧。它通过软件来自由设置你的鼠标操作!在这款万能鼠标设置工具中,用户可以在偏…...

16 用于NOMA IoT网络上行链路安全速率最大化的HAP和UAV协作框架

文章目录 摘要相关模型仿真实验仿真结果 摘要 优化无人机到HAP的信道分配、用户功率和无人机三维位置来研究上行安全传输解决非凸问题,采用K-means聚类算法,将成对的用户划分成不同的组,每个簇可以有相应的无人机服务,然后将构造…...

【C++】STL容器——vector类的使用指南(含代码演示)(11)

前言 大家好吖,欢迎来到 YY 滴C系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! 目录 一、vector类——基本介绍二、vector类…...

elementui 修改 el_table 表格颜色,表格下方多了一条线问题

解决: 加入以下代码 .el-table::before { z-index: inherit; } 如果使用了scoped,需要加上stylus /deep/ (其他的css语言有不一样的写法) 或是全局加入 body .el-table::before { z-index: inherit; } 其他背景色,表格边框颜色修改 //表头/de…...

阿里云/腾讯云国际站代理:阿里云服务器介绍

阿里云是由阿里巴巴集团旗下的云计算服务提供商。阿里云提供的服务包括云服务器、数据库服务、数据分析、人工智能、大数据、物联网等多种云计算产品和解决方案。阿里云的数据中心遍布全球多个地区,提供可靠且安全的云计算基础设施和服务。阿里云在中国以及全球范围…...

Go学习第十章——文件操作,Json和测试

Go文件操作,Json和测试 1 文件1.1 基本介绍1.2 读取的基本操作1.3 写入的基本操作1.4 使用案例(三个) 2 Go语言的Json使用2.1 序列化案例2.2 反序列化案例 3 单元测试3.1 先看个需求3.2 快速入门3.3 入门总结 1 文件 1.1 基本介绍 文件在程序中是以流的形式来操作…...

学习不同概率分布(二项分布、泊松分布等)概念及基础语法

概率分布是描述随机变量取值的概率情况的函数。常见的概率分布包括二项分布、泊松分布等。 二项分布(Binomial Distribution):描述了一次试验中成功事件发生的次数的概率分布。它的基础语法如下: 概率质量函数:pmf(k, …...

在3台不联网的 CentOS 7.8 服务器上部署 Elasticsearch 6.8 集群

为了在3台不联网的 CentOS 7.8 服务器上部署 Elasticsearch 6.8.23 集群,并考虑到path.data和path.logs的配置,我们可以按照以下步骤进行操作: 1. 准备工作 1.1 从有网络的机器下载 Elasticsearch 6.8.23 的 RPM 包: https://w…...

CentOS 7

导入已有虚拟机 设置SSH免密登录 参考Ubuntu- 远程连接虚拟机(桥连接) 宿主机:Win10虚拟机:VMware保证宿主机和主机在同一个网段下(宿主机和主机通过手机热点连接,在特定网段内,不能更改&#…...

个人记账理财软件 Money Pro mac中文版软件介绍

Money Pro for mac是一款综合性高的理财工具,Money Pro是一套能够协同工作的工具,可用来追踪账户、管理账单以及制作预算,您可以为每个时间段设置不同的预算限值。财务一切尽在掌控之中。 Money Pro for mac软件介绍 Money Pro for mac提供一…...

DSP 开发教程(0): 汇总

目录 DSP 开发教程(0): 汇总开发环境搭建DSP 开发例程 DSP 开发教程(0): 汇总 开发环境搭建 开发环境的搭建参考: Tronlong创龙 的博客. 安装 CCS v5.5 安装 BIOS_MCSDK DSP 开发例程 名称说明led_flash此例程实现在 EVM6678L 开发板控制 LED 闪烁. 使用了 SYS/BIOS 和 MC…...

YouTrack 中如何设置邮件通知

在 YouTrack 中,默认是不会邮件通知的。 你可以为你的账号设置邮件通知。 设置的方法为单击用户属性,然后在弹出的小窗口中选择属性选项。 设置邮件通知 在通知 Tab 页面中,选择发送邮件的方式,默认这个选项是不选择的。 用户…...

Prevalence and prevention of large language model use in crowd work

本文是LLM系列文章,针对《Prevalence and prevention of large language model use in crowd work》的翻译。 众包工作中使用大型语言模型的流行率和预防 摘要1 研究1:LLM使用的普遍率2 研究2:LLM使用的预防3 讨论4 材料与方法 摘要 我们表…...

微信小程序学习(02)

页面导航 - 声明式导航 1. 导航到 tabBar 页面 tabBar 页面指的是被配置为 tabBar 的页面。 在使用<navigator> 组件跳转到指定的 tabBar 页面时&#xff0c;需要指定 url 属性和 open-type 属性&#xff0c;其中&#xff1a; ⚫ url 表示要跳转的页面的地址&#xff0…...

Transit path

一、什么是Transit path "Transit" 路径通常指的是网络上的一种数据传输路线或路径&#xff0c;该路线用于在计算机网络中传递数据包。这个术语通常在网络和通信领域中使用&#xff0c;用于描述数据从一个地方传输到另一个地方的路线或路径。 在计算机网络中&#…...

backend-learning: personal blog(1)

问题记录&#xff1a; 跨度太大&#xff0c;无法完成&#xff0c;遂决定从基础学起。 规划路线&#xff1a; 1.完成JAVA与c语言差异部分&#xff0c;&#xff08;注解&#xff0c;其实没多少&#xff09; 2.上springboot官网查看开发手册&#xff0c;了解大致原理。 3. 开始挑…...

centos7系统下,实现1台服务器免密登录多台服务器功能

SSH案例&#xff1a;实现kafka01服务器能够免密登录kafka02和kafka03服务器的需求&#xff08;不然后面一键启动的脚本将无法使用&#xff09;⭐ 1&#xff1a;检查每台服务器是否都安装了SSH&#xff1a; [rootkafka01 ~]# rpm -qa |grep ssh openssh-clients-7.4p1-21.el7.…...

【力扣SQL】几个常见SQL题

【力扣SQL】184. 部门工资最高的员工 Employee&#xff1a;id&#xff08;主键&#xff09;、name、salary、departmentId&#xff08;外键&#xff09; Department&#xff1a;id&#xff08;主键&#xff09;、name 出每个部门中薪资最高的员工&#xff1a;Department.name、…...

[Python] ModuleNotFoundError: No module named ‘_ctypes‘

Python 找不到模块 此前遇到了 python 中的 _ctypes 模块丢失的问题&#xff0c;经排查发现是 Pyenv 安装的 python 确实缺少了此模块&#xff0c;后来使用 conda 安装 Python 发现 _ctypes.cpython-37m-x86_64-linux-gnu.so 此包存在。 排查方法是先全局查找相关模块&#xff…...

牛客网刷题-(5)

&#x1f308;write in front&#x1f308; &#x1f9f8;大家好&#xff0c;我是Aileen&#x1f9f8;.希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流. &#x1f194;本文由Aileen_0v0&#x1f9f8; 原创 CSDN首发&#x1f412; 如…...

springcloud gateway转发后getServerName被更改的问题

该问题起源于一次将代码移植到微服务产生。当使用springcloud gateway更换掉nginx网关后&#xff0c;出现无法登录的情况&#xff0c;跟进发现转发的信息里丢失了Host MimeHeaders accept */* knife4j-gateway-code ROOT content-type application/x-www-form-urlencoded …...

Linux - firewall-cmd 命令添加端口规则不生效排查

文章目录 linux 防火墙 firewall-cmd 命令详解问题排查 linux 防火墙 firewall-cmd 命令详解 基本语法 firewall-cmd --zonezone-name --add-serviceservice-name --permanent命令参数 --zone&#xff1a;指定要添加服务的区域名称。 --add-service&#xff1a;指定要添加的…...

iPhone手机屏幕分辨率

ios app测试时&#xff0c;需要测试应用在不同型号的苹果手机上的表现形式&#xff0c;可以自己在浏览器上配置。 代数设备逻辑像素尺寸缩放发布时间第一代iPhone 2G320 x 480480 x 3203.5寸1x2007年6月29日第二代iPhone 3320 x 480480 x 3203.5寸1x2008年7月11日第三代iPhone …...

文件包含漏洞(3),日志利用, 图片木马利用

日志利用, 图片木马利用 一, 利用服务器日志 通过普通的网络请求向日志文件注入代码, 再利用文件包含漏洞执行日志中的代码段. apache log: /opt/lampp/logs/access_log nginx log: /usr/local/nginx/logs/access.log 首先可以利用文件包含漏洞测试日志文件的内容是否可以显…...

java面试--线程总结

Java中有几种方式来创建线程执行任务&#xff0c;分别是什么&#xff1f; 1、继承Thread类 public class MyThread extends Thread{public static void main(String[] args) {MyThread myThread new MyThread();myThread.start();}Overridepublic void run() {System.out.pr…...

Angular-02:环境等说明

项目名不要带数字npm版本过低安装工具时加上版本号现项目完整的工具链&#xff1a;angular ngZorro rxjs ngrx sassvscode好用插件分享&#xff1a; 名称说明Auto Close Tag自动闭合html标签Auto Import自动引包&#xff08;可自动生成文件路径提示方便文件导入&#xff0…...