当前位置: 首页 > article >正文

【GPT-4V全面评估】:大语言多模态模型的黎明时代

多模态大模型时代的黎明GPT-4V(ision)全面能力深度测评当AI还在为看图说话磕磕绊绊时GPT-4V已经悄悄解锁了看懂世界的超能力。它不仅能识别图片里的物体还能理解梗图的笑点、解数学题、读X光片、甚至帮你操作电脑完成网购。今天我们就来深度拆解这篇来自微软研究院的重磅测评论文看看GPT-4V到底有多强又有哪些软肋。论文信息标题The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)会议arXiv 2023预印本单位微软研究院代码无官方测评代码可通过OpenAI API调用GPT-4V论文https://arxiv.org/pdf/2309.17421.pdf一、什么是LMMGPT-4V的超能力从何而来LMMLarge Multimodal Model大语言多模态模型通俗来说就是能同时看懂文字和图片的AI。它把强大的大语言模型LLM和视觉编码器结合起来让AI拥有了眼睛能够理解视觉世界并和语言世界打通。GPT-4V是OpenAI推出的最新多模态模型它在GPT-4的基础上增加了视觉理解能力。这篇论文通过200多个实验从16个维度全面评估了GPT-4V的能力发现它在很多任务上已经达到甚至超越了人类水平。二、基础视觉能力从认得出到看得懂2.1 图像描述不止是看图说话GPT-4V不仅能描述图片里有什么还能理解场景的上下文和隐含信息。比如给它一张婚礼照片它能说出这是中式还是西式婚礼甚至能描述人物的表情和动作。2.2 细粒度视觉识别能区分双胞胎的火眼金睛细粒度识别就是区分同一大类下的不同子类比如区分不同品种的狗、不同型号的汽车。GPT-4V在这方面表现出色甚至能识别出不同品牌的logo和产品细节。2.3 医学图像理解AI医生初露锋芒最让人惊喜的是GPT-4V在医学图像上的表现。它能看懂X光片、CT和MRI甚至能生成初步的放射报告。图1GPT-4V生成的腹部X光报告原文Figure 75分析GPT-4V准确识别出这是腹部X光片并诊断出部分小肠梗阻这和专业放射科医生的判断一致。不过论文也指出GPT-4V偶尔会出现幻觉比如凭空捏造结节的大小和位置所以目前只能作为辅助工具不能替代医生。三、目标定位与密集描述精准锁定每一个像素3.1 目标定位给物体画个框目标定位就是用Bounding Box边界框标出图片中物体的位置。GPT-4V能根据文字描述准确找到对应的物体并输出坐标。表1GPT-4V目标定位示例原文Figure 26人物边界框坐标(x1,y1,x2,y2)Person 1(120, 250, 420, 950)Person 2(500, 240, 800, 940)Person 3(880, 230, 1180, 930)Person 4(1260, 220, 1560, 920)坐标解释(x1,y1)(x1, y1)(x1,y1)边界框左上角的坐标(x2,y2)(x2, y2)(x2,y2)边界框右下角的坐标所有坐标都归一化到0-1之间0代表图片的最左/最上1代表最右/最下3.2 密集描述给每个物体写小作文密集描述就是对图片中的每个物体都生成详细的描述。GPT-4V不仅能识别出人物还能说出他们的身份和成就。比如给它一张深度学习三巨头的合影它能准确认出Yann LeCun、Geoffrey Hinton和Yoshua Bengio并介绍他们的贡献。四、多模态知识与常识AI也有生活经验4.1 梗图与笑话理解AI也能get你的笑点这绝对是最有趣的部分GPT-4V不仅能看懂文字笑话还能理解梗图的笑点。图2拖延症梗图理解原文Figure 28案例分析梗图内容“我8点再做。时间8:05。我看来得等到9点了。”GPT-4V的解释“这个梗讽刺了拖延症如果你错过了原定的时间点就会干脆把任务推迟到下一个整点。图中的科米蛙躺在床上代表了拖延者不想做事的心态。”4.2 科学知识推理AI学霸上线GPT-4V能结合图片和科学知识进行推理。比如给它一张粒子运动图它能根据粒子速度判断温度高低给它一张食物网图它能找出生产者和消费者。五、场景文本与图表理解AI的阅读能力5.1 场景文本识别能看懂路牌和菜单场景文本识别就是识别图片中的文字比如路牌、菜单、广告牌。GPT-4V在这方面表现出色能识别多种语言的文字包括手写体。5.2 视觉数学推理AI也会做数学题GPT-4V能看懂图片中的数学公式并解题包括代数方程和几何题。示例题目求解方程(x3)24(x3)^24(x3)24GPT-4V的解答对等式两边开平方得 x3 ±2 解得 x -1 或 x -55.3 图表与文档理解能读财报和论文GPT-4V能看懂柱状图、折线图、流程图甚至能理解多页的技术报告。比如给它一张公司财报的图表它能分析出哪个产品的利润最高。六、多语言多模态理解精通多国语言的AIGPT-4V支持20多种语言的多模态理解。你可以用中文提问让它描述一张英文海报也可以用西班牙语提问让它用法语回答。有趣案例给它一张写着武汉热干面的中文海报它不仅能认出文字还能告诉你这是武汉的特色小吃是中国十大早餐之一。七、视觉编码能力从图片到代码GPT-4V最神奇的能力之一就是能把图片转换成代码。它能根据手写的公式生成LaTeX代码根据表格生成Markdown或LaTeX代码甚至能根据图表生成Python绘图代码。核心代码根据图片生成Python绘图代码下面是GPT-4V根据一张折线图生成的Python代码importmatplotlib.pyplotaspltimportnumpyasnp# 数据xnp.array([10**6,10**7,10**8])# 预训练图像数量y_basenp.array([80,100,120])y_largenp.array([90,110,130])y_hugenp.array([100,120,140])# 创建图形plt.figure(figsize(8,6))plt.plot(x,y_base,labelBase,markero)plt.plot(x,y_large,labelLarge,markers)plt.plot(x,y_huge,labelHuge,marker^)# 设置坐标轴plt.xscale(log)plt.xlabel(10 million images in pre-training)plt.ylabel(Performance)plt.legend()plt.title(Model Performance vs Pre-training Data Size)plt.show()八、人机交互视觉指向提示8.1 什么是视觉指向提示视觉指向提示Visual Referring Prompting通俗来说就是在图片上画圈圈、箭头来告诉AI要看哪里。这是一种非常自然的人机交互方式就像我们平时指着图片和别人交流一样。图3视觉指向提示示例原文Figure 50分析你可以在图片上画个圈问这个杯子里是什么也可以画个箭头问这条边有多长。GPT-4V能准确理解这些视觉提示并给出针对性的回答。8.2 生成指向输出AI也会指东西GPT-4V不仅能理解人类的指向还能自己生成指向输出。比如你问蓝色的车在哪里它会输出蓝色车的边界框坐标告诉你它在图片的哪个位置。九、时序与视频理解AI也能看视频虽然GPT-4V主要处理静态图片但它能通过分析视频的关键帧来理解视频内容。它能识别动作的先后顺序预测接下来会发生什么甚至能定位某个动作发生在哪个帧。有趣案例给它一段足球点球的视频帧序列它能准确指出球员在哪一帧踢到了球以及守门员有没有扑到球。十、抽象视觉推理与IQ测试AI的智商有多高论文用人类的IQ测试题来评估GPT-4V的抽象推理能力包括韦氏成人智力量表和瑞文渐进矩阵。图4瑞文渐进矩阵测试原文Figure 62分析瑞文渐进矩阵是一种非语言的智力测试要求根据图形的规律找出缺失的图形。GPT-4V在这类测试中表现良好说明它具备较强的抽象推理能力。十一、情商测试AI也有同理心11.1 面部表情识别能看懂你的喜怒哀乐GPT-4V能准确识别人类的面部表情包括开心、悲伤、愤怒、恐惧等。11.2 情感条件输出能根据情绪调整回答你可以让GPT-4V用不同的语气描述同一张图片。比如让它用幽默的语气描述一张日落图或者用恐怖的语气描述一张楼梯图。十二、新兴应用亮点GPT-4V能做什么12.1 工业应用缺陷检测与安全检查缺陷检测给GPT-4V一张产品图片和一张合格产品的参考图片它能准确找出产品的缺陷。安全检查能识别工地上有没有人没戴安全帽有没有安全隐患。图5缺陷检测示例原文Figure 72分析单张图片时GPT-4V可能无法判断什么是缺陷。但加入参考图片后它能准确找出轮胎上的划痕和轮毂的损坏。12.2 医疗应用放射报告生成如前所述GPT-4V能根据医学图像生成初步的放射报告大大减轻医生的工作负担。12.3 具身智能AI机器人的大脑GPT-4V可以作为机器人的大脑让机器人看懂周围的环境并完成任务。比如让它去厨房拿一瓶水它能通过分析摄像头的画面规划路线找到冰箱并打开门。12.4 GUI导航能操作电脑和手机GPT-4V能看懂电脑和手机的界面并模拟人类的操作。比如让它在亚马逊上买一个50-100美元的人体工学键盘它能一步步完成搜索、筛选、加购和结账的全过程。十三、LMM驱动的智能体未来的方向论文最后探讨了如何进一步增强GPT-4V的能力构建更强大的LMM智能体多模态插件让GPT-4V调用外部工具比如搜索引擎、计算器、图像生成器。多模态链把多个任务串联起来比如先检测图片中的人再判断他们有没有戴安全帽。自我反思让GPT-4V自己检查和修正自己的回答。自洽性多次生成回答然后用多数投票的方式选出最准确的答案。检索增强让GPT-4V从数据库中检索相关信息提高回答的准确性。十四、结论与展望GPT-4V的出现标志着多模态大模型时代的正式到来。它在视觉理解、知识推理、人机交互等方面展现出了惊人的能力为很多行业带来了革命性的变化。但我们也要清醒地看到GPT-4V还有很多不足偶尔会出现幻觉生成虚假信息空间定位能力还不够精确对复杂场景的理解还有待提高缺乏实时感知和交互能力未来LMM将朝着更强大、更通用、更安全的方向发展。它不仅会成为我们的工作助手还会融入我们生活的方方面面改变我们与世界交互的方式。

相关文章:

【GPT-4V全面评估】:大语言多模态模型的黎明时代

多模态大模型时代的黎明:GPT-4V(ision)全面能力深度测评 当AI还在为"看图说话"磕磕绊绊时,GPT-4V已经悄悄解锁了"看懂世界"的超能力。它不仅能识别图片里的物体,还能理解梗图的笑点、解数学题、读X光片、甚至帮你操作电脑…...

图记忆架构:用知识图谱增强AI智能体的长期记忆与推理能力

1. 项目概述:当记忆成为可编程的图最近在探索如何让AI应用真正“记住”复杂的上下文时,我遇到了一个非常有意思的项目:openclaw-memory-graphiti。这个名字听起来有点拗口,但拆解一下就能明白它的野心——“OpenClaw”可能是一个开…...

启扬RK3568核心板如何赋能智能炒菜机:从嵌入式主控到AI烹饪

1. 项目概述:当嵌入式核心板遇上智能炒菜机在餐饮后厨这个看似传统,实则对效率、成本和一致性要求极高的领域,痛点一直非常明确。人工炒菜,老师傅的手艺固然可贵,但出餐速度受限于体力,菜品口味因厨师状态、…...

终极指南:Ghost补丁管理系统与第三方依赖维护最佳实践

终极指南:Ghost补丁管理系统与第三方依赖维护最佳实践 【免费下载链接】Ghost Independent technology for modern publishing, memberships, subscriptions and newsletters. 项目地址: https://gitcode.com/GitHub_Trending/gh/Ghost Ghost作为一款强大的现…...

Git提交规范与自动化实践:从Conventional Commits到团队协作

1. 项目概述与核心价值最近在整理团队代码仓库时,发现一个挺普遍的问题:提交记录五花八门,什么“fix bug”、“update”、“test”之类的信息满天飞。这种混乱的提交历史,不仅让后续的代码审查和问题追溯变得异常困难,…...

Ghost区块链集成:NFT内容所有权与分发方案

Ghost区块链集成:NFT内容所有权与分发方案 内容创作者的数字版权困境 传统内容发布平台存在严重的数字版权问题:文章被随意转载、原创收益被平台抽成、作品归属权难以证明。根据2024年《数字内容版权报告》,78%的独立创作者曾遭遇内容侵权&…...

解锁网盘文件下载新体验:LinkSwift直链解析工具完全指南

解锁网盘文件下载新体验:LinkSwift直链解析工具完全指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天…...

开源MCP服务器集合OpenClaw:模块化AI工具链的架构与实践

1. 项目概述:当开源AI工具链遇上“机械爪”如果你最近在折腾AI应用开发,特别是那些需要让大语言模型(LLM)与现实世界或复杂工具进行交互的项目,那么你很可能已经接触过“MCP”(Model Context Protocol&…...

ARM中断控制器架构与配置实践详解

1. ARM中断控制器架构解析在嵌入式系统设计中,中断控制器作为处理器与外围设备间的关键枢纽,其性能直接影响系统的实时性和可靠性。ARM1176JZF-S处理器采用了两级中断控制架构:位于开发芯片中的TrustZone中断控制器(TZIC)和通用中断控制器(GI…...

listmonk容器资源监控告警:资源使用率阈值

listmonk容器资源监控告警:资源使用率阈值 你是否遇到过listmonk邮件列表管理器在高负载时突然卡顿?或者因服务器资源耗尽导致邮件发送中断?本文将详细介绍如何为listmonk容器配置资源监控与告警阈值,帮助你提前识别并解决资源瓶…...

ESXi 8.0U3i 新版本深度解析|官方原版核心优势 + 部署指南,稳定运维首选

随着企业虚拟化、私有云部署需求的不断升级,一款稳定、安全、可追溯的底层虚拟化系统,成为数据中心、机房运维与合规生产的核心诉求。VMware ESXi 8.0U3i(版本 8.0U3i-25205845)作为 8.0 系列 2026 年最新推出的稳定版本&#xff…...

终极指南:如何用ROFL-Player永久解决英雄联盟回放版本兼容性问题

终极指南:如何用ROFL-Player永久解决英雄联盟回放版本兼容性问题 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 还在为英雄…...

命令行媒体管理工具amem:本地化素材归档与自动化实践

1. 项目概述:一个被低估的本地化媒体管理工具最近在整理个人数字资产时,我遇到了一个老生常谈但又无比棘手的问题:如何高效、优雅地管理那些散落在硬盘各个角落的短视频、图片和音频文件?无论是手机拍摄的生活片段,还是…...

7步掌握listmonk API认证:从令牌生成到权限验证实战指南

7步掌握listmonk API认证:从令牌生成到权限验证实战指南 listmonk是一款高性能、自托管的新闻通讯和邮件列表管理器,具有现代化的仪表板,采用单一二进制应用形式。本文将详细介绍如何通过7个简单步骤掌握listmonk的API认证,包括令…...

知识图谱冷启动失败率高达68%?NotebookLM构建中的3类隐性数据断层及实时修复方案

更多请点击: https://intelliparadigm.com 第一章:NotebookLM知识图谱构建的冷启动困境本质 NotebookLM 作为 Google 推出的基于文档理解的 AI 助手,其核心能力依赖于对用户上传文档构建结构化知识图谱。然而在初始阶段,系统面临…...

listmonk数据库查询缓存键命名规范:一致性与可读性

listmonk数据库查询缓存键命名规范:一致性与可读性 在高性能自托管邮件列表管理器listmonk中,数据库查询缓存是提升系统响应速度的关键组件。本文将深入解析listmonk项目中数据库查询缓存键的命名规范,探讨如何通过一致性的命名规则和良好的…...

你的Type-C设备为什么容易坏?可能是静电防护没做对!从手机到笔记本的防护方案拆解

Type-C设备静电防护全指南:从原理到实战的完整解决方案 每次插拔Type-C数据线时,那个微小的火花可能正在悄悄摧毁你的设备。我拆解过上百台因静电损坏的电子产品,发现90%的Type-C接口故障都始于那个看似无害的瞬间放电现象。这种现象在干燥季…...

NotebookLM问答功能深度解析:如何用3步配置让AI精准理解你的PDF/网页文档?

更多请点击: https://intelliparadigm.com 第一章:NotebookLM问答功能深度解析:如何用3步配置让AI精准理解你的PDF/网页文档? NotebookLM 是 Google 推出的面向研究者与知识工作者的实验性 AI 工具,其核心能力在于基于…...

Honey Select 2汉化补丁:3分钟快速安装与完整功能指南

Honey Select 2汉化补丁:3分钟快速安装与完整功能指南 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为Honey Select 2的日文界面而烦恼吗&…...

AssetRipper完整指南:快速掌握Unity游戏资源提取的终极方法

AssetRipper完整指南:快速掌握Unity游戏资源提取的终极方法 【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 在游戏开发和逆…...

番茄小说下载器终极指南:3分钟掌握全平台电子书制作技巧 [特殊字符]

番茄小说下载器终极指南:3分钟掌握全平台电子书制作技巧 🚀 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款基于Rust语言开发的专…...

React可访问性开发:如何构建符合A11y标准的React组件

React可访问性开发:如何构建符合A11y标准的React组件 【免费下载链接】react-faq A collection of links to help answer your questions about React.js 项目地址: https://gitcode.com/gh_mirrors/re/react-faq React作为现代前端开发的主流框架&#xff0…...

iPXE脚本编程实战:自动化部署、故障诊断和定制化菜单终极指南

iPXE脚本编程实战:自动化部署、故障诊断和定制化菜单终极指南 【免费下载链接】ipxe iPXE network bootloader 项目地址: https://gitcode.com/gh_mirrors/ip/ipxe iPXE作为领先的开源网络启动引导程序,提供了强大的脚本编程功能,让网…...

OpenUPM安全最佳实践:保护你的Unity包注册表完全指南 [特殊字符]

OpenUPM安全最佳实践:保护你的Unity包注册表完全指南 🔒 【免费下载链接】openupm OpenUPM - Open Source Unity Package Registry (UPM) 项目地址: https://gitcode.com/gh_mirrors/op/openupm OpenUPM作为开源Unity包管理器(UPM&…...

从零构建知识图谱:基于NLP的实体关系抽取与Neo4j存储实践

1. 项目概述:从文本到知识的桥梁最近几年,知识图谱这个概念在自然语言处理(NLP)和人工智能领域火得不行。简单来说,它就是把散落在海量文本里的“知识点”——比如实体(人物、地点、概念)和它们…...

【电动车】基于粒子群算法模拟光伏的电动车充电站(电池健康状况通过CRF、ECL和SoH来量化)附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。🍎完整代码获取 定制创新 论文复现点击:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f3…...

6种专业计时模式!OBS高级计时器插件让你的直播时间管理精准到秒

6种专业计时模式!OBS高级计时器插件让你的直播时间管理精准到秒 【免费下载链接】obs-advanced-timer 项目地址: https://gitcode.com/gh_mirrors/ob/obs-advanced-timer 还在为直播时间控制而烦恼吗?OBS Advanced Timer计时器插件就是你的救星&…...

APK Installer终极指南:在Windows电脑上快速安装Android应用的完整方案

APK Installer终极指南:在Windows电脑上快速安装Android应用的完整方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否厌倦了在电脑和手机之间来回传…...

Windows 11 下 flash-attention 高效部署:避坑指南与预编译版本实战

1. 为什么Windows 11需要flash-attention? 在深度学习领域,Transformer模型已经成为自然语言处理、计算机视觉等任务的主流架构。而flash-attention作为优化后的自注意力实现,能够显著提升模型训练和推理效率。对于Windows 11用户而言&#…...

嵌入式系统学习路径:从硬件基础到系统架构的认知跃迁

1. 从“螺丝钉”到“系统设计师”:嵌入式学习的认知跃迁大家好,我是老张,一个在嵌入式行业里摸爬滚打了十几年的老兵。今天我们不聊具体的代码,也不讲某个芯片的寄存器配置,我想和大家聊聊一个更根本的问题&#xff1a…...