当前位置: 首页 > news >正文

探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文

1. 概述

论文地址:https://arxiv.org/pdf/2312.05468.pdf
随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模型具有支持化学研究中各种任务的超强能力,并且能够轻松地使用自然语言进行 "编程 "或 “教学”,因此备受关注。现在,大规模语言模型已从纯文本发展到多模态,可处理多种信息,成为应用广泛的强大而有用的人工智能助手。

GPT-4V 是这一演变的先驱。V "代表了它的视觉能力,它理解视觉和文本信息的能力远远超过了传统模型,能够从科学文献的图表中发现并分析有价值的数据。GPT-4V 的这一能力意味着,即使没有专业编程知识或计算机视觉技能的研究人员也能使用它,而且研究人员还可以通过定制指令来使用它。

本文展示了 GPT-4V 如何应用于网状化学研究。GPT-4V 能够整合和解释科学论文中的文字和图表数据,极大地提高了关键信息的提取和分析能力,尤其是从图表内容中读取物理特性结果的重要性。这种方法并不局限于网状化学,表明自动文献分析可以扩展到其他科学学科。

GPT-4V 的推出表明,人工智能可以进一步加强其在促进科学创新和发现方面的作用,缩小先进计算工具与前沿化学研究之间的差距。

2. 对 GPT-4V 性能的初步评估

在此,我们通过识别和解释网状化学文献中常见的图表来评估 GPT-4V 的性能。我们尤其关注氮等温线、粉末 X 射线衍射 (PXRD) 图样、热重分析 (TGA) 曲线、核磁共振 (NMR) 和红外光谱以及散点图、柱状图、二维和三维分子结构等各种图表,以了解 GPT-4V 是否能充分解释这些图表。该项目基于以下研究。此外,我们还分析了实验图像,包括合成方案、显微镜和扫描电子显微镜(SEM)图像。下图就是一个例子。

当被要求对每个图表进行详细描述时,GPT-4V 不仅能准确地对图像进行分类,还能深入浅出地讲述具体细节,包括注释、坐标轴范围、颜色编码、符号和线条形状、标签和图例,令人印象深刻。他们还能根据提供的图表说明信息进行推断。这种先进的上下文数据解读和综合分析功能凸显了 GPT-4V 作为强大的人工智能助手在科学文献图像和数据挖掘方面的适用性。

3. 及时设计页面内容标签

本文的目的是测试 GPT-4V 能否自主浏览科学文章、识别特定信息、将其编译成综合数据集并进行分析。本文特别关注显示金属有机框架(MOFs)物理性质的关键图表–氮等温线、粉末 X 射线衍射(PXRD)图、热重分析(TGA)曲线、晶体结构和拓扑图以及其他气体吸附等温线。这些图表对于阐明化合物的重要特性至关重要,如永久孔隙率、结晶度、热稳定性、拓扑结构和对气体的选择性。从这些图表中有效提取信息,并将其整合到大量文献中,对于提高我们对结构-性质关系的理解和加速新化合物的发现具有巨大潜力。

为实现这一目标,我们使用 GPT-4V 设计了针对上述类别的特定提示。这些提示考虑到了由于科学文献中常见的不同图和表并存的情况,一个页面上可能存在多个选项。此外,如果缺少某个类别,GPT-4V 也会明确指出缺少该类别。因此,GPT-4V 共有六个选项。这些提示的开发遵循文本挖掘提示工程的基本原则。下图为其概览。

4. GPT-4V 的性能评估

在这里,GPT-4V 对所选文献的每一页进行成像和分析。具体来说,GPT-4V 将页面图像与专门设计的文本提示相结合,并收集回复,从而自动对内容进行分类,并识别出包含情节的页面,以便进行深入分析。这一过程允许 GPT-4V 遵循特定的回复格式,并根据内容自动标记每一页。

GPT-4V 可准确识别每一页上所需的情节,无论信息的复杂程度如何、展示标注能力。

为了评估 GPT-4V 的分类准确性,我们将其与地面实况数据集进行了比较,地面实况数据集包含由网状化学专家人工审核和标注的 6,240 张图像。结果显示,除 "其他气体吸附等温线 "外,所有类别的准确率都超过 94%,但准确率、召回率和 F1 分数都在 87% 到 99% 之间。该类别的准确率较低,可能是由于提示说明不充分以及红外光谱和核磁共振光谱偶尔出现标记错误,这表明有机会进一步完善提示的针对性。

GPT-4V 的性能在网络接口和应用程序接口中也显示出相似的准确率,再次证明了基础模型的一致性。

这一自动化流程提供了多种操作选项,并能高效地从文献中收集信息。混淆矩阵分析显示了 GPT-4V 在大量文献中识别出氮等温线、PXRD 图样和 TGA 曲线的页数。

此外,许多页面被归类为缺乏感兴趣的情节,这可能有助于研究人员今后简化某些类型文献情节的审查过程。

5. 利用 GPT-4V 解释氮等温线数据

本节将探讨在成功标注页面内容后,如何使用 GPT-4V 对以氮等温线图为特色的页面进行详细解读和分析。对提示策略进行了改进,加入了更多特定语言,指导 GPT-4V 识别氮等温线,并从每个图中提取和报告关键信息。

其中包括图号、化合物名称、表面积和孔体积值、吸附-解吸曲线是否存在滞后现象、等温线的饱和高原以及对图周围边框的估计。

这种方法的关键在于指示 GPT-4V 只使用页面图像上的可用信息,而 "N/A "则表示数据不可用。因此,GPT-4V 通过分析等温线及其相关坐标轴、图例和文本内容,显示出高效提取这些细节的能力,令人印象深刻。

为了确认 GPT-4V 分析的准确性,我们对所选论文中超过 200 页的反应(包括氮等温线)进行了人工审核。特别是在图号、化合物名称和孔隙度分析方面,观察到了很高的准确性。这表明,GPT-4V 在图像处理功能中可能使用了光学字符识别 (OCR) 工具。此外,GPT-4V 对文本的高熟练度似乎对与可直接从图像中读取的文本信息相关的任务产生了积极影响。

然而,对于其他三个描述符,如是否存在滞后、饱和高原和边界框估计,其性能总体上令人满意,从 76.25% 到 84.58%不等。这些任务是更高级、更微妙的挑战,需要对所有图像元素进行全面分析。尽管如此,总体性能还是特别令人印象深刻,而且研究人员可以用自然语言对 GPT-4V 进行简单的指导,这进一步凸显了该技术的强大功能。

6. 加速网状化学数字数据库

在此,我们探讨了使用 GPT-4V 简化网状化合物详细数据库构建的可能性。特别是,我们根据科学界发表的文献中的实验结果,识别出具有独特氮等温线图的网页,并使用 WebPlotDigitizer 等工具仔细提取这些通常为非数字格式的数据。通过这一过程,提取的数据被系统地编译并存储到数据库中。这种方法提供了一个收集氮等温线数据点的实际例子,显示了各种等温线类型和孔隙度特征。

此外,还利用 CoRE MOF 数据库来匹配论文中讨论的化合物的计算结果和实验结果,从而对理论值和实验值进行比较。在这项分析中,将每种化合物的理论值与实验得出的表面积和孔隙率绘制成散点图,从而揭示化合物之间的一般趋势。

比较结果表明,即使是在实验确定的结构基础上,理论预测和实验结果之间也存在差异。这凸显了在选择材料时完全依赖计算结果的风险。

这项研究的启示表明,GPT-4V 不仅适用于网状化学,还适用于广泛的科学学科。娴熟的提示设计对于有效的数据库建设至关重要,而 DSPy 等创新工具的引入则有可能进一步改进研究过程,加快自然语言处理工具的发展。这一进步有望扩大文献数据挖掘的范围,并进一步增加人工智能工具在科学研究中的应用。

7. 总结

本文展示了GPT-4V 在网状化学领域的文本、图像和数据挖掘方面的作用。它重点介绍了 GPT-4V 使用独特设计的提示处理页面图像的能力,并成功识别和分类了包含所需信息的准确页面。值得注意的是,它表明这种方法可能不仅适用于网状化学,也适用于其他科学领域。

GPT-4V 等大型语言模型可以使用通常使用的自然语言进行 “编程”,消除了编码技术和特殊模型学习识别特定图表和图形的障碍。这种灵活性强调了一个事实,即只需对提示进行简单修改,就可以将分析从 TGA 曲线等转移到水等温线等完全不同的数据类型 。

此外,还建议整合 DSPy 等先进平台,使 GPT-4V 的使用更加有效。预计这将为科学数据挖掘开辟新的可能性,并使人工智能成为开发科学知识过程中更容易获取和使用的工具。这种方法有望大大提高科学研究领域的工作效率,并为从文献中提取更多数据提供机会。

相关文章:

探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文

1. 概述 论文地址:https://arxiv.org/pdf/2312.05468.pdf 随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模…...

耐用充电宝有哪些?优质充电宝到底选哪个?良心推荐!

在电量即生产力的现今时代,如何为移动设备寻找一位最佳的伴侣呢?一款耐用、优质的充电宝无疑是你的不二之选。今天我们将带您揭开市场隐藏的一面,揭示哪些充电宝品牌真正代表了耐用与品质的标杆。让我们一起深入了解并选购最适合自己的充电宝…...

何为屎山代码?

在编程界,有一种代码被称为"屎山代码"。这并非指某种编程语言或方法,而是对那些庞大而复杂的项目的一种形象称呼。屎山代码,也被称为"祖传代码",是历史遗留问题,是前人留给我们的"宝藏"…...

基于esp8266_点灯blinker_智能家居

文章目录 一 实现思路1 项目简介2 项目构成3 代码实现4 外壳部分 二 效果展示UI图片 一 实现思路 摘要:esp8266,mixly,点灯blinker,物联网,智能家居,3donecut 1 项目简介 1 项目效果 通过手机blinker app…...

Web前端开发交流群:深度探索、实践与创新的集结地

Web前端开发交流群:深度探索、实践与创新的集结地 在数字时代的浪潮中,Web前端开发扮演着举足轻重的角色。为了促进前端技术的交流与发展,Web前端开发交流群应运而生,成为众多开发者学习、分享、创新的集结地。本文将从四个方面、…...

苹果AI一夜颠覆所有,Siri史诗级进化,内挂GPT-4o

苹果AI一夜颠覆所有,Siri史诗级进化,内挂GPT-4o 刚刚,苹果AI,正式交卷! 今天,苹果构建了一个全新AI帝国——个人化智能系统Apple Intelligence诞生,智能助手Siri迎来诞生13年以来的史诗级进化…...

量子计算的奥秘与魅力:开启未来科技的钥匙(详解)

目录 一、量子计算的基本概念 二、量子计算的基本原理 1.量子叠加态与相位态 一、概念 二、量子叠加态 定义与原理 特性与影响 应用领域 三、量子相位态 定义与原理 特性与影响 应用领域 2.量子门操作 一、概念 二、量子门操作的基本概念 三、常见的量子门操作…...

redis 主从同步时,是同步主节点的缓存积压区的数据,还是同步主节点的aof文件

Redis 的主从同步(replication)是同步主节点的数据到从节点上,但它既不是直接同步 AOF 文件,也不是同步缓存积压区。 当一个 Redis 从节点启动并连接到主节点时,会发生以下步骤: 同步数据集:从…...

Unity年中大促618活动又来了3折模板特效角色动画插件工具FPS生存建造模板RPG和2D素材优惠码UNITY6182024限时20240611

独立游戏开发需要找各种美术资源和模板,可以在低价时看看,节省开发时间。 Unity年中大促618活动又来了3折模板特效角色动画插件工具FPS生存建造模板RPG和2D素材优惠码UNITY6182024限时202406111104 300 款Unity引擎适配资源 3 折特惠,结账时输…...

【MyBatis-plus】saveBatch 性能调优和【MyBatis】的数据批量入库

总结最优的两种方法: 方法1: 使用了【MyBatis-plus】saveBatch 但是数据入库效率依旧很慢,那可能是是因为JDBC没有配置,saveBatch 批量写入并没有生效哦!!! 详细配置如下:批量数据入…...

前端三剑客之JavaScript基础入门

目录 ▐ 快速认识JavaScript ▐ 基本语法 🔑JS脚本写在哪? 🔑注释 🔑变量如何声明? 🔑数据类型 🔑运算符 🔑流程控制 ▐ 函数 ▐ 事件 ▐ 计时 ▐ HTML_DOM对象 * 建议学习完HTML和CSS后再…...

Fyndiq买家号下单:自养号测评如何打造本土物理环境系统?

Fyndiq 是一个瑞典电子商务平台,我们通过该平台为渴望讨价还价的购物者提供一系列产品。该公司为希望以可访问的方式提高销售额的所有类型的零售商提供销售渠道。Fyndiq几乎是瑞典家喻户晓的存在,是瑞典折扣促销平台。以销售质优价廉的商品吸引了大量忠实…...

自动检测曲别针数量:图像处理技术的应用

引言 在这篇博客中,我们将探讨如何使用计算机视觉技术自动检测图像中曲别针的数量。 如图: [1]使用灰度转换 由于彩色信息对于曲别针计数并不重要,我们将图像转换为灰度图,这样可以减少处理数据的复杂度,加速后续的…...

【Git】多人协作 -- 详解

一、多人协作(1) ⽬前,我们所完成的工作如下: 基本完成 Git 的所有本地库的相关操作,git 基本操作,分支理解,版本回退,冲突解决等等。 申请码云账号,将远端信息 clone…...

Eureka和Nacos有哪些区别?

Eureka和Nacos都能起到注册中心的作用,用法基本类似。但还是有一些区别的,例如: Nacos支持配置管理,而Eureka则不支持。 而且服务注册发现上也有区别,我们来做一个实验: 我们停止user-service服务&#x…...

如何正确使用 include-what-you-use

简单地说,由 Google 开发的 include-what-you-use(IWYU)让源代码文件包含代码里用到的所有头文件。这种方法确保在改动了一些接口之后,代码依然最有可能编译成功。 之前我写了一篇关于 include-what-you-use 工具的文章&#xff…...

企业内网安全软件分享,有什么内网安全软件

内网安全? 其实就是网络安全的一种。 什么是内网安全软件? 内网安全软件是企业保障内网安全的一种重要工具。 它主要帮助企业实现对网络设备、应用程序、用户行为等方面的监控和管理,以预防和应对各种网络攻击。 这类软件主要用于对内网中…...

【摘葡萄game】

您想要了解的“摘葡萄游戏”可能是一个编程项目或者是一个编程相关的练习。我可以提供一个简单的摘葡萄游戏的思路和代码示例。这个游戏可以用多种编程语言来实现,比如Python、Java等。这里我以Python为例,给出一个基础版本的摘葡萄游戏的概念和代码。 …...

java如何实现字符串连接

在java中,字符串与字符串连接可以用运算符和 比如有字符串a,字符串b 想要把a和b连接起来,定义一个字符串变量c cab 或者 ab 示例代码 public class Zifuchuanlianjie {public static void main(String[] args) {String a"我叫李狗蛋";S…...

流量卡选卡攻略,拯救不会选流量卡的小白!

​ 家人们,你们知道不,选择一款性价比高的流量卡,真的超级省钱。 一、首先,说一说申请。 运营商推出线上流量卡,注意是线上的流量卡,都是免费领取,运营商包邮到家,在激活充值之前不…...

conda相比python好处

Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理&#xff1a…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表?1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装(Encapsulation) 定义:将数据(属性)和操作数据的方法绑定在一起,通过访问控制符(private、protected、public)隐藏内部实现细节。示例: public …...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

【位运算】消失的两个数字(hard)

消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中,选择 环境 -> 常规 ,将其中的颜色主题改成深色 点击确定,更改完成...

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)

服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

linux 错误码总结

1,错误码的概念与作用 在Linux系统中,错误码是系统调用或库函数在执行失败时返回的特定数值,用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递,errno由操作系统维护,保存最近一次发生的错误信息。值得注意的是,errno的值在每次系统调用或函数调用失败时…...

(转)什么是DockerCompose?它有什么作用?

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用,而无需手动一个个创建和运行容器。 Compose文件是一个文本文件,通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...