当前位置：首页 > news >正文

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

news 2026/2/8 22:07:38

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

在这里插入图片描述

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27
- 目录
- 1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 推荐理由
- 2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 推荐理由
- 3. Drift to Remember
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 推荐理由
- 4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数:
- 推荐理由
- 5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数：
- 推荐理由
- 6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数：
- 推荐理由
- 7. Will Large Language Models be a Panacea to Autonomous Driving?
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数：
- 推荐理由
- 8. Loop-Residual Neural Networks for Iterative Refinement
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数：★★★★☆
- 推荐理由
- 9. LLMs are One-Shot URL Classifiers and Explainers
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 推荐阅读指数：
- 推荐理由
- 10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort
- 摘要
- 研究背景
- 问题与挑战
- 创新点
- 算法模型
- 实验效果
- 重要数据与结论
- 推荐阅读指数：
- 推荐理由

1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang
https://arxiv.org/abs/2409.13730

VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准

在这里插入图片描述

摘要

多模态大型语言模型（MLLMs）通过整合文本和视觉信息，在多种任务中展现了有前景的能力，以实现复杂场景下的视觉理解。尽管已有多个基准旨在评估MLLMs在从视觉问题回答到复杂问题解决等任务的表现，但大多数主要集中在数学或一般视觉理解任务上。这揭示了当前基准的一个关键缺口，即常常忽略了物理和化学等其他关键科学学科的包含。为了解决这一差距，我们精心构建了一个全面的基准，名为VisScience，用于评估数学、物理和化学三个学科的多模态科学推理。此基准包括来自K12教育的3000个问题——从小学到高中——每个学科1000个问题，涵盖21个不同主题，并分为五个难度级别，为每个学科提供广泛的主题范围。利用VisScience，我们详细评估了25个代表性MLLMs在科学推理方面的表现。实验结果表明，封闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学上的53.4%准确率，GPT-4o在物理上的38.2%准确率，以及Gemini-1.5-Pro在化学上的47.0%准确率。这些结果强调了MLLMs的优势和局限性，为未来的改进提供了方向，并突出了开发能够有效处理多模态科学推理多样化需求的模型的重要性。

研究背景

近年来，大型语言模型（LLMs）在包括自然语言理解、文本生成和复杂问题解决在内的广泛任务中展现了卓越的能力。LLMs的成功促进了多模态大型语言模型（MLLMs）的发展，这些模型通过整合处理和分析文本和视觉信息的能力，扩展了这些能力。评估是评估这些MLLMs在各种任务中能力的一个重要组成部分，近年来得到了广泛的关注和快速发展。

问题与挑战

尽管在多模态推理任务中评估MLLMs的能力变得越来越重要，但现有的基准通常集中在数学上，忽略了物理和化学等其他关键科学学科。此外，现有的基准通常从有限的来源收集，导致缺乏自然难度级别，从而无法完整评估模型的能力。此外，当前的基准主要以单一语言提供，限制了对MLLMs多语言能力的评估。

创新点

提出了一个全面的基准VisScience，用于评估数学、物理和化学三个学科的多模态科学推理。
该基准包括来自K12教育的3000个问题，涵盖21个不同主题，并分为五个难度级别。
对25个代表性MLLMs进行了详细评估，包括封闭源和开源模型。

算法模型

封闭源模型：Claude3.5-Sonnet, GPT-4o, Gemini-1.5-Pro等。
开源模型：InternVL-1.2-Plus, InternVL-Chat-V1.5等。

实验效果

数学：Claude3.5-Sonnet达到53.4%的准确率。
物理：GPT-4o达到38.2%的准确率。
化学：Gemini-1.5-Pro达到47.0%的准确率。
开源模型通常低于封闭源模型，但InternVL-1.2-Plus表现出竞争力。

2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data

Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O’Banion
https://arxiv.org/abs/2409.13903

CI-Bench: 在合成数据上对AI助手的情境完整性进行基准测试
在这里插入图片描述

摘要

生成式AI的进步预示着一个新的个性化应用时代，这些应用代表用户执行多样化任务。尽管通用AI助手尚未完全出现，但它们潜在地共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench，这是一个全面的合成基准，用于评估AI助手在模型推理期间保护个人信息的能力。利用情境完整性框架，我们的基准测试能够系统地评估跨重要情境维度的信息流，包括角色、信息类型和传输原则。我们提出了一个新的、可扩展的多步合成数据管道，用于生成自然通信，包括对话和电子邮件。与之前规模较小、范围较窄的评估工作不同，我们提出了一个新颖的、可扩展的多步数据管道，该管道合成地生成自然通信，包括对话和电子邮件，我们用它来生成涵盖八个领域的44,000个测试样本。此外，我们制定了并评估了一个简单的AI助手，以证明进一步研究和精心培训对个人助理任务的必要性。我们设想CI-Bench作为一个有价值的工具，用于指导未来的语言模型开发、部署、系统设计和数据集构建，最终有助于开发与用户隐私期望一致的AI助手。

研究背景

基于语言的模型的自主AI助手，由于最近在外部记忆、更大的上下文窗口、调用外部记忆或API等方面的进展，越来越能够利用用户数据。AI助手访问用户数据（无论是通过模型参数、上下文窗口内的输入，还是工具调用）使得各种个性化应用成为可能，如电子邮件撰写、表格填写、日历管理和会话参与。然而，这些应用也可能引入隐私风险，并无意中暴露用户信息。
在这里插入图片描述

问题与挑战

评估AI助手访问用户信息时的隐私风险，我们采用了情境完整性（CI）框架，该框架将隐私定义为根据特定相关情境的规范进行适当的信息流。现有的评估通常缺乏对AI助手在保护用户信息方面能力的系统性评估，特别是在多样化的领域和情境参数中。

创新点

提出了一个全面的基准CI-Bench，用于细粒度地理解AI助手评估信息流适当性的能力。
包括一个新的数据集，涵盖结构化信息流场景和非结构化任务场景，以及相应的上下文理解、规范识别和适当性判断任务。
展示了一个可扩展的数据生成管道，利用真实世界的结构化数据来生成合成的、非结构化的对话数据。

算法模型

AI助手原型：使用大型语言模型（如Gemini模型）进行原型设计。
合成数据管道：多步骤合成数据生成过程，包括从公共领域的真实对话中提取关键特征，使用LLM合成生成现实任务场景。

实验效果

上下文理解：模型在理解信息属性和用户意图方面表现良好，但在识别接收者方面表现不佳。
规范识别：模型在识别相关规范方面存在挑战，尤其是在较小的模型中。
适当性判断：模型在判断信息共享适当性方面存在困难，尤其是在没有明确规范的情况下。
响应生成：模型在生成响应方面的能力有限，尤其是在需要综合多种技能的情况下。

3. Drift to Remember

Authors: Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding
https://arxiv.org/abs/2409.13997
在这里插入图片描述
铭记漂移：在持续学习中通过表示漂移减轻灾难性遗忘

摘要

在人工智能（AI）中，持续学习的目标是模仿生物大脑持续学习和保留知识的能力，但面临灾难性遗忘等挑战。最近的神经科学研究表明，在生物系统中，即使输入和任务保持一致，神经活动也会随时间发生表示漂移。我们假设表示漂移可以减轻AI在获取新任务时的灾难性遗忘。为了验证这一点，我们介绍了DriftNet，这是一个设计用来在损失景观中不断探索各种局部最小值，同时动态检索相关任务的网络。这种方法确保了新信息的有效整合，并保留了现有知识。在图像分类和自然语言处理的实验研究表明，DriftNet在持续学习方面的表现超过了现有模型。重要的是，DriftNet可以扩展到处理如情感分析和问答等序列任务，并且能够在单个Nvidia A100 GPU上处理数十亿参数的大型语言模型（LLMs）。DriftNet使用新数据高效更新LLMs，避免了重新训练整个数据集的需要。在GPT-2和RoBERTa上测试表明，DriftNet是LLMs持续学习中的一个鲁棒且具有成本效益的解决方案。本研究不仅推进了AI系统模仿生物学习的能力，还为生物神经系统的适应性机制提供了见解，加深了我们对自然中持续学习的理解。

研究背景

生物大脑展现出了显著的持续学习能力，能够在一生中获取新能力的同时保留先前学习的信息。相比之下，在AI中，这种被称为持续学习的能力，即一个系统能够顺序地学习新任务而不遗忘以前的任务，仍然是一个巨大的挑战。主要问题是灾难性遗忘，即在学习新任务时，先前学习任务的性能显著下降。

问题与挑战

现有的持续学习方法主要包括正则化、重放和架构方法，但这些方法在学习新任务时面临着保持对先前任务性能的挑战。

创新点

提出DriftNet，一个受生物系统表示漂移启发的持续学习框架。
引入外部噪声，使网络在损失景观中不断探索新的局部最小值。
利用知识库组织这些局部最小值，形成特定于任务的群体，即使在训练期间不需要明确知道任务身份。
使用输出不确定性来检索学习任务的相关知识。

算法模型

DriftNet由两部分组成：一个用于探索的进化网络和一个用于编码和检索分组任务特定信息的知识库。DriftNet通过探索、编码和检索三个主要步骤进行操作。

实验效果

在模拟数据上，DriftNet的平均测试损失为(1.01±0.07)×10^-2，显著低于稳定基线4.22±0.15。
在图像分类任务中，DriftNet在CIFAR-10和CIFAR-100上的平均测试准确率分别为80.19±0.67%和41.83±0.75%，而稳定基线分别为19.18±0.02%和12.84±0.07%。
在NLP任务中，DriftNet的平均测试准确率达到70.37±1.22%，显著优于稳定基线18.29±0.06%。

4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
https://arxiv.org/abs/2409.14038
在这里插入图片描述
OAEI-LLM：一个用于理解大型语言模型在本体匹配中幻觉现象的基准数据集

摘要

大型语言模型（LLMs）在特定领域的任务中常常出现幻觉现象，本体匹配（OM）也不例外。LLMs在OM任务中的应用日益广泛，这就需要基准数据集来更好地理解LLMs的幻觉现象。OAEI-LLM数据集是本体对齐评估倡议（OAEI）数据集的扩展版本，用于评估LLMs在OM任务中的特定幻觉。本文概述了数据集构建和模式扩展中使用的方法，并提供了潜在用例的示例。

研究背景

LLMs在自然语言生成（NLG）和问答（QA）方面展现出了令人难以置信的能力。在语义网社区，LLMs最近被用于本体匹配（OM）。尽管LLMs为OM提供了强大的背景知识库，但它们可能会生成一些错误的映射，并错过一些真正的映射，导致精确度或召回率降低。这种现象在最近的几篇论文中有所观察。

问题与挑战

LLMs在处理本体匹配任务时可能会产生幻觉现象，导致生成错误的映射或遗漏正确的映射。这种现象主要是由于LLMs在没有足够的背景知识或拥有有偏见的领域知识时倾向于生成合成答案。

创新点

提出了OAEI-LLM数据集，用于测量LLMs在OM任务中的幻觉程度。
将原始人类标记的结果与LLM生成的结果进行比较，分类不同LLMs产生的幻觉类型，并记录新的模式扩展信息。

算法模型

本文实现的基于LLM的OM系统生成了LLM-Alignment文件，该系统将源本体和目标本体作为输入，并生成一组预测映射。通过比较OAEI参考与LLM-Alignment来识别差异。

实验效果

本文没有提供具体的实验效果数据，而是侧重于介绍数据集的构建和潜在用途。
在这里插入图片描述

5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills

Authors: Goran Buba\v{s}
https://arxiv.org/abs/2409.14050
在这里插入图片描述
GPT-4o和其他大型语言模型在提高和设计人际交流技能自我评估量表中的应用

摘要

本文探讨了如何使用GPT-4o和其他大型语言模型（LLMs）来改进和设计用于测量人际交流技能的自我评估量表。研究表明，这些模型在处理人类心理学和交流信息方面的能力为个性心理学和人际交流技能的科学应用提供了机会。

研究背景

随着大型语言模型（LLMs）在各种语言任务中的表现越来越接近甚至超过人类平均水平，它们在科学研究的多个阶段展现出了巨大的潜力。

问题与挑战

如何有效地利用LLMs处理关于人类心理学和交流的信息，以及如何将这些模型应用于个性心理学和人际交流技能的测量。

创新点

提出使用LLMs来改进和设计自我评估量表。
展示了LLMs在自动生成项目和评估内容有效性方面的潜力。

算法模型

GPT-4o
其他大型语言模型，如Microsoft’s Copilot, Google’s Gemini 1.5 Pro, Antrophic’s Claude 3.5 Sonnet

实验效果

文中没有提供具体的实验数据和统计结果，但提到了LLMs在设计自我评估量表方面的潜在好处，并给出了使用LLMs进行评估、设计和改进人际交流技能自我评估量表的总结。
在这里插入图片描述

6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction

Authors: Amrit Diggavi Seshadri
https://arxiv.org/abs/2409.14091

在这里插入图片描述
归一化窄跳跃至结论：针对参数高效提前退出的Transformer预测的归一化窄捷径

摘要

随着大型基于Transformer的语言模型尺寸和成本的增长，近期对早期Transformer隐藏表示直接映射到最终表示的捷径投射法，以实现更便宜的模型推理，引起了人们的兴趣。文章提出了Narrow Jump to Conclusions (NJTC) 和 Normalized Narrow Jump to Conclusions (N-NJTC)，这是标准线性捷径的参数高效替代方案，将捷径参数数量减少了97%以上。研究表明，N-NJTC在早期阶段的准确性可靠地超过了Identity捷径，并为GPT-2-XL、Phi3-Mini和Llama2-7B等Transformer模型提供了从所有Transformer块级别稳定的精度。

研究背景

大型语言模型通过顺序堆叠由多头自注意力和前馈层组成的块来构建。这种堆叠提高了模型性能，但也增加了推理的计算成本。

问题与挑战

现有的Transformer模型在进行早期退出推理时，需要大量的参数，这导致了计算成本高昂。

创新点

提出了NJTC和N-NJTC作为标准线性捷径的参数高效替代方案。
展示了早期阶段的线性捷径可以通过低秩表示来近似，从而比JTC捷径减少超过97%的参数。

算法模型

Narrow Jump To Conclusions (NJTC): 使用两层简单的线性神经网络，通过矩阵A和B来近似高阶段的Transformer块输出。
Normalized Narrow Jump To Conclusions (N-NJTC): 在NJTC的基础上增加了批量归一化层，以避免对自然高方差Transformer维度的偏见。

实验效果

GPT-2-XL: 48个Transformer块，隐藏维度1600，总参数1.5亿。
Phi3-Mini: 32个Transformer块，隐藏维度3072，总参数3.8亿。
Llama2-7B: 32个Transformer块，隐藏维度4096，总参数7亿。

实验结果显示，N-NJTC在所有模型的早期阶段都能可靠地超过Identity捷径，并在所有Transformer块级别提供稳定的精度和惊讶度。
在这里插入图片描述

7. Will Large Language Models be a Panacea to Autonomous Driving?

Authors: Yuxuan Zhua, Shiyi Wang, Wenqing Zhong, Nianchen Shen, Yunqi Li, Siqi Wang, Zhiheng Li, Cathy Wu, Zhengbing He, Li Li
https://arxiv.org/abs/2409.14165
在这里插入图片描述

大型语言模型会是自动驾驶的灵丹妙药吗？

摘要

本文探讨了大型语言模型（LLMs）在自动驾驶（AD）中的应用，并分析了它们是否能够解决自动驾驶领域面临的挑战。目前自动驾驶技术主要有两种技术路径：模块化和端到端。模块化方法将驾驶任务分解为感知、预测、规划和控制等模块，而端到端方法则尝试通过单一模型直接从传感器数据映射到控制信号。文章分析了LLMs在优化这两种方法中的潜力，并讨论了LLMs在AD系统中可能遇到的局限性和挑战。

在这里插入图片描述

研究背景

自动驾驶是现代交通工具研究的关键领域，其发展深度依赖于人工智能（AI）的进步。随着AI技术的发展，自动驾驶的实现方式主要形成了模块化和端到端两种设计方法。

问题与挑战

自动驾驶系统在实际应用中面临诸多挑战，包括确保鲁棒性、可验证性、可解释性以及高效的人车交互。此外，无论是模块化还是端到端方法，都存在训练目标不一致、难以处理不可预测的长尾事件和复杂城市交通场景等问题。

创新点

文章提出了利用具有强大推理能力和广泛知识理解的LLMs来提升自动驾驶系统的可能性，并探讨了LLMs在解决现有自动驾驶解决方案中的问题和挑战方面的潜力。

算法模型

文章没有提出新的算法模型，而是对现有的自动驾驶技术和大型语言模型进行了全面的分析和讨论。

实验效果

文章通过案例研究和分析，展示了LLMs在自动驾驶任务中的潜在应用，包括在模块化和端到端方法中的应用。文章指出，尽管LLMs在参数数量大幅减少的情况下，仍能提供比传统方法更好的性能。

8. Loop-Residual Neural Networks for Iterative Refinement

Authors: Kei-Sing Ng, Qingchen Wang
https://arxiv.org/abs/2409.14199

用于迭代细化的循环残差神经网络

摘要

本文介绍了一种新型的循环残差神经网络（Loop-Residual Neural Network），该网络通过利用更长的计算时间来提高性能，而不增加模型大小。该方法通过循环遍历模型的子集并使用残差连接，多次回顾输入，从而细化预测。通过将GPT-2的版本与我们的循环残差模型进行比较的实验，展示了在保持类似参数数量的同时，在语言建模任务中提高了性能。重要的是，这些改进是在不需要额外训练数据的情况下实现的。

研究背景

大规模语言模型（如GPT）的成功归功于它们能够有效地预测序列中的下一个token。然而，这些模型在预测时不论所预测token的复杂性或歧义性如何，都依赖于恒定的计算量，缺乏迭代细化的能力。

问题与挑战

现有模型执行单次前向传播以预测下一个token，这限制了它们进行迭代细化的能力。特别是，它们依赖于恒定的计算量，而不考虑正在预测的token的复杂性或歧义性。

创新点

新颖架构：引入了循环残差机制，在不增加参数数量的情况下增强了模型性能。
效率：通过利用更长的推理时间，模型在不需要额外训练数据的情况下实现了更好的性能。
可扩展性：该方法适用于大规模神经网络，并且在与GPT-2相当的模型上展示了有效性。

算法模型

循环残差模型引入了一种迭代机制，通过多次循环遍历transformer块，并使用残差连接来细化隐藏状态。该过程定义为：[x(n) = x(n-1) + f_\theta(x(n-1))]，其中(x(n))是第n次迭代的隐藏状态，(x(0))是前一层或嵌入层的初始隐藏状态，(f_\theta)是由参数θ参数化的函数，包括循环遍历的transformer块预测残差。
在这里插入图片描述

实验效果

实验一：Loop-Residual GPT2-81M模型在OpenWebText数据集上达到了3.11的验证损失，与GPT-2-124M模型的3.12损失相当。
实验二：Loop-Residual GPT2-45M模型与Lite GPT-2-45M模型相比，验证损失从3.98降低到3.67，训练损失从3.96降低到3.65。

推荐阅读指数：★★★★☆

9. LLMs are One-Shot URL Classifiers and Explainers

Authors: Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne
https://arxiv.org/abs/2409.14306
在这里插入图片描述

LLMs作为一次性URL分类器和解释器

摘要

本文探讨了如何使用大型语言模型（LLMs）来解决网络安全中恶意URL分类的问题。现有的基于机器学习和深度学习的方法通常因为缺乏代表性的训练数据集而面临泛化和领域适应问题。此外，这些模型无法用自然人类语言提供给定URL分类的解释。文章提出了一种基于LLM的一次性学习框架，使用链式推理（Chain-of-Thought, CoT）预测给定URL是良性还是网络钓鱼。实验表明，该框架与监督模型性能相近，且无需额外训练数据。

研究背景

网络安全领域中，电子邮件和短信等渠道的网络钓鱼攻击仍然是一个重大问题。现有的黑名单和白名单方法在大规模和动态环境中检测网络钓鱼攻击效果不佳。因此，提出了基于机器学习的方法来检测钓鱼URL。

问题与挑战

现有的URL分类模型在不同数据源上的测试性能显著下降，主要是由于高误报率，表明对良性URL指标的理解不足。此外，现有模型通常缺乏可解释性，这对于用户意识和培训至关重要。

创新点

提出了一种基于LLM的框架，利用CoT推理进行URL分类和解释。
评估了五种最先进的LLM在三个URL数据集上的性能，并与现有的监督URL分类器进行了比较。
展示了一次性方法在预测性能方面与监督设置的相似性，并提供了自然语言解释，增强了用户对良性和网络钓鱼URL特征的认识。

算法模型

文章提出了一种基于LLM的一次性学习框架，该框架通过CoT推理来预测URL是良性还是网络钓鱼。模型通过迭代循环和残差连接来细化预测。

实验效果

在这里插入图片描述

实验结果显示，GPT-4 Turbo在所有评估的LLMs中表现最佳，平均F1分数为0.92，仅比完全监督设置低0.07。这表明该方法在不需要额外训练数据的情况下，能够与监督学习方法相媲美。

10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort

Authors: Yuxing Zhi, Yuan Guo, Kai Yuan, Hesong Wang, Heng Xu, Haina Yao, Albert C Yang, Guangrui Huang, Yuping Duan
https://arxiv.org/abs/2409.14478
在这里插入图片描述

大型语言模型能否逻辑预测心肌梗塞？基于英国生物银行队列的评估

摘要

本研究旨在定量评估最先进的通用大型语言模型（如ChatGPT和GPT-4）是否能够通过逻辑推理预测心肌梗塞（MI）的风险，并将它们的表现与其他模型进行比较，以全面评估LLMs的性能。

研究背景

大型语言模型（LLMs）在临床决策支持中的应用取得了显著进展，但目前对于LLMs在提供基于现实世界医疗数据的准确临床决策方面的潜力和局限性，尚需高质量的证据。

问题与挑战

如何验证LLMs是否能够逻辑地提供准确的临床诊断，尤其是在处理心脏病发作风险预测这类临床决策支持任务时。

创新点

使用来自英国生物银行数据库的数据，将风险因素的表格数据转换为标准化文本描述，用于ChatGPT识别。
利用“思维链”（Chain of Thought, CoT）提问方法，评估LLMs是否进行逻辑推理预测。
将ChatGPT和GPT-4的预测性能与传统机器学习模型和其他大型语言模型进行比较。

算法模型

ChatGPT：基于GPT-3.5的模型，以对话形式提供医疗健康问题的回答。
GPT-4：比ChatGPT更先进的模型，提供更精确、更具上下文相关性的回答。

实验效果

ChatGPT和GPT-4在预测心肌梗塞方面的性能表现不佳，AUC值分别为0.62和0.69。
使用CoT方法并没有显著提高ChatGPT和GPT-4的性能。
与传统机器学习模型相比，ChatGPT和GPT-4的性能较差，但与其他LLMs表现相似。

重要数据与结论

ChatGPT和GPT-4在预测心肌梗塞风险的任务中，性能未能满足临床应用的预期。
尽管GPT-4在灵敏度上表现更好，但ChatGPT和GPT-4均未能展现出对医疗知识的深入理解和逻辑推理能力。