当前位置：首页 > news >正文

ART: Automatic multi-step reasoning and tool-use for large language models 导读

news 2026/2/9 11:50:16

ART: Automatic multi-step reasoning and tool-use for large language models
本文介绍了一种名为“自动推理和工具使用（ART）”的新框架，用于解决大型语言模型（LLM）在处理复杂任务时需要手动编写程序的问题。该框架可以自动选择任务库中的多步推理和工具使用的演示，并无缝地暂停和恢复生成过程以整合外部工具的输出。实验结果表明，ART比仅使用提示语和自动链式思维（CoT）方法在未见过的任务上表现更好，并且易于人类干预以提高性能。

论文方法

方法描述

本文提出的ART（Arithmetic Reasoning Tool）是一种基于自然语言处理技术的任务分解工具，它能够帮助人类将复杂的任务分解成多个子任务，并且为每个子任务提供相应的解决方案。具体来说，ART包含两个主要部分：任务库和工具库。任务库中存储了多种类型的任务，包括算术、代码生成与执行、搜索和问题分解等；而工具库则包含了各种工具，如搜索引擎、代码生成器以及计算器等。在使用ART时，用户只需要输入一个新任务的描述，然后ART会自动从任务库中找到与之相似的任务，并根据这些任务的程序来生成一个新的程序，该程序可以帮助用户完成新的任务。

方法改进

相比于传统的任务分解方法，ART具有以下优点：

可以自动化地完成任务分解过程，无需人工干预。
能够有效地跨任务学习，即在一个任务中学到的知识可以应用到其他相关任务中。
支持自定义工具库，使得用户可以根据自己的需求添加或修改工具，从而提高性能。

此外，ART还支持用户反馈机制，用户可以通过编辑任务库和工具库来自定义任务分解方案，从而进一步提高性能。

解决的问题

本文提出的方法解决了传统任务分解方法的一些缺点，例如需要大量的人工参与、无法跨任务学习等问题。同时，ART还可以通过用户反馈机制不断优化自身性能，因此可以应用于各种不同领域的任务分解场景。

论文实验

本文主要介绍了使用ART（Automated Reasoning Tool）框架进行多步推理和工具使用的实验结果，并与几个基线进行了比较。实验分为以下几个部分：

在任务库中对ART进行测试：在任务库中提供了两组任务演示程序，ART仅使用两个示例就可以显著提高性能，比少量示例的直接提示方法提高了14.9%的平均精度。
在BigBench等其他基准上测试ART：在没有显式分解和工具使用监督的情况下，ART可以成功应用于多个任务，并且在搜索任务中的表现特别好。
比较ART和其他基线：ART比其他基线如少示例学习和自动CoT（Conceptualizing Thinking）更有效，尤其是在需要使用代码生成器来执行复杂算术运算的任务中。
自我一致性实验：通过多次生成LLM输出并选择最频繁的答案，ART的性能得到了进一步提高。
人类反馈实验：通过编辑模型生成的程序并将其作为示范，ART的性能也得到了显著提高。

总的来说，本文展示了ART在多步推理和工具使用方面的优势，并证明了它具有良好的跨任务泛化能力。同时，本文还表明，在缺乏显式分解和工具使用监督的情况下，人类反馈可以显著提高ART的性能。

论文总结

文章优点

本文提出了一种名为ART的框架，可以自动地为大型黑盒语言模型生成多步推理过程，并使用工具库中的外部工具来提高性能。该框架通过检索任务库中与新任务相关的演示文稿，从而实现零样本分解和工具使用。ART提供了一个灵活但结构化的查询语言，使得解析中间步骤、停止生成以调用外部工具以及在包括这些工具输出后继续生成变得容易。此外，用户可以通过更新任务和工具库来修复任何错误或添加新工具，而无需重新训练模型。实验结果表明，ART在多个测试任务上表现优异，特别是在需要算术和算法推理的任务上表现出色。

方法创新点

ART的主要贡献在于引入了轻量级语法来表示多步推理作为程序（带有工具调用和参数），并扩展了一个包含有用外部工具（如搜索、代码生成和执行）的可扩展工具库。此外，ART还提供了解释性的推理框架，使人类能够改进任务分解和工具使用，从而进一步提高性能。ART还受益于自一致性等方法，或者通过针对工具使用的更强大的预训练语言模型进行训练。

未来展望

本文提出的ART框架具有广泛的应用前景，可以在各种领域中用于自然语言处理任务。例如，在智能客服、智能问答等领域中，可以利用ART框架来帮助机器理解用户的意图并提供相应的答案。此外，ART还可以与其他技术结合使用，例如强化学习和迁移学习，以进一步提高性能。在未来的研究中，我们还将探索如何将ART框架应用于其他类型的语言模型，并将其扩展到更多的任务和工具库中。