当前位置：首页 > news >正文

【LLM之Agent】ReAct论文阅读笔记

news 2026/2/9 10:53:48

研究背景

论文介绍了 “ReAct” 范式，该范式旨在融合推理和行动的功能，通过让大型语言模型（LLMs）生成既包括言语推理轨迹又包括行动序列的输出，解决多种语言推理和决策任务。这种方法允许模型在与外部环境（如Wikipedia）交互时动态地进行推理和调整计划。

研究目标

ReAct的目标是改善LLMs中推理和行动生成的整合，以提升在多样化基准测试中的性能。它试图解决现有模型的局限性，这些模型通常将推理和行动生成分开处理，从而增加在需要这两种认知功能的任务中的效率。

方法论

ReAct采用一种新颖的提示策略，将推理和行动步骤交错使用，并利用如Wikipedia这样的外部API获取实时数据，以辅助决策过程。这种设置允许模型根据最新信息调整其响应，提高准确性和相关性。
在这里插入图片描述
ReAct框架结合了结构化提示和微调方法，在更少的数据样本上训练模型，同时实现更高的性能。它利用上下文学习和针对性微调，使模型适应特定任务，而不需要大量数据。

以在wiki上的HotPotQA数据为例：

设计动作空间
论文设计一个简单的维基百科web API三种类型的行动来支持交互式信息检索：

search[entity]，返回前5个句子从相应的实体维基页面如果存在，或者建议5类似实体从维基百科搜索引擎
lookup[string]，这将返回页面的下一个句子包含字符串，模拟Ctrl+F浏览器功能
finish[answer]，这将会用答案来完成当前的任务

这个动作空间大多只能根据确切的段落名称检索到一篇文章的一小部分，这明显比现有的词汇或神经检索器更弱。其目的是模拟人类将如何与维基百科互动，并迫使模型通过语言中的显式推理进行检索。

prompt

问题：科罗拉多造山带东部区域的海拔范围是多少？
行动 1：搜索【科罗拉多造山带】
观察 1：科罗拉多造山带是科罗拉多及周边地区的一次山脉构造活动。
行动 2：查找【东部区域】
观察 2（结果 1 / 1）：东部区域延伸至高原平原，称为中部平原造山带。
行动 3：搜索【高原平原】
观察 3：高原平原指两个不同的地区之一：
行动 4：搜索【美国高原平原】
观察 4：高原平原是大平原的一个子区域。从东到西，高原平原的海拔从大约 1,800 英尺升至 7,000 英尺（550 到 2,130 米）。
行动 5：结束【1,800 至 7,000 英尺】

实验

实验设计

实验在四个不同的基准测试上进行：问题回答、事实验证、基于文本的游戏和网页导航。这些测试旨在评估模型在复杂的多组件环境中执行推理和行动生成的能力。

任务类型	任务数据集	备注
问题回答	Hot-PotQA	从英文维基百科收集的 QA 数据集，包含大约113K个群众来源的问题，这些问题需要两篇维基百科文章的引言段落来回答。数据集中的每个问题都有两个黄金段落，以及这些段落中的句子列表，众包工作者认为这些句子是回答问题所必需的支持事实。
事实验证	FEVER	一个针对文本来源进行事实提取和验证的公开数据集。FEVER(事实提取和验证)由185,445个声明组成，通过修改从维基百科中提取的句子，然后在不知道这些句子的情况下进行验证。声明被分为 Supported，Refuted，NotRnoughInfo，数据是 Json 格式。
基于文本的游戏	ALFWorld	ALFWorld（Shridhar等人，2020b）（图1(2)）是一个基于文本的合成游戏，旨在与具体化的阿尔弗雷德基准测试对齐（Shridhar等人，2020a）。它包括6种类型的任务，其中代理需要通过文本操作导航模拟家庭，并与之进行交互（例如去咖啡柜1，取纸2，使用桌面灯1）。
网页导航	WebShop	WebShop是一个模拟的电子商务网站环境，拥有118万个真实世界的产品和12087条众包文本指令。在这种环境中，代理需要浏览多种类型的网页，并发出不同的操作来查找、自定义和购买给定说明的产品。WebShop提供了一些挑战，包括理解组合指令、查询（重新）公式、处理网页中的嘈杂文本以及执行战略探索。

实验结论

ReAct在所有测试领域中的性能均优于最先进的基线模型，特别是在传统仅行动模型中表现出色，并在从实时数据交互中受益的任务中显示出显著优势。实验还突出了ReAct提高模型可解释性和可信度的能力，使用户更容易理解并验证模型决策背后的推理。

比如在HotPotQA上的实验结果如下：
在这里插入图片描述

参考资料

论文
代码

【LLM之Agent】ReAct论文阅读笔记

研究背景

研究目标

相关工作

方法论

实验

实验设计

实验结论

参考资料

相关文章：

【LLM之Agent】ReAct论文阅读笔记

LeetCode 125. 验证回文串

IT审计必看！对比旧版，CISA考试改版升级亮点和重点内容是什么？

充电宝哪个牌子公认质量好？哪家充电宝好用？4款口碑好充电宝

Python实现图像添加水印的方法

MemFire Cloud: 一种全新定义后端即服务的解决方案

职业教育软件测试实验实训室建设应用案例

如何判断一个js对象为数组类型

Nacos2.X 配置中心源码分析：客户端如何拉取配置、服务端配置发布客户端监听机制

phpstudy框架，window平台，如何开端口给局域网访问？

高性能Python网络框架实现网络应用详解

万字学习——DCU编程实战

Neo4j 图数据库高级操作

《RWKV》论文笔记

相机光学（二十九）——显色指数（Ra）

【Swoole 的生命周期，文件描述符，协程数量，以及默认值】

“不要卷模型，要卷应用”之高考志愿填报智能体

k8s离线部署芋道源码后端

图论·Day01

hutool ExcelUtil 导出导入excel

基于FPGA的PID算法学习———实现PID比例控制算法

Xshell远程连接Kali（默认 | 私钥）Note版

Oracle查询表空间大小

渲染学进阶内容——模型

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

Unity | AmplifyShaderEditor插件基础（第七集：平面波动shader）

Xen Server服务器释放磁盘空间

C# 表达式和运算符(求值顺序)

Bean 作用域有哪些？如何答出技术深度？