当前位置：首页 > news >正文

ReAct论文阅读笔记总结

news 2025/7/7 12:33:44

ReAct：Synergizing Reasoning and Acting in Language Models

背景

最近的研究结果暗示了在自主系统中结合语言推理与交互决策的可能性。

一方面，经过适当Prompt的大型语言模型（LLMs）已经展示了在算术、常识和符号推理任务中通过多步推理推导问题答案的新兴能力。然而，这种“思维链(CoT)”推理是一个静态的黑箱，因为模型依赖其内部表示生成思维，并未与外部世界建立联系，这限制了其进行反应性推理或更新知识的能力。这可能导致诸如事实幻觉和推理过程中的错误传播等问题
另一方面，近期的研究探索了利用预训练语言模型在交互环境中进行规划和行动的可能性。然而，这些方法并未利用语言模型进行高层次目标的抽象推理，也未维护一个工作记忆以支持行动。

在这里插入图片描述

上图表示4种提示方法的比较。(1a）表示普通方法，(1b)表示CoT，即只有Reason。(1c)表示仅行动，(1d)表示ReACT，即Reason+Act
在这里插入图片描述

上图表示基于AlfWorld解决方案的Act和ReAct方法比较。(2a)表示只有行动，(2b)表示ReAct

研究目的、动机

如何以协同的方式结合推理与行动，以及这种结合是否能带来相较于单独推理或行动的系统性优势。

成果

作者提出了ReAct，这是一种将推理和行动与语言模型相结合的一般范式，用于解决不同的语言推理和决策务。提示LLMs以交错方式生成与任务相关的语言推理跟踪和动作，这允许模型执行动态推理以创建、维护和调整高级行动计划（Reason to Act），同时还与外部环境（例如维基百科）交互以将其他信息纳入推理（Act to Reason）。
在问答、事实验证、基于文本的游戏和网页导航进行评测，证明了提出方法的有效性，与精心设计的CoT相竞争。总体上最好的方法是ReAct和CoT的组合，允许在推理过程中同时使用内部知识和外部获得的信息。

收获

ReAct思想简述：
思考：涉及对下一个行动进行推理。在这一步需要评估当前情况并考虑可能的行动方案。
行动：基于思考的结果，决定采取什么行动。
观察：执行行动后，需要观察并收集反馈。对行动结果进行评估，它可能影响或改变下一轮思考的方向。

  While(目标未完成)：Thought；Action；Observation

对于ReAct来说，采取行动检索准确和最新的知识至关重要
ReAct+CoT结合效果会更好一些
存在的问题。尽管ReAct可以提高模型的可信度，但这种结构约束也降低了其制定推理步骤的灵活性，导致推理错误率高于 CoT。且ReAct具有一种常见错误模式，会重复生成之前的想法和行动，作者将其归类为 “推理错误” 的一部分，因为模型未能推理出正确的下一步行动并跳出循环。
此外作者对这四种方法在Prompt和微调（基于3000样本点对模型做了微调）上进行了测试，表明ReAct更适合微调后的场景。可能是前者本质上是教模型记住（可能是幻觉的）知识事实，而后者教模型如何（推理和）行动以访问维基百科的信息，这是一种更通用的知识推理技能。

举例四种方式的Prompt案例

normal

  Question:  哪位演员出演了《肖申克的救赎》，并且还出演了另一部由弗兰克·德拉邦特执导的电影？Answer： 摩根·弗里曼Question:《肖申克的救赎》的导演是谁？Answer：弗兰克·德拉邦特Question:摩根·弗里曼在《绿色奇迹》中扮演了什么角色？Answer：他饰演了角色“艾利斯·波伊德·瑞德”。Question:《绿色奇迹》是哪一年上映的？Answer： 1999年

      Question: 哪位演员出演了《肖申克的救赎》，并且还出演了另一部由弗兰克·德拉邦特执导的电影？Action 1：查询关于《肖申克的救赎》的文档。Observation 1: 《肖申克的救赎》是一部1994年的电影，由弗兰克·德拉邦特执导，主演包括蒂姆·罗宾斯和摩根·弗里曼。Action 2：查询弗兰克·德拉邦特的其他电影。Observation 2: 弗兰克·德拉邦特还执导了《绿色奇迹》，这部电影于1999年上映，主演包括汤姆·汉克斯和摩根·弗里曼。Action 3：确认摩根·弗里曼是否同时出演了这两部电影。Observation 3:是的，摩根·弗里曼在这两部电影中都有出演。Final Answer：摩根·弗里曼

      Question：哪位演员出演了《肖申克的救赎》，并且还出演了另一部由弗兰克·德拉邦特执导的电影？Thought：首先，我需要找到《肖申克的救赎》的主演名单，并确认导演是弗兰克·德拉邦特。Answer： 主演包括蒂姆·罗宾斯和摩根·弗里曼，导演是弗兰克·德拉邦特。Question：弗兰克·德拉邦特还执导了哪些电影？Thought：我需要查找弗兰克·德拉邦特的其他作品，并检查是否有相同的演员出演。Answer：弗兰克·德拉邦特还执导了《绿色奇迹》，主演包括汤姆·汉克斯和摩根·弗里曼。Question：是否有演员同时出演了《肖申克的救赎》和《绿色奇迹》？Thought：根据以上信息，摩根·弗里曼在这两部电影中都有出演。Answer： 摩根·弗里曼

ReAct

      Question：哪位演员出演了《肖申克的救赎》，并且还出演了另一部由弗兰克·德拉邦特执导的电影？Thought 1：我需要先找到《肖申克的救赎》的主演名单和导演信息。Action 1：查询关于《肖申克的救赎》的文档。Observation 1：《肖申克的救赎》是一部1994年的电影，由弗兰克·德拉邦特执导，主演包括蒂姆·罗宾斯和摩根·弗里曼。Thought 2：接下来，我需要查找弗兰克·德拉邦特的其他电影，并确认是否有相同的演员出演。Action 2：查询弗兰克·德拉邦特的其他电影。Observation 2：弗兰克·德拉邦特还执导了《绿色奇迹》，这部电影于1999年上映，主演包括汤姆·汉克斯和摩根·弗里曼。Thought 3 : 现在我可以确认，摩根·弗里曼同时出演了《肖申克的救赎》和《绿色奇迹》。Final Answer : 摩根·弗里曼

ReAct论文阅读笔记总结

ReAct：Synergizing Reasoning and Acting in Language Models 背景最近的研究结果暗示了在自主系统中结合语言推理与交互决策的可能性。一方面，经过适当Prompt的大型语言模型（LLMs）已经展示了在算术、常识和符号推理任务中通…...

编程日记 2025/3/9 6:23:51

1. 做三个节点的redis集群。 1、编辑redis节点node0(10.0.0.100)、node1(10.0.0.110)、node2(10.0.0.120)的安装脚本 [rootnode0 ~]# vim install_redis.sh#!/bin/bash # 指定脚本解释器为bashREDIS_VERSIONredis-7.2.7 # 定义Redis的版本号PASSWORD123456 # 设置Redis的访问…...

编程日记 2025/3/9 6:22:50

Python在数字货币交易中的算法设计：从策略到实践

Python在数字货币交易中的算法设计：从策略到实践随着区块链技术的发展和加密货币市场的繁荣，数字货币交易已经成为金融领域的一个重要分支。从个体投资者到量化基金，算法交易（Algorithmic Trading）正在为提高交易效率和决策质量提供强大的支撑。在这些技术应用中，Pytho…...

编程日记 2025/3/9 6:21:49

高纬度、跨极区导航技术

本文是何昆鹏老师所写，在此非常感谢何老师的分享。全球导航，特别是极区导航，一直被美俄导航领域所关注。美俄本身部分国土就处于极区，很多战略军事部署与全球航线也都处于该区域，加之其战略军事任务也都强调全球覆盖…...

编程日记 2025/3/9 6:20:48

用AI学编程2——python学习1

一个py文件，学会所有python所有语法和特性，给出注释，给出这样的文件 Python 学习整合文件 """ Python 学习整合文件包含 Python 的基础语法、数据结构、函数定义、面向对象编程、异常处理、文件操作、高级特性等内容每个部…...

编程日记 2025/3/9 6:18:46

用数据唤醒深度好眠，时序数据库 TDengine 助力安提思脑科学研究

在智能医疗与脑科学快速发展的今天，高效的数据处理能力已成为突破创新的关键。安提思专注于睡眠监测与神经调控，基于人工智能和边缘计算，实现从生理体征监测、智能干预到效果评估的闭环。面对海量生理数据的存储与实时计算需求，安…...

编程日记 2025/3/9 6:17:44

Ubuntu下MySQL的安装与使用（一）

目录用户切换 MySQL的安装 MySQL的初步使用登录与退出 Linux和mysql中的普通用户和root用户查看、创建与使用简单应用 MySQL 数据库在 Linux 文件系统中的存储结构数据库、数据库服务、数据库管理系统（宏观） 微观下的DBMS SQL语言及其分…...

编程日记 2025/3/9 6:16:43

步进电机软件细分算法解析与实践指南

1. 步进电机细分技术概述步进电机是一种将电脉冲信号转换为角位移的执行机构，其基本运动单位为步距角。传统步进电机的步距角通常为 1.8（对应 200 步 / 转），但在高精度定位场景下，这种分辨率已无法满足需求。细分技术…...

编程日记 2025/3/9 6:14:41

pytorch retain_grad vs requires_grad

requires_grad大家都挺熟悉的，因此穿插在retain_grad的例子里进行捎带讲解就行。下面看一个代码片段： import torch# 创建一个标量 tensor，并开启梯度计算 x torch.tensor(2.0, requires_gradTrue)# 中间计算：y 依赖于 x&#x…...

编程日记 2025/3/9 6:13:39

RabbitMQ消息队列中间件安装部署教程（Windows）-2025最新版详细图文教程（附所需安装包）

目录前言一、安装Erlang环境 1、下载Erlang安装包 2、安装Erlang 3、设置环境变量二、安装RabbitMQ环境 1、下载RabbitMQ安装包 2、安装RabbitMQ 3、设置环境变量三、启动RabbitMQ 1、开启RabbitMQ管理插件 2、启动RabbitMQ 四、访问RabbitMQ 前言 RabbitMQ 是…...

编程日记 2025/3/9 6:12:38

vue-cli3+vue2+elementUI+avue升级到vite+vue3+elementPlus+avue总结

上一个新公司接手了一个vue-cli3vue2vue-router3.0elementUI2.15avue2.6的后台管理项目，因为vue2在2023年底已经不更新维护了，elementUI也只支持到vue2，然后总结了一下vue3的优势，最后批准升级成为了vitevue3vue-router4.5element…...

编程日记 2025/3/9 6:11:37

车载以太网测试-3【Wireshark介绍】

1 摘要 Wireshark 是一款开源的网络协议分析工具，广泛用于网络故障排查、协议分析、网络安全检测等领域。它能够捕获网络数据包，并以详细的、可读的格式显示这些数据包的内容。广泛应用于车载网络测试，是车载网络测试工程师必须掌握的工具。…...

编程日记 2025/3/9 6:10:36

扫雷雷雷雷雷雷雷

大家好啊，我是小象٩(๑ω๑)۶ 我的博客：Xiao Xiangζั͡ޓއއ 很高兴见到大家，希望能够和大家一起交流学习，共同进步。这一节课我们不学习新的知识，我们来做一个扫雷小游戏目录扫雷小游戏概述一、扫雷游戏分析…...

编程日记 2025/3/9 6:07:31

图片分类实战：食物分类问题（含半监督）

食物分类问题 simple_class 1. 导入必要的库和模块 import random import torch import torch.nn as nn import numpy as np import os from PIL import Image #读取图片数据 from torch.utils.data import Dataset, DataLoader from tqdm import tqdm from torchvision impo…...

编程日记 2025/3/9 6:06:30

RuoYi框架添加自己的模块（学生管理系统CRUD）

RuoYi框架添加自己的模块（学生管理系统） 框架顺利运行首先肯定要顺利运行框架了，这个我不多说了设计数据库表在ry数据库中添加表tb_student 表字段如图所示如图所示注意id字段是自增的注释部分是后面成功后前端要展示的部分导入…...

编程日记 2025/3/9 6:04:28

机器学习在地图制图学中的应用

原文链接：https://www.tandfonline.com/doi/full/10.1080/15230406.2023.2295948#abstract CSDN/2025/Machine learning in cartography.pdf at main keykeywu2048/CSDN GitHub 核心内容本文是《制图学与地理信息科学》特刊的扩展评论，系统探讨了机…...

编程日记 2025/3/9 6:03:27

【JAVA架构师成长之路】【电商系统实战】第9集：订单超时关闭实战（Kafka延时队列 + 定时任务补偿）

30分钟课程：订单超时关闭实战（Kafka延时队列定时任务补偿） 课程目标理解订单超时关闭的业务场景与核心需求。掌握基于 Kafka 延时队列与定时任务的关单方案设计。实现高并发场景下的可靠关单逻辑（防重复、幂等性）。…...

编程日记 2025/3/9 6:02:25

《探秘课程蒸馏体系“三阶训练法”：解锁知识层级递进式迁移的密码》

在人工智能与教育科技深度融合的时代，如何高效地实现知识传递与能力提升，成为众多学者、教育工作者以及技术专家共同探索的课题。课程蒸馏体系中的“三阶训练法”，作为一种创新的知识迁移模式，正逐渐崭露头角，为解决这…...

编程日记 2025/3/9 5:59:23

K8s 1.27.1 实战系列（六）Pod

一、Pod介绍 1、Pod 的定义与核心设计 Pod 是 Kubernetes 的最小调度单元，由一个或多个容器组成，这些容器共享网络、存储、进程命名空间等资源，形成紧密协作的应用单元。Pod 的设计灵感来源于“豌豆荚”模型，容器如同豆子，共享同一环境但保持隔离性。其核心设计目标包括…...

编程日记 2025/3/9 5:58:22

Java CountDownLatch 用法和源码解析

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，…...

编程日记 2025/3/9 5:57:21

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/6/23 4:26:10

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

在对接支付宝API的时候，遇到了一些问题，记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

编程新知 2025/7/6 1:11:45

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/6/15 6:20:40

练习（含atoi的模拟实现,自定义类型等练习）

一、结构体大小的计算及位段 （结构体大小计算及位段详解请看：自定义类型：结构体进阶-CSDN博客） 1.在32位系统环境，编译选项为4字节对齐，那么sizeof(A)和sizeof(B)是多少？ #pragma pack(4)st…...

编程新知 2025/7/6 19:40:25

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括：采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中，设置任务排序规则尤其重要，因为它让看板视觉上直观地体…...

编程新知 2025/7/5 20:43:53

STM32标准库-DMA直接存储器存取

文章目录一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA（Direct Memory Access）直接存储器存取 DMA可以提供外设…...

编程新知 2025/7/7 6:52:32

vue3 字体颜色设置的多种方式

在Vue 3中设置字体颜色可以通过多种方式实现，这取决于你是想在组件内部直接设置，还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法： 1. 内联样式你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...

编程新知 2025/7/4 14:40:43

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2025/7/6 15:15:08

C# 类和继承(抽象类)

抽象类抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。不能创建抽象类的实例。抽象类使用abstract修饰符声明。抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

编程新知 2025/7/6 19:34:04

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

在机器学习的回归分析中，损失函数的选择对模型性能具有决定性影响。均方误差（MSE）作为经典的损失函数，在处理干净数据时表现优异，但在面对包含异常值的噪声数据时，其对大误差的二次惩罚机制往往导致模型参数…...

编程新知 2025/7/6 11:43:54

ReAct论文阅读笔记总结

ReAct：Synergizing Reasoning and Acting in Language Models

背景

研究目的、动机

成果

收获

举例四种方式的Prompt案例

相关文章：

ReAct论文阅读笔记总结

Linux云计算SRE-第十七周

Python在数字货币交易中的算法设计：从策略到实践

高纬度、跨极区导航技术

用AI学编程2——python学习1

用数据唤醒深度好眠，时序数据库 TDengine 助力安提思脑科学研究

Ubuntu下MySQL的安装与使用（一）

步进电机软件细分算法解析与实践指南

pytorch retain_grad vs requires_grad

RabbitMQ消息队列中间件安装部署教程（Windows）-2025最新版详细图文教程（附所需安装包）

vue-cli3+vue2+elementUI+avue升级到vite+vue3+elementPlus+avue总结

车载以太网测试-3【Wireshark介绍】

扫雷雷雷雷雷雷雷

图片分类实战：食物分类问题（含半监督）

RuoYi框架添加自己的模块（学生管理系统CRUD）

机器学习在地图制图学中的应用

【JAVA架构师成长之路】【电商系统实战】第9集：订单超时关闭实战（Kafka延时队列 + 定时任务补偿）

《探秘课程蒸馏体系“三阶训练法”：解锁知识层级递进式迁移的密码》

K8s 1.27.1 实战系列（六）Pod

Java CountDownLatch 用法和源码解析

RestClient

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

R语言AI模型部署方案：精准离线运行详解

练习（含atoi的模拟实现,自定义类型等练习）

如何在看板中体现优先级变化

STM32标准库-DMA直接存储器存取

vue3 字体颜色设置的多种方式

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

C# 类和继承(抽象类)

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比