当前位置: 首页 > article >正文

论文笔记:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

1. Motivation大型语言模型LLMs如GPT-4、PaLM和LLaMA在各种推理任务中展现出了令人印象深刻的性能。除了通过扩大模型规模来提高推理性能外还有更有效的提示方法可以进一步增强LLMs的功能和性能。然而现有的单查询推理single-query reasoning和多查询推理multi-query reasoning方法都面临一些局限性如缺乏普遍性和泛化能力、计算密集型、以及忽视从先前任务中提取一般性和高层次的指导思想或思维。为了解决这些限制论文提出了一种新的方法。单查询推理包括有CoT在输入查询后附加“Let’s think step by step”和few-shot Prompting提供与任务相关的demonstrations来帮助生成答案多查询推理利用多个 LLM 查询来得出不同的合理推理路径从而将一个复杂的问题分解为一系列更简单的子问题。如Least-to-MostToTGoT2. Contribution提出了一种新的方法Buffer of Thoughts (BoT)来提高基于 LLM 的推理的准确性、效率和稳健性。设计了元缓冲区meta-buffer来存储从不同问题中提取的信息丰富的高层思想thought-template并针对每个问题适应性地实例化这些思想模板。设计了缓冲区管理器buffer-manager用于从各种解决方案中提取思想模板并随着解决更多任务而不断提升元缓冲区的能力。对 10 项具有挑战性的推理密集型任务进行广泛的实验。与之前的 SOTA 方法相比 BoT 实现了显着的性能改进在Game of 24上提高了 11%在Geometric Shapes上提高了 20%在Checkmate-in-One上提高了 51%而平均成本仅为多查询提示方法的 12%。3. Buffer of ThoughtsOverview给定一个特定任务利用问题蒸馏器problem-distiller来提取关键的特定于任务的信息并具有相关的约束条件。根据提炼的信息在包含一系列高级思想thought-template的元缓冲区meta-buffer中进行搜索并检索与任务最相关的思想模板thought-template。随后用更多特定于任务的推理结构实例化检索到的思维模板并进行推理过程。最后我们使用缓冲区管理器buffer-manager来总结整个问题解决过程并提炼高层思想以增加元缓冲区的容量。3.1 Problem Distiller作者设计了一个元提示 φ 来首先提取和形式化任务信息。提取的任务信息可以表示为其中 x 是任务说明。Problem Condensation and Translation使用问题蒸馏器从输入任务中提取关键元素重点关注1解决问题的基本参数和变量 2输入任务的目标及其相应的约束。然后将这些提炼出来的信息重新组织成清晰、易于理解的格式以供后续推理阶段使用。然后将具体问题转化为高级概念和结构。这种翻译过程将复杂的现实问题例如复杂的数学应用场景分解为更简单的多步骤计算从而更容易检索高级思想。3.2 Thought-Augmented Reasoning with Meta Buffer人类在解决问题时往往会总结并归纳出更高层次的指导方针然后应用于相关问题。受此启发作者提出了元缓冲区这是一个轻量级库其中包含一系列用于解决各种类型问题的高级思想思想模板。 BoT 旨在为各种任务提供通用的推理方法因此相应地将思维模板分为六类文本理解、创造性语言生成、常识推理、数学推理、代码编程和应用程序调度。这种思维模板的分类可以方便模板检索以找到针对不同问题的最合适的解决方案。作者将思想模板、模板描述及其对应的类别表示为(Ti, DTi , Ck)其中i表示元模板的索引k ∈ Z且1 ≤ k ≤ 6这意味着Ck属于六个中的一个类别DTi是思维模板的描述。Template Retrieval对于每个任务 BoT 通过计算描述 DTi 和 xd 之间的嵌入相似度来检索与蒸馏问题 xd 高度相似的思想模板 Ti。检索过程可以表述为Instantiated Reasoning对于每个特定任务根据当前任务是否是新任务来讨论实例化推理的两种情况第一种情况是成功检索该任务的思维模板 Tj。在这种情况下思想增强推理将通过我们设计的实例化提示自适应地实例化为合适的推理结构。在第二种情况下该任务被识别为新任务。为了实现正确的实例化推理准备了三个通用的粗粒度思维模板以供使用。根据提取的任务信息 xd我们的 BoT 会自动为推理过程分配合适的思维模板。3.3 Buffer Manager提出缓冲区管理器来总结从每个问题解决过程中获得的高级指南和思想。它可以将每个具体解决方案推广到更多问题以思想模板的形式将关键的提炼知识存储在元缓冲区中。与为每个问题临时生成示例或指令的方法相比缓冲区管理器可以确保基于 LLM 的推理的准确性、效率和稳健性方面的永久进步。Template Distillation为了提取通用的思维模板提出了一个三步方法1核心任务总结识别和描述问题的基本类型和核心挑战 (2)解决步骤描述总结解决问题的一般步骤 (3)通用答题模板根据上述分析提出可广泛应用于类似问题的解答模板或方法。此外为了提高模板蒸馏的泛化能力和稳定性精心设计了两种类型的上下文示例来生成思维模板——任务内示例和跨任务示例。跨任务意味着选择从一项任务中提炼出来的模板来解决其他任务的问题例如用与代码相关的思维模板来解决数学问题。从输入任务 x 中提取的新模板用到的promptDynamic Update of Meta-Buffer模板蒸馏后需要考虑是否应该将蒸馏后的模板更新到元缓冲区中。如果初始化一个空的元缓冲区或遇到没有正确思想模板的问题则蒸馏后的思想模板将直接存储在元缓冲区中。如果用检索到的思维模板来解决问题那么在特定思维模板的实例化过程中可能会出现新的见解。因此为了避免元缓冲区的冗余同时保持新生成的信息思想将计算 DTnew 和 {DTi }n i0 的嵌入向量之间的相似度并使用以下规则更新元缓冲区否则这意味着元缓冲区已经拥有解决该任务所需的知识不需要执行更新。这样的动态更新策略有效地减少了模板检索的计算负担同时确保了元缓冲区的轻量级属性。4. Experiments在多个任务和数据集上的实验表明BoT在各种复杂的基准测试中持续超越所有先前的提示方法特别是在“24点游戏”和“一步棋”等复杂推理任务上取得了显著的准确性提升。此外BoT在推理效率上与单查询方法相当远高于传统的多查询方法并且具有更高的推理鲁棒性。论文还分析了思想模板的分布和时间成本并探讨了模型大小与性能之间的权衡发现配备BoT的较小模型能够展现出接近甚至超越较大模型的能力。

相关文章:

论文笔记:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

1. Motivation 大型语言模型(LLMs)如GPT-4、PaLM和LLaMA在各种推理任务中展现出了令人印象深刻的性能。除了通过扩大模型规模来提高推理性能外,还有更有效的提示方法可以进一步增强LLMs的功能和性能。然而,现有的单查询推理&#…...

RISC-V裸机C驱动调试实战:3步定位寄存器配置错误,省去8小时反复烧写

第一章:RISC-V裸机C驱动调试实战:3步定位寄存器配置错误,省去8小时反复烧写在RISC-V裸机开发中,GPIO、UART等外设寄存器配置错误常导致功能静默失效——既无编译报错,也无运行时异常,仅表现为信号无输出或接…...

优先队列实战:用分支限界法解决最小权顶点覆盖问题(附Python代码)

优先队列实战:用分支限界法解决最小权顶点覆盖问题(附Python代码) 在算法竞赛和实际工程中,图论问题往往需要高效的解决方案。最小权顶点覆盖问题(Minimum Weight Vertex Cover, MWVC)是一个经典的NP难问题…...

LiveKit Agents 在科研领域的10个创新应用案例:构建实时多模态AI应用

LiveKit Agents 在科研领域的10个创新应用案例:构建实时多模态AI应用 【免费下载链接】agents Build real-time multimodal AI applications 🤖🎙️📹 项目地址: https://gitcode.com/GitHub_Trending/agen/agents LiveKi…...

3个为什么你需要Windows Cleaner:告别C盘爆红的终极解决方案

3个为什么你需要Windows Cleaner:告别C盘爆红的终极解决方案 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 当你的C盘图标突然变红,系统弹…...

告别SFTP客户端!用SSHFS在Mac访达直接编辑远程服务器文件(保姆级教程)

告别SFTP客户端!用SSHFS在Mac访达直接编辑远程服务器文件(保姆级教程) 对于需要频繁操作远程服务器文件的开发者来说,传统的SFTP客户端虽然功能完善,但每次上传下载的繁琐操作总会打断工作流。想象一下,如…...

MinIO vs 阿里云OSS:自建文件服务器的成本与性能对比

MinIO与商业云存储的终极对决:技术决策者的成本效益分析指南 当企业需要存储海量非结构化数据时,技术决策者往往面临一个关键选择:采用MinIO自建文件服务器,还是直接购买阿里云OSS等商业云存储服务?这个看似简单的选择…...

新手必看:GitHub_Trending/agen/agentkit常见问题与解决方案汇总

新手必看:GitHub_Trending/agen/agentkit常见问题与解决方案汇总 【免费下载链接】agentkit Every AI Agent deserves a wallet. 项目地址: https://gitcode.com/GitHub_Trending/agen/agentkit GitHub_Trending/agen/agentkit是一款为AI Agent提供钱包功能的…...

2025年最新版:用Coze零代码搭建智能记账小助手(附数据库配置技巧)

2025年最新版:用Coze零代码搭建智能记账小助手(附数据库配置技巧) 在个人财务管理领域,智能记账工具正成为都市人的数字生活刚需。传统记账软件要么功能臃肿,要么分类逻辑僵化,而Coze平台提供的零代码开发能…...

基于Ensp的中小型企业网络项目实战:从零到一构建安全冗余网络

1. 项目背景与需求分析 中小型企业网络建设往往面临预算有限但需求复杂的矛盾。我去年帮一家50人规模的电商公司做网络改造时,就遇到过部门间数据泄露、网关单点故障导致全公司断网的问题。这次我们用华为Ensp模拟器,完整复现一个典型的中小型企业网络建…...

保姆级教程:用Obsidian Git插件+Gitee,实现Windows到安卓手机的免费笔记同步

保姆级教程:用Obsidian Git插件Gitee实现Windows与安卓无缝笔记同步 在信息碎片化时代,知识管理工具的选择往往决定了工作效率的上限。Obsidian作为一款基于Markdown的本地优先笔记应用,凭借其双向链接和知识图谱功能,已成为许多…...

Rolldown构建缓存策略:选择最适合项目的缓存方案

Rolldown构建缓存策略:选择最适合项目的缓存方案 【免费下载链接】rolldown Modern bundler built on Rollup with couple more features, such as multiple entry points, presets, better configuration experience and more. 项目地址: https://gitcode.com/Gi…...

手把手教你用Realsense-Viewer调试L515:深度图对齐/IMU同步的实战技巧

手把手教你用Realsense-Viewer调试L515:深度图对齐/IMU同步的实战技巧 当L515激光雷达相机遇上机器人视觉系统,数据流的精确同步往往成为项目落地的第一道门槛。上周在给服务机器人集成环境感知模块时,深度图与IMU数据的时间戳偏差导致建图出…...

Postman Pre-request Script实战:用forgeJS实现RSA加解密(附完整代码)

Postman Pre-request Script实战:用forgeJS实现RSA加解密(附完整代码) 在API开发和测试过程中,数据安全传输是至关重要的环节。RSA非对称加密算法因其安全性高、密钥管理方便等特点,成为API接口加密的常见选择。然而&a…...

376.2协议帧结构深度解析:从控制域到数据单元的通信密码

1. 376.2协议帧结构全景图 当你第一次看到376.2协议的报文时,可能会被那一串十六进制数字搞得头晕眼花。别担心,这就像拆解乐高积木一样,只要掌握每个模块的作用,就能看懂这个"通信密码本"。整个帧结构就像快递包裹&…...

基于Matlab/Simulink的光伏电池H6型逆变器仿真建模

Simulink仿真:基于Matlab/Simulink的H6光伏逆变器仿真建模 关键词:光伏电池 Matlab/Simulink 仿真建模 参考文献:自建实验文档(数据和图可直接使用) 仿真平台:MATLAB/Simulink 主要内容:本文基于…...

银河麒麟系统下miniconda安装避坑指南

1. 银河麒麟系统安装miniconda的常见问题 第一次在银河麒麟系统上安装miniconda时,我遇到了一个让人头疼的错误。执行安装脚本后,终端突然弹出一堆红色报错信息,最后以"Permission denied"结束。这种情况在Linux系统中很常见&#…...

跨设备共享Ollama本地AI模型:局域网配置全攻略

1. 为什么需要跨设备共享Ollama服务? 最近两年本地AI模型越来越火,很多开发者都在自己的电脑上跑起了Llama、Mistral这样的开源大模型。但每次想用手机或者平板访问时,都得重新部署一遍,特别麻烦。我自己就经常遇到这种情况&#…...

Rolldown构建性能基准测试:量化评估优化效果

Rolldown构建性能基准测试:量化评估优化效果 【免费下载链接】rolldown Modern bundler built on Rollup with couple more features, such as multiple entry points, presets, better configuration experience and more. 项目地址: https://gitcode.com/GitHub…...

向量+关键词+图谱三路召回协同失效?Dify 0.12+最新混合策略调优全链路,含可复用YAML配置模板

第一章:Dify 混合 RAG 召回率优化 安全性最佳方案在 Dify 平台中构建混合 RAG(Retrieval-Augmented Generation)系统时,召回率与安全性并非互斥目标——通过语义分层召回、动态权限过滤与内容可信度校验三重机制,可同步…...

Initia桌面应用:Electron与Tauri桌面钱包终极指南

Initia桌面应用:Electron与Tauri桌面钱包终极指南 【免费下载链接】initia 项目地址: https://gitcode.com/GitHub_Trending/in/initia Initia是一款功能强大的开源项目,提供了基于Electron与Tauri框架的桌面钱包解决方案,帮助用户安…...

绍兴:“空中尖兵”护航平安高速路

在浙江绍兴的高速公路上,一群特殊的“交警”正全天候守护着道路安全——它们不是真人,却能在3分钟内飞抵事故现场,实现“秒级发现、分钟级干预”。这就是浙江省绍兴市公安局打造的“铁翼战队”,一支警用无人机集群。针对高速公路二…...

从电磁波反射到信号衰减:一文读懂PCB过孔stub的那些事儿

从电磁波反射到信号衰减:一文读懂PCB过孔stub的那些事儿 走在城市的高楼之间,你是否注意过声音的奇妙反射现象?一声呼喊在建筑墙面间来回反弹,形成清晰可辨的回声。这种波动反射的物理现象,与PCB设计中高频信号遇到的过…...

手机拍照为啥总翻车?一文看懂ISP芯片如何拯救你的废片

手机拍照为啥总翻车?一文看懂ISP芯片如何拯救你的废片 每次拍完照片查看相册时,是否常遇到这些崩溃瞬间?夜景模式拍出的灯光全是模糊光斑,逆光下的人脸黑得像剪影,餐厅暖光让食物颜色失真发黄…这些翻车现场背后&#…...

【软件工程】从伪码到蓝图:PDL语言如何重塑软件设计规约

1. 当伪码遇上工程:PDL语言的诞生背景 我第一次接触PDL语言是在2013年参与银行核心系统重构时。当时团队里资深架构师扔给我一份满是英文关键词夹杂中文注释的文档,看着像代码却又不能直接执行。他告诉我:"这是用PDL写的设计规约&#x…...

从零实现ResNet50:PyTorch实战与鸟类图像分类应用

1. ResNet50网络结构解析 ResNet50作为深度学习中里程碑式的网络架构,其核心创新点在于残差连接(Residual Connection)的设计。我第一次接触这个结构时,被它的简洁和高效深深震撼。想象一下,当你在搭建一个超深的神经网…...

王者荣耀图鉴国际化:wzry项目i18n集成实践

王者荣耀图鉴国际化:wzry项目i18n集成实践 【免费下载链接】wzry 🌈基于 Vue3TypescriptVite4Pinia2 的王者荣耀图鉴 🚀 项目地址: https://gitcode.com/GitHub_Trending/wz/wzry 在Vue3TypescriptVite4Pinia2技术栈构建的王者荣耀图鉴…...

视觉SLAM翻车现场自救手册:用深度强化学习解决特征点丢失的5个技巧

深度强化学习在视觉SLAM特征点稳定中的应用实践 视觉SLAM技术在实际应用中常面临特征点丢失的挑战,尤其是在低纹理或动态环境中。传统方法如DWA、TEB等局部路径规划算法虽然能解决部分避障问题,但对特征点稳定性关注不足。本文将分享如何通过深度强化学习…...

Initia GraphQL:为交织Rollup网络提供强大数据查询接口的终极指南

Initia GraphQL:为交织Rollup网络提供强大数据查询接口的终极指南 【免费下载链接】initia 项目地址: https://gitcode.com/GitHub_Trending/in/initia Initia GraphQL接口是为Initia区块链生态系统设计的强大数据查询解决方案,专门优化了交织Ro…...

选对服务器,OpenClaw快速部署不踩坑,蓝队云2H4G配置首选

OpenClaw(“龙虾”)的崛起,让更多人意识到AI智能体的强大,它无需安装额外APP,可集成在微信、飞书等常用通讯软件中,随时响应指令、自主完成任务,而要实现这一切,前提是完成OpenClaw快…...