当前位置: 首页 > article >正文

自我一致性 (Self-Consistency) + 思维树 (ToT) 详解 + 逻辑推理实战

这两个是思维链 (CoT) 的超级升级版也是现在所有高级 AI Agent比如 GPT-4o、豆包 4.0解决复杂推理问题的核心技术。它们能让大模型从 一条路走到黑 变成 会尝试不同思路、会自我纠错、会选最优解。一、自我一致性Self-Consistency1. 是什么CoT 的第一个升级版核心思想让大模型生成多个不同的推理路径然后投票选出出现次数最多的答案。就像我们做选择题不确定的时候会多算几遍选出现次数最多的那个答案正确率会大大提高。2. 为什么比普通 CoT 好普通 CoT 是 一锤子买卖生成一条推理路径如果中间某一步错了最终答案一定错。自我一致性是 三个臭皮匠顶个诸葛亮生成多条独立的推理路径少数服从多数能有效过滤掉错误的路径。3. 最简单的例子问题3 个苹果 5 块钱15 个苹果多少钱路径 13 个 5 块 → 1 个 5/3 块 → 15 个 25 块 ✅路径 215 个是 3 个的 5 倍 → 5×525 块 ✅路径 331215 → 51217 块 ❌投票结果25 块2 票→ 正确答案。4. 适用场景所有需要推理的问题数学题、逻辑题、代码调试。生成 3-5 条路径投票选多数正确率能提升 10%-20%。二、思维树Tree of Thoughts, ToT1. 是什么目前最强大的推理框架核心思想把复杂问题分解成多个步骤每个步骤生成多个可能的分支然后评估每个分支的好坏剪掉不好的分支保留好的分支继续往下走最后从所有完整的路径中选出最优解。2. 和普通 CoT 的本质区别表格方法推理方式比喻缺点普通 CoT一条直线闭着眼睛走迷宫一条路走到黑中间错一步全错自我一致性多条平行直线多个人各走一条路最后投票每条路还是一条道走到黑思维树 ToT树状分支走迷宫时每个岔路口都试试剪掉死路只走有希望的路计算量更大但正确率最高3. ToT 的 4 个核心步骤分解问题把大问题拆成 n 个小步骤生成分支每个步骤生成 k 个可能的想法评估分支给每个分支打分剪掉分数低的搜索最优解保留好的分支继续往下直到解决问题三、实战用 ToT 解决经典逻辑推理题问题描述经典帽子问题有 3 顶红帽子和 2 顶白帽子。给三个人 A、B、C 各戴一顶每个人只能看到另外两个人的帽子看不到自己的。问 A你知道自己戴的是什么颜色的帽子吗 A 说不知道。再问 B你知道自己戴的是什么颜色的帽子吗 B 也说不知道。最后问 CC 说我知道了请问 C 戴的是什么颜色的帽子第一步手动演示 ToT 解题过程步骤 1分解问题问题可以拆成 3 个连续的推理步骤A 不知道自己的帽子颜色 → 能推出什么B 也不知道自己的帽子颜色 → 又能推出什么C 根据上面两个信息能推出自己的帽子颜色 → 结论是什么步骤 2生成分支并评估分支 1A 不知道自己的帽子颜色所有可能的帽子组合红 R白 W可能 1BWCW → A 看到两个白那自己一定是红 → A 会知道 → 矛盾剪掉这个分支可能 2BWCR → A 看到一白一红自己可能是红或白 → A 不知道 ✅ 保留可能 3BRCW → A 看到一白一红自己可能是红或白 → A 不知道 ✅ 保留可能 4BRCR → A 看到两个红自己可能是红或白 → A 不知道 ✅ 保留结论 1B 和 C 不可能同时是白帽子分支 2B 也不知道自己的帽子颜色B 听到了 A 的回答所以 B 也知道 自己和 C 不可能同时是白。现在看剩下的 3 个可能可能 2BWCR → B 看到 C 是红自己可能是红或白 → B 不知道 ✅ 保留可能 3BRCW → B 看到 C 是白根据结论 1自己不可能是白 → 自己一定是红 → B 会知道 → 矛盾剪掉这个分支可能 4BRCR → B 看到 C 是红自己可能是红或白 → B 不知道 ✅ 保留结论 2C 不可能是白帽子分支 3C 知道自己的帽子颜色C 听到了 A 和 B 的回答所以 C 也知道结论 1 和结论 2。结论 2 说 C 不可能是白帽子所以 C 只能是红帽子。最终答案C 戴的是红帽子第二步写一个 ToT Prompt让大模型自动用这个方法解题plaintext你是一位顶级逻辑推理专家擅长用思维树(ToT)方法解决复杂问题。 请严格按照以下步骤解决问题 1. 先把问题分解成3-5个连续的推理步骤 2. 对每个步骤列出所有可能的情况 3. 逐一评估每个情况是否合理剪掉矛盾的情况 4. 保留合理的情况继续下一步推理 5. 最后得出唯一正确的结论 请清晰地展示每一步的推理过程包括哪些分支被剪掉了为什么被剪掉。 问题 有3顶红帽子和2顶白帽子。给三个人A、B、C各戴一顶每个人只能看到另外两个人的帽子看不到自己的。 问A你知道自己戴的是什么颜色的帽子吗 A说不知道。 再问B你知道自己戴的是什么颜色的帽子吗 B也说不知道。 最后问CC说我知道了 请问C戴的是什么颜色的帽子第三步运行结果豆包 4.0 输出plaintext### 思维树推理过程 #### 步骤1分析A不知道的情况 所有可能的帽子组合 - 情况1B白C白 → A看到两个白自己一定是红 → A会知道 → 矛盾剪掉 - 情况2B白C红 → A看到一白一红自己可能红或白 → A不知道 ✅ 保留 - 情况3B红C白 → A看到一白一红自己可能红或白 → A不知道 ✅ 保留 - 情况4B红C红 → A看到两个红自己可能红或白 → A不知道 ✅ 保留 结论B和C不能同时是白帽子。 #### 步骤2分析B不知道的情况 B听到了A的回答所以B也知道上面的结论。 - 情况2B白C红 → B看到C红自己可能红或白 → B不知道 ✅ 保留 - 情况3B红C白 → B看到C白根据结论1自己不能是白 → 自己一定是红 → B会知道 → 矛盾剪掉 - 情况4B红C红 → B看到C红自己可能红或白 → B不知道 ✅ 保留 结论C不能是白帽子。 #### 步骤3得出最终结论 C听到了A和B的回答所以C也知道上面两个结论。 既然C不能是白帽子那么C只能是红帽子。 ✅ 最终答案C戴的是红帽子。四、总结自我一致性多条平行推理路径投票选多数简单有效思维树 ToT树状分支推理边生成边评估边剪枝解决最复杂的问题适用场景简单题普通 CoT中等题自我一致性3-5 条路径复杂题思维树 ToT

相关文章:

自我一致性 (Self-Consistency) + 思维树 (ToT) 详解 + 逻辑推理实战

这两个是 思维链 (CoT) 的超级升级版,也是现在所有高级 AI Agent(比如 GPT-4o、豆包 4.0)解决复杂推理问题的核心技术。它们能让大模型从 "一条路走到黑" 变成 "会尝试不同思路、会自我纠错、会选最优解"。一、自我一致性…...

告别网络冲突!VMware Workstation Pro下Ubuntu双网卡(NAT+桥接)保姆级配置指南

VMware Workstation Pro下Ubuntu双网卡配置实战:NAT与桥接的完美共存 在嵌入式开发和网络安全研究领域,虚拟机网络配置一直是开发者面临的常见挑战。想象这样一个场景:你正在调试一块没有显示输出的开发板,需要通过网线直连笔记本…...

Java面试线程与锁,尸横遍野!

再谈多线程在我们的操作系统之上,可以同时运行很多个进程,并且每个进程之间相互隔离互不干扰。我们的CPU会通过时间片轮转算法,为每一个进程分配时间片,并在时间片使用结束后切换下一个进程继续执行,通过这种方式来实现…...

AS5600 OUT引脚功能详解

该提问与当前博客内容无直接关联。 AS5600是一款高精度、非接触式磁旋转位置传感器,其OUT引脚的功能与PWM输出模式是该芯片核心特性的具体体现,与其他传感器(如电位计、光编码器或模拟输出传感器)中的PWM信号在设计目的、信号特性…...

LeetCode 2602. 使数组元素全部相等的最少操作次数【排序,前缀和,二分】中等

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…...

C++26反射在高频交易系统中的灰度实践(零停机元数据热重载技术首曝)

第一章:C26反射在高频交易系统中的灰度实践(零停机元数据热重载技术首曝) C26 标准草案中引入的 std::reflect 机制,首次为 C 带来编译期可查询、运行期可遍历的结构化类型元数据能力。在毫秒级延迟敏感的高频交易系统中&#xff…...

假冒视频会议软件“Meeten“正大规模窃取Web3从业者加密货币

攻击概述 网络犯罪分子正利用欺诈性视频会议平台感染Windows和Mac电脑,通过虚假的商务会议专门针对Web3行业从业者,以窃取加密货币资产。 这一恶意活动根据假冒会议软件的常用名称被称为 "Meeten",自2024年9月以来持续活跃。该恶…...

15门免费深度学习课程全解析:从入门到实战

1. 深度学习入门指南:15门免费在线课程全解析深度学习作为人工智能的核心技术,正在重塑各行各业的智能化进程。但很多初学者常常陷入"从何学起"的困境——市面上的付费课程动辄上千元,而免费资源又鱼龙混杂。我花了三个月时间系统测…...

基础算法——区间合并

题目给定n个区间[li,ri],要求合并所有有交集的区间。注意如果在端点处相交,也算有交集。输出合并完成后的区间个数。例如:[1,3]和[2,6]可以合并为一个区间[1,6]。输入格式第一行包含整数n。接下来n行,每行包含两个整数l和r。输出格…...

编码器-解码器模型中的注意力机制原理与应用

1. 编码器-解码器模型中的注意力机制解析在自然语言处理领域,编码器-解码器(Encoder-Decoder)架构是处理序列到序列(seq2seq)任务的经典框架。这个架构最初由两篇开创性论文提出:Ilya Sutskever等人的《Seq…...

WinUtil架构解析:模块化Windows系统管理框架的技术实现

WinUtil架构解析:模块化Windows系统管理框架的技术实现 【免费下载链接】winutil Chris Titus Techs Windows Utility - Install Programs, Tweaks, Fixes, and Updates 项目地址: https://gitcode.com/GitHub_Trending/wi/winutil 项目定位与技术背景 在Wi…...

ContextMenuManager:轻松掌控Windows右键菜单,打造个性化操作体验

ContextMenuManager:轻松掌控Windows右键菜单,打造个性化操作体验 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾经因为Windows…...

一招教你免费将DeepSeek、Qwen、Kimi、GLM、mimo等主流ai大模型网页转换成本地api任意调用 彻底实现token自由!

一招教你免费将DeepSeek、Qwen、Kimi、GLM、mimo等主流ai大模型网页转换成本地api任意调用 彻底实现token自由! 关键词:Chat2API教程、DeepSeek本地调用、Qwen本地API、OpenAI兼容接口、本地AI代理、多模型统一管理 名称链接Chat2API客户端 下载https://dooo.fun/a…...

2026获取微信小程序和小游戏AppID和Path教程(寻道大千刷邀请必备) 快速拿到用户id

2026获取微信小程序和小游戏AppID和Path教程(寻道大千刷邀请必备) 快速拿到用户id 关键词: 微信小程序AppID获取、微信小程序Path路径获取、小程序跳转参数、小程序自动化、小程序页面路径查询 标签: 微信小程序、AppID、Path路径、获取方法前言前段时间…...

Sunshine游戏串流终极指南:如何5分钟搭建跨设备游戏共享平台

Sunshine游戏串流终极指南:如何5分钟搭建跨设备游戏共享平台 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一款开源的自托管游戏串流服务器,专…...

大语言模型输出优化与参数调优实战指南

1. 大语言模型输出优化指南 作为一名长期从事自然语言处理的技术从业者,我见证了大型语言模型(LLMs)从实验室走向产业应用的完整历程。这些模型确实改变了我们与技术交互的方式,但要让它们发挥最佳性能,需要掌握一些关键技巧。 LLMs本质上是…...

从AUTOSAR工程师视角看TDA4:那些官方SDK没告诉你的多核软件架构“坑”与实战调优

从AUTOSAR工程师视角看TDA4:多核软件架构的实战调优与避坑指南 当第一次拿到TDA4开发板时,我和团队都对这个号称"L2自动驾驶神器"的多核异构芯片充满期待。TI官方文档里那些华丽的性能参数——8TOPS算力、Cortex-A72R5FDSP的异构组合、高度集…...

知识点原子化拆解与专业讲解技能knowledge-explainer

Knowledge Explainer(SkillHub) Knowledge Explainer(ClawHub) name: knowledge-explainer author: 王教成 Wang Jiaocheng (波动几何) description: >- 知识点原子化拆解与专业讲解技能。将任意知识点拆解为不可再分的原子概念…...

【黑马点评日记】高并发秒杀:库存超卖与锁机制解析

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或…...

永远不要让 Web 服务器以 root 运行。使用专用目录并限制权限。

它的本质是:通过身份隔离和文件系统沙箱,将 Web 应用可能遭受的攻击后果限制在“局部受损”,而非“系统崩溃”。如果 Web 服务器以 root 运行,任何代码漏洞(如文件上传、命令注入、反序列化)都将直接转化为…...

还在手写valgrind脚本?2026智能插件自动注入ASan/CFI/UBSan——3分钟完成企业级部署!

https://intelliparadigm.com 第一章:现代 C 语言内存安全编码规范 2026 插件下载与安装 插件获取渠道 现代 C 语言内存安全编码规范 2026(简称 MSC-2026)是一套面向 Clang/LLVM 生态的静态分析增强插件,集成 ASAN、CFI、SafeSt…...

UE5新手避坑:解决‘hostfxr.dll找不到’和.NET Core版本冲突的完整指南

UE5开发环境配置:彻底解决.NET Core依赖问题的实战手册 刚接触虚幻引擎5的开发者们,往往会在配置开发环境时遇到各种"拦路虎"。其中,.NET Core运行时问题堪称最典型的"新手杀手"——当你满怀期待地从版本控制系统拉取项…...

php.ini 中 session.save_path 指向的目录必须对 Web 用户可写,但其他用户不可读。

它的本质是:利用 Linux 的“粘滞位 (Sticky Bit)”和“目录执行权限”特性,构建一个 “公共投递箱” 模型。Web 服务器进程(如 www-data)可以往箱子里扔信件(创建 Session 文件),也可以取走自己…...

Vue项目里用vxe-grid做后台管理表格,我踩过的这些坑你千万别再踩了

Vue项目中vxe-grid实战避坑指南:工单管理模块深度解析 第一次在工单管理模块用vxe-grid实现动态可编辑表格时,我对着文档里那句"支持动态下拉选项"研究了整整三天。直到在Chrome调试器里看到column.editRender.props.options这个关键属性时&am…...

【毕设】厨艺交流平台设计与实现

💟博主:程序员俊星:CSDN作者、博客专家、全栈领域优质创作者 💟专注于计算机毕业设计,大数据、深度学习、Java、小程序、python、安卓等技术领域 📲文章末尾获取源码数据库 🌈还有大家在毕设选题…...

Oumuamua-7b-RP应用场景:日语JLPT N2备考者进行情景会话模拟训练

Oumuamua-7b-RP应用场景:日语JLPT N2备考者进行情景会话模拟训练 1. 项目概述 Oumuamua-7b-RP 是一款专为日语学习者设计的角色扮演对话工具,基于先进的Mistral-7B大语言模型架构开发。这个Web界面特别适合准备JLPT N2考试的学习者,通过模拟…...

Phi-3-mini-4k-instruct-gguf惊艳效果:生成符合PEP8规范的Python代码+单元测试

Phi-3-mini-4k-instruct-gguf惊艳效果:生成符合PEP8规范的Python代码单元测试 1. 模型简介与部署 Phi-3-Mini-4K-Instruct是一个38亿参数的轻量级开源模型,属于Phi-3系列中的Mini版本。该模型经过专门训练,能够生成高质量的代码内容&#x…...

**基于Geolocation API的精准位置服务开发实战:从原理到Vue3+JavaScript

基于Geolocation API的精准位置服务开发实战:从原理到Vue3JavaScript落地应用 在现代Web应用中,用户地理位置信息已成为提升体验的核心要素之一。无论是地图导航、本地化推荐,还是安全验证机制,Geolocation API 都是前端获取用户实…...

BOSS直接自动点击未读消息并发送求简历请求

最新版本代码 26-04-23 修复没有对话无法发送求简历按钮(() > {/******************************************************************* 可配置参数******************************************************************/const CONFIG {countdownSeconds: 3,openConfirmDe…...

13款降AI率工具实测:论文查重高怎么改,降重鸟稳居榜首

上周,我室友三天三夜敲完综述,维普AI率飙到46%,他抱头大喊“我又没抄”,我替他摸索工具,顺便吐槽:写得像人还被说像机器。 定向适配各大检测:平台选得对,降幅更稳 降重鸟地址&…...