当前位置: 首页 > article >正文

SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!

摘要:人类的认知通常涉及通过抽象、灵活的概念进行思考,而不是严格依赖离散的语言符号。然而,当前的推理模型受到人类语言边界的限制,只能处理代表语义空间中固定点的离散符号嵌入。这种离散性限制了推理模型的表达能力和上限潜力,常常导致推理路径的探索不完整,因为标准的思维链(Chain-of-Thought,CoT)方法依赖于每一步采样一个符号。在本研究中,我们提出了“软思考”(Soft Thinking)方法,这是一种无需训练的方法,通过在连续的概念空间中生成软的、抽象的概念符号来模拟类似人类的“软”推理。这些概念符号是通过符号嵌入的概率加权混合创建的,形成了一个连续的概念空间,从而实现平滑的过渡和超越传统离散边界的更丰富表示。本质上,每个生成的概念符号都封装了相关离散符号的多种含义,隐式地探索了各种推理路径,从而有效地汇聚到正确答案。在多样化的数学和编程基准测试中的实证评估一致证明了“软思考”的有效性和效率,与标准的思维链方法相比,其通过率(pass@1)准确率最高提高了2.48个百分点,同时符号使用量减少了高达22.4%。定性分析进一步揭示,“软思考”的输出仍然具有高度的可解释性和可读性,突显了“软思考”打破基于离散语言推理固有瓶颈的潜力。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 概念标记与连续概念空间

3.2 推理过程

3.3 Cold Stop机制

四、实验结论

4.1 实验设置

4.2 性能提升

4.3 解释性分析

五、总结


一、背景动机

论文题目:Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

论文地址:https://arxiv.org/pdf/2505.15778

人类的认知过程通常涉及通过抽象、流动的概念进行思考,而非仅仅依赖离散的语言符号。然而,现有的推理模型受限于人类语言的边界,只能处理离散的词嵌入,这限制了模型的表达能力和推理潜力。

链式思考(CoT)是目前一种有效的多步推理技术,通过生成中间推理步骤来逐步解决问题。但其存在两大局限性:一是受限于离散的自然语言符号,无法有效表示和操作抽象概念;二是其单向、序列化的推理方式容易导致模型在高不确定性的任务中走向错误路径,降低性能和效率。

基于人类的思维的灵活性,如我们会在脑中模糊地考虑多种可能性(比如同时想到“苹果、水果、红色”),最后再整理成语言。该论文指出,学会这种“模糊思考”才是突破的关键。

二、核心贡献

1、提出了无需训练的Soft Thinking方法,通过在连续概念空间中生成软的、抽象的概念标记(concept tokens)来模拟人类的“软”推理过程。这些概念标记通过词嵌入的概率加权混合形成,能够跨越传统的离散边界,实现更丰富的语义表示和更有效的推理路径探索。

2、尽管Soft Thinking在推理过程中使用了连续的概念空间,但其输出结果仍然具有高度的可解释性和可读性,体现了该方法能够在不牺牲可解释性的情况下突破离散语言推理的瓶颈。

三、实现方法

3.1 概念标记与连续概念空间

概念标记的定义:在Soft Thinking中,每个中间推理步骤生成的不是一个离散的单词标记(token),而是一个概率分布向量,称为概念标记(concept token)。这个概率分布向量表示模型对下一步所有可能标记的预测概率。

连续概念空间的定义:连续概念空间是由所有词嵌入的凸组合形成的。具体来说,假设 E 是词嵌入矩阵,e(k) 是词汇表中第 k 个词的嵌入向量,那么连续概念空间 C 是所有概率加权的词嵌入混合的集合

3.2 推理过程

1、中间推理步骤:在Soft Thinking中,模型的中间推理步骤不再是离散的标记选择,而是生成一个概念标记 ct。在下一步中,模型将这个概念标记注入到LLM中,通过概率加权的方式计算下一个概念标记的嵌入向量,该方法允许模型在推理过程中保留对多个可能路径的探索。

2、推理结束条件:当某个概念标记的最可能标记是推理结束标记(如 <\think>)时,中间推理过程停止,模型切换到生成最终答案的阶段。最终答案的生成仍然使用标准的离散标记采样。

3.3 Cold Stop机制

  • 动机:由于Soft Thinking在推理过程中使用了模型训练中未见过的概念标记,这使得模型处于分布外(Out-of-Distribution, OOD)状态。这可能导致模型在长推理链或输入分布与训练数据差异较大时出现不稳定或生成崩溃的情况。

  • 实现方式:Cold Stop机制通过监测模型输出分布的熵来动态停止中间推理。具体步骤如下

    • 在每个推理步骤中,计算当前概念标记的熵:

    • 如果熵小于某个阈值 τ,则增加低熵步数计数器;否则重置计数器。

    • 如果低熵步数计数器达到某个阈值 k,则插入推理结束标记 <\think>,终止推理过程。

  • 作用:Cold Stop机制可以避免模型在OOD情况下进行不必要的计算,从而提高推理效率并防止模型崩溃。

四、实验结论

4.1 实验设置

在八个数学和编程基准测试任务上对Soft Thinking进行了评估,涵盖了数学500、AIME 2024、GSM8K、GPQA-Diamond等数学任务,以及HumanEval、MBPP、LiveCodeBench等编程任务。实验使用了QwQ-32B、DeepSeek-R1-DistillQwen-32B和DeepSeek-R1-Distill-Llama-70B等不同架构和规模的LLMs。

4.2 性能提升

  • Soft Thinking在所有评估的数学和编程基准测试中均显著提高了pass@1准确率,同时减少了生成长度
  • 在数学推理任务中,QwQ-32B模型的平均pass@1准确率从83.84%(CoT Thinking)提高到86.32%(Soft Thinking),而生成长度减少了11.6%。

  • 在编程任务中,QwQ-32B的平均Pass@1准确率提升了0.48个百分点,QwQ-32B的生成长度减少了16.1%。

4.3 解释性分析

通过比较标准CoT和Soft Thinking在解决乘法问题时的输出,发现Soft Thinking生成的解释更简洁(96个标记对比157个标记),且具有高可读性和可解释性。

此外,通过可视化Soft Thinking的概率分布,展示了模型在推理过程中如何整合路径探索,从而增强推理的灵活性和深度。

五、总结

文章提出了Soft Thinking方法,通过在连续概念空间中进行推理,显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练,能够保持输出的可解释性,并通过实验验证了其在多种基准测试中的有效性。

由于引入了概念标记,使模型具有分布外的特性,故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记,从而提高其在软思考范式下的鲁棒性和泛化能力。

相关文章:

SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!

摘要&#xff1a;人类的认知通常涉及通过抽象、灵活的概念进行思考&#xff0c;而不是严格依赖离散的语言符号。然而&#xff0c;当前的推理模型受到人类语言边界的限制&#xff0c;只能处理代表语义空间中固定点的离散符号嵌入。这种离散性限制了推理模型的表达能力和上限潜力…...

C++中 newdelete 与 mallocfree 的异同详解

C中 new/delete 与 malloc/free 的异同详解 在 C 开发中&#xff0c;动态内存管理是重中之重&#xff01;new/delete 和 malloc/free 都是用来动态申请和释放内存的&#xff0c;但它们有本质的区别。今天我们就来彻底搞懂它们的区别&#xff0c;避免内存泄漏和 undefined beha…...

晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册

晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册 晨控CK-UR08系列作为晨控智能工业级别RFID读写器,支持大部分工业协议如RS232、RS485、以太网。支持工业协议Modbus RTU、Modbus TCP、Profinet、EtherNet/lP、EtherCat以及自由协议TCP/IP等。 本期主题&#xff1a;围绕…...

STM32入门教程——LED闪烁LED流水灯蜂鸣器

前言 本教材基于B站江协科技课程整理&#xff0c;适合有C语言基础、刚接触STM32的新手。它梳理了STM32核心知识点&#xff0c;帮助大家把C语言知识应用到STM32开发中&#xff0c;更高效地开启STM32学习之旅。 一、硬件电路搭建与工程配置 电路连接要点 LED 闪烁 / 流水灯&…...

鸿蒙OSUniApp 实现的数据可视化图表组件#三方框架 #Uniapp

UniApp 实现的数据可视化图表组件 前言 在移动互联网时代&#xff0c;数据可视化已成为产品展示和决策分析的重要手段。无论是运营后台、健康监测、还是电商分析&#xff0c;图表组件都能让数据一目了然。UniApp 作为一款优秀的跨平台开发框架&#xff0c;支持在鸿蒙&#xf…...

Tornado WebSocket实时聊天实例

在 Python 3 Tornado 中使用 WebSocket 非常直接。你需要创建一个继承自 tornado.websocket.WebSocketHandler 的类&#xff0c;并实现它的几个关键方法。 下面是一个简单的示例&#xff0c;演示了如何创建一个 WebSocket 服务器&#xff0c;该服务器会接收客户端发送的消息&a…...

HarmonyOS鸿蒙与React Native的融合开发模式以及能否增加对性能优化的具体案例

鸿蒙与React Native的融合开发模式 一、技术架构设计 底层适配层 通过HarmonyOS的NDK封装原生能力&#xff08;如分布式软总线、AI引擎&#xff09; 使用React Native的Native Modules桥接鸿蒙API&#xff08;需重写Java/Objective-C部分为ArkTS&#xff09; 组件映射机制 …...

化学分析原理。

化学分析关心的要素&#xff1a;a.空间结构&#xff08;晶格结构、胶体结构、玻璃体结构、膜结构&#xff0c;宏观与微观两个层面&#xff0c;化学键与键角以及结构强度&#xff0c;结合能以及物质内聚力研究&#xff0c;主要目的是化学建模&#xff09;&#xff0c;b.成分与组…...

开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案

科研领域对机器人技术的需求日益增长&#xff0c;Hello Robot的移动操作机器人Stretch 3凭借其灵活性和性能满足了这一需求。其模块化设计、开源架构和高精度传感控制能力&#xff0c;使科研人员能够顺利开展实验。Stretch 3以其独特的移动操作能力&#xff0c;为科研探索提供了…...

元胞自动机(Cellular Automata, CA)

一、什么是元胞自动机&#xff08;Cellular Automata, CA&#xff09; 元胞自动机&#xff08;CA&#xff09; 是一种基于离散时间、离散空间与规则驱动演化的动力系统&#xff0c;由 冯诺依曼&#xff08;John von Neumann&#xff09; 于1940年代首次提出&#xff0c;用于模…...

智能手表单元测试报告(Unit Test Report)

📄 智能手表单元测试报告(Unit Test Report) 项目名称:Aurora Watch S1 模块版本:Firmware v1.0.4 测试阶段:模块开发完成后的单元测试 报告编号:AW-S1-UTR-2025-001 测试负责人:赵磊(软件架构师) 报告日期:2025-xx-xx 一、测试目的 通过对智能手表关键功能模块进…...

微深节能 码头装卸船机定位与控制系统 格雷母线

微深节能码头装卸船机定位与控制系统&#xff1a;格雷母线技术赋能港口作业智能化升级 在现代化港口散货装卸作业中&#xff0c;装卸船机是连接船舶与陆域运输的核心枢纽设备。传统装卸船机依赖人工操作&#xff0c;存在定位偏差大、动态协同难、安全风险高等痛点。微深节能基于…...

基于matlab遗传算法和模拟退火算法求解三维装箱优化问题

一、遗传算法和模拟退火算法求解三维装箱优化问题 遗传算法&#xff08;Genetic Algorithm&#xff09;和模拟退火算法&#xff08;Simulated Annealing Algorithm&#xff09;都是优化算法&#xff0c;可以用来求解三维装箱优化问题。 遗传算法原理和流程&#xff1a; 1 原理…...

在Spring Boot中集成Redis进行缓存

在Spring Boot中集成Redis进行缓存&#xff0c;主要分为以下步骤&#xff1a; 1. 添加依赖 在pom.xml中添加Redis和缓存相关的依赖&#xff1a; <!-- Spring Boot Redis Starter --> <dependency><groupId>org.springframework.boot</groupId><ar…...

Python实现P-PSO优化算法优化循环神经网络LSTM分类模型项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档&#xff09;&#xff0c;如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 随着深度学习技术的迅猛发展&#xff0c;循环神经网络&#xff08;RNN&#xff09;及其变体LSTM&#xff08;Long S…...

OSG编译wasm尝试

最近遇到一个情况&#xff0c;需要尝试一下OSG到webassembly 发现官网有教程 于是顺着看了看&#xff0c;默认教程是xubuntu的一个系统跑的&#xff0c;但是我本着试一试的想法&#xff0c;拉下来直接在windows上跑&#xff0c;奇奇怪怪的报错简直头皮发麻 然后怎么办呢&#x…...

Scratch节日 | 龙舟比赛 | 端午节

端午节快乐&#xff01; 这款专为孩子们打造的Scratch游戏——《龙舟比赛》&#xff0c;让你在掌控龙舟的竞速中&#xff0c;沉浸式体验中华传统节日的魅力&#xff01; &#x1f3ae; 游戏亮点 节日氛围浓厚&#xff1a;化身龙舟选手&#xff0c;在波涛汹涌的河流中展开刺激竞…...

Ubuntu搭建DNS服务器

1.安装 BIND 软件包 sudo apt update sudo apt install bind9 bind9utils bind9-doc -y 2.配置主配置文件 编辑/etc/bind/named.conf.options&#xff0c;添加上游 DNS 服务器 options {directory "/var/cache/bind";// 添加Google DNS作为上游服务器forwarders {…...

electron开发百度桌面应用demo及如何打包应用

1.开发入口文件main.js 1-1 加载百度URL const { app, BrowserWindow, nativeImage } require(electron) const path require(node:path)const createWindow () > {const win new BrowserWindow({width: 800,height: 600,})//加载百度URLwin.loadURL(https://www.baid…...

关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明

cloudflare 是一个可免费的CDN&#xff0c;CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;加速国内网站&#xff0c;通常是已备案的。Zero Trust类似FRP&#xff0c;可以将请求转发到目标服务器。在使用Zero Trust绕过备案访问国内网站需要&…...

2025年DDoS混合CC攻击防御全攻略:构建智能弹性防护体系

2025年&#xff0c;DDoS与CC混合攻击已成为企业安全的“头号威胁”。攻击者利用AI伪造用户行为、劫持物联网设备发起T级流量冲击&#xff0c;同时通过高频请求精准消耗应用层资源&#xff0c;传统单点防御几近失效。如何应对这场“流量洪水资源枯竭”的双重打击&#xff1f;本文…...

方正字库助力华为,赋能鸿蒙电脑打造全场景字体解决方案

2025年5月19日&#xff0c;搭载华为鸿蒙操作系统的鸿蒙电脑&#xff0c;面向用户推出集AI智能、互联流畅、安全保障和精致体验于一体的全新办公系统。作为鸿蒙生态核心字体服务商&#xff0c;方正字库为此次提供了全面的系统字体支持&#xff0c;涵盖中文、西文及符号三大类字库…...

STM32 串口通信①:USART 全面理解 + 代码详解

一 前言 本篇文章并不会系统的从零开始讲起&#xff0c;适合大家对USART有一定的学习&#xff0c;再看本篇文章会有一定的收获&#xff0c;祝大家在本文中&#xff0c;吸收到新的知识。 二 通信方式 1&#xff09;按数据传输的方式分&#xff08;这就是“串行 vs 并行”&…...

【Java Web】速通CSS

参考笔记:JavaWeb 速通CSS_java css-CSDN博客 目录 一、CSS入门 1. 基本介绍 2. 作用 二、CSS的3种引入方式 1. 行内式 1.1 示例代码 1.2 存在问题 2. 写在head标签的style子标签中 2.1 示例代码 2.2 存在问题 3.以外部文件的形式引入(开发中推荐使用)⭐⭐⭐ 3.1 说明 3…...

List 源码翻译

List 源码翻译-jdk1.8 翻译来自 AI 大模型。 全部源码翻译下载 /** 版权所有 (c) 1997, 2014, Oracle 和/或其附属公司。保留所有权利。* ORACLE 专有/机密。使用受许可条款约束。*********************/package java.util;import java.util.function.UnaryOperator;/*** 有序…...

NHANES指标推荐:ALI

文章题目&#xff1a;A cross-sectional study examining the relationship between the advanced lung cancer inflammation index and prostate cancer 中文标题&#xff1a;一项检查晚期肺癌炎症指数与前列腺癌之间关系的横断面研究 发表杂志&#xff1a;Journal of Health…...

ChatGPT与认知科学:人机协同的未来图景

目录 导论&#xff1a;当机器开始“思考”&#xff0c;我们如何理解智能的未来&#xff1f; 第一部分&#xff1a;ChatGPT的技术解密与认知科学基础 第一章&#xff1a;ChatGPT的“芯”事&#xff1a;深入浅出聊技术&#xff0c;洞察认知新启示 1.1 开篇聊两句&#xff1a;…...

数智管理学(十二)

第四节 人工智能参与管理决策的角色 在当今数智化时代&#xff0c;人工智能&#xff08;AI&#xff09;作为一项颠覆性技术&#xff0c;正以前所未有的深度和广度融入企业管理领域&#xff0c;尤其是在决策环节发挥着日益关键的作用。随着大数据的爆炸式增长、算法的不断优化以…...

UE5 Mat HLSL - Load

特性Load()Sample()输入类型整数索引&#xff08;int2/int3&#xff09;浮点 UV 采样器状态&#xff08;SamplerState&#xff09;数据获取精确读取指定位置的原始数据基于 UV 插值和过滤后的数据典型用途精确计算、非过滤访问&#xff08;如物理模拟&#xff09;纹理贴图渲染…...

【Unity笔记】Unity WASD+QE 控制角色移动与转向(含 Shift 加速)实现教程

摘要&#xff1a; 在 Unity 游戏开发中&#xff0c;键盘控制角色的移动与转向是基础功能之一。本文详细讲解如何使用 C# 实现基于 WASD 移动、QE 转向 与 Shift 加速奔跑 的角色控制器&#xff0c;适用于第一人称、第三人称、自由漫游等场景。通过直观的 Transform 控制方法与可…...