当前位置：首页 > article >正文

SoftThinking：让模型学会模糊思考，同时提升准确性和推理速度！！

article 2026/2/8 0:23:18

摘要：人类的认知通常涉及通过抽象、灵活的概念进行思考，而不是严格依赖离散的语言符号。然而，当前的推理模型受到人类语言边界的限制，只能处理代表语义空间中固定点的离散符号嵌入。这种离散性限制了推理模型的表达能力和上限潜力，常常导致推理路径的探索不完整，因为标准的思维链（Chain-of-Thought，CoT）方法依赖于每一步采样一个符号。在本研究中，我们提出了“软思考”（Soft Thinking）方法，这是一种无需训练的方法，通过在连续的概念空间中生成软的、抽象的概念符号来模拟类似人类的“软”推理。这些概念符号是通过符号嵌入的概率加权混合创建的，形成了一个连续的概念空间，从而实现平滑的过渡和超越传统离散边界的更丰富表示。本质上，每个生成的概念符号都封装了相关离散符号的多种含义，隐式地探索了各种推理路径，从而有效地汇聚到正确答案。在多样化的数学和编程基准测试中的实证评估一致证明了“软思考”的有效性和效率，与标准的思维链方法相比，其通过率（pass@1）准确率最高提高了2.48个百分点，同时符号使用量减少了高达22.4%。定性分析进一步揭示，“软思考”的输出仍然具有高度的可解释性和可读性，突显了“软思考”打破基于离散语言推理固有瓶颈的潜力。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 概念标记与连续概念空间

3.2 推理过程

3.3 Cold Stop机制

四、实验结论

4.1 实验设置

4.2 性能提升

4.3 解释性分析

五、总结

一、背景动机

论文题目：Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

论文地址：https://arxiv.org/pdf/2505.15778

人类的认知过程通常涉及通过抽象、流动的概念进行思考，而非仅仅依赖离散的语言符号。然而，现有的推理模型受限于人类语言的边界，只能处理离散的词嵌入，这限制了模型的表达能力和推理潜力。

链式思考（CoT）是目前一种有效的多步推理技术，通过生成中间推理步骤来逐步解决问题。但其存在两大局限性：一是受限于离散的自然语言符号，无法有效表示和操作抽象概念；二是其单向、序列化的推理方式容易导致模型在高不确定性的任务中走向错误路径，降低性能和效率。

基于人类的思维的灵活性，如我们会在脑中模糊地考虑多种可能性（比如同时想到“苹果、水果、红色”），最后再整理成语言。该论文指出，学会这种“模糊思考”才是突破的关键。

二、核心贡献

1、提出了无需训练的Soft Thinking方法，通过在连续概念空间中生成软的、抽象的概念标记（concept tokens）来模拟人类的“软”推理过程。这些概念标记通过词嵌入的概率加权混合形成，能够跨越传统的离散边界，实现更丰富的语义表示和更有效的推理路径探索。

2、尽管Soft Thinking在推理过程中使用了连续的概念空间，但其输出结果仍然具有高度的可解释性和可读性，体现了该方法能够在不牺牲可解释性的情况下突破离散语言推理的瓶颈。

三、实现方法

3.1 概念标记与连续概念空间

概念标记的定义：在Soft Thinking中，每个中间推理步骤生成的不是一个离散的单词标记（token），而是一个概率分布向量，称为概念标记（concept token）。这个概率分布向量表示模型对下一步所有可能标记的预测概率。

连续概念空间的定义：连续概念空间是由所有词嵌入的凸组合形成的。具体来说，假设 E 是词嵌入矩阵，e(k) 是词汇表中第 k 个词的嵌入向量，那么连续概念空间 C 是所有概率加权的词嵌入混合的集合

3.2 推理过程

1、中间推理步骤：在Soft Thinking中，模型的中间推理步骤不再是离散的标记选择，而是生成一个概念标记 ct。在下一步中，模型将这个概念标记注入到LLM中，通过概率加权的方式计算下一个概念标记的嵌入向量，该方法允许模型在推理过程中保留对多个可能路径的探索。

2、推理结束条件：当某个概念标记的最可能标记是推理结束标记（如 <\think>）时，中间推理过程停止，模型切换到生成最终答案的阶段。最终答案的生成仍然使用标准的离散标记采样。

3.3 Cold Stop机制

动机：由于Soft Thinking在推理过程中使用了模型训练中未见过的概念标记，这使得模型处于分布外（Out-of-Distribution, OOD）状态。这可能导致模型在长推理链或输入分布与训练数据差异较大时出现不稳定或生成崩溃的情况。
实现方式：Cold Stop机制通过监测模型输出分布的熵来动态停止中间推理。具体步骤如下
- 在每个推理步骤中，计算当前概念标记的熵：
- 如果熵小于某个阈值 τ，则增加低熵步数计数器；否则重置计数器。
- 如果低熵步数计数器达到某个阈值 k，则插入推理结束标记 <\think>，终止推理过程。

作用：Cold Stop机制可以避免模型在OOD情况下进行不必要的计算，从而提高推理效率并防止模型崩溃。

四、实验结论

4.1 实验设置

在八个数学和编程基准测试任务上对Soft Thinking进行了评估，涵盖了数学500、AIME 2024、GSM8K、GPQA-Diamond等数学任务，以及HumanEval、MBPP、LiveCodeBench等编程任务。实验使用了QwQ-32B、DeepSeek-R1-DistillQwen-32B和DeepSeek-R1-Distill-Llama-70B等不同架构和规模的LLMs。

4.2 性能提升

Soft Thinking在所有评估的数学和编程基准测试中均显著提高了pass@1准确率，同时减少了生成长度
在数学推理任务中，QwQ-32B模型的平均pass@1准确率从83.84%（CoT Thinking）提高到86.32%（Soft Thinking），而生成长度减少了11.6%。

在编程任务中，QwQ-32B的平均Pass@1准确率提升了0.48个百分点，QwQ-32B的生成长度减少了16.1%。

4.3 解释性分析

通过比较标准CoT和Soft Thinking在解决乘法问题时的输出，发现Soft Thinking生成的解释更简洁（96个标记对比157个标记），且具有高可读性和可解释性。

此外，通过可视化Soft Thinking的概率分布，展示了模型在推理过程中如何整合路径探索，从而增强推理的灵活性和深度。

五、总结

文章提出了Soft Thinking方法，通过在连续概念空间中进行推理，显著提升了大模型在数学和编程任务中的推理性能和效率。该方法无需额外训练，能够保持输出的可解释性，并通过实验验证了其在多种基准测试中的有效性。

由于引入了概念标记，使模型具有分布外的特性，故Soft Thinking在面对长推理链或输入分布变化时可能会遇到稳定性问题。未来的研究可以探索通过训练策略使模型适应概念标记，从而提高其在软思考范式下的鲁棒性和泛化能力。

一、背景动机

二、核心贡献

三、实现方法

3.1 概念标记与连续概念空间

3.2 推理过程

3.3 Cold Stop机制

四、实验结论

4.1 实验设置

4.2 性能提升

4.3 解释性分析

五、总结

相关文章：