当前位置：首页 > article >正文

DeepSeek底层揭秘——《推理时Scaling方法》内容理解

article 2026/2/2 5:29:51

4月初，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

论文核心内容理解

DeepSeek与清华大学联合发布的论文《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》，核心在于提出一种新的推理时Scaling方法，即通过动态调整奖励机制，而非改变模型参数，来提升大规模语言模型（LLM）的推理能力。这种方法突破了传统依赖强化学习（RL）在训练阶段优化模型性能的局限，为LLM推理能力的提升提供了全新方法论。

Scaling 的具体对象

论文中的"Scaling"主要指推理计算资源的扩展，而非模型大小（参数量）或数据规模的扩展。具体来说，是在推理过程中通过增加计算资源，如多次采样、并行采样等，来提升模型的推理性能。

推理时的 Scaling 策略

论文提出了多种推理时Scaling策略：

多次采样与并行采样：通过多次采样生成不同的原则集和相应的批评，然后投票选出最终的奖励。更大规模的采样可以更准确地判断具有更高多样性的原则，并以更细的粒度输出奖励。
自我原则批评调整（SPCT）：包含拒绝式微调（作为冷启动阶段）和基于规则的在线强化学习，通过不断优化生成的准则和评论，增强泛化型奖励生成能力，促使奖励模型在推理阶段展现良好扩展能力。
元奖励模型（Meta Reward Model）：引入多层级奖励评估体系，统一处理单响应、多响应及对比评分的多样化场景，进一步提升推理效果。

目标优化

推理时进行Scaling的主要目标是提升模型在推理阶段的性能，具体包括：

提高模型输出的逻辑一致性和事实准确性。
增强模型在复杂多变任务中的适应性和稳定性，如数学推理、代码生成等任务。
在不增加模型参数的情况下，通过动态调整奖励机制，使模型能够更好地处理不同类型的输入和任务。

适用场景

论文提出的Scaling策略主要适用于以下场景：

模型类型：主要适用于大规模语言模型（LLM），尤其是基于奖励模型（RM）的LLM。
任务类型：适用于需要复杂推理的任务，如数学推理、代码生成等，这些任务需要模型在推理过程中进行多步思考和逻辑判断。
应用场景：既可用于在线服务，也可用于离线推理。对于在线服务，能够实时提升模型的推理性能；对于离线推理，可以通过增加计算资源来获得更准确的结果。

理论分析

论文从多个角度对Scaling策略进行了理论分析：

奖励机制的优化：通过SPCT方法，模型能够自适应生成高质量的评判原则和批评内容，从而优化奖励机制。这种优化基于在线强化学习，能够不断提升模型的泛化能力和适应性。
计算资源的利用：通过多次采样和并行采样，模型能够在推理阶段充分利用计算资源，提高推理的准确性和效率。这种策略在计算复杂度上具有一定的优势，能够在有限的资源内获得更好的性能。
模型性能的提升：论文通过理论分析证明，推理阶段的Scaling策略能够显著提升模型的性能，甚至超过通过增加模型规模所带来的训练效果提升。

实验验证

论文进行了充分的实验验证，实验结果支持论文的结论：

实验设置：研究者们构建了DeepSeek-GRM-27B模型，并将其与多个现有方法和模型进行比较。实验涵盖了多个综合RM基准测试，包括数学推理和代码生成等任务。
实验结果：SPCT方法显著提高了GRM的质量和可扩展性，在多个基准测试中优于现有方法和模型。例如，在GSM8K数学推理测试中，准确率提升了12%；在代码生成任务中，执行成功率提高了19%。
与大规模模型的比较：研究者们还将DeepSeek-GRM-27B的推理时间扩展性能与多达671B参数的较大模型进行了比较，发现它在模型大小上可以获得比训练时间扩展更好的性能。

创新性

论文的创新点主要体现在以下几个方面：

提出新的Scaling方法：首次提出“推理时Scaling”这一概念，强调通过动态调整奖励机制来提升模型的推理能力，而非传统的通过增加模型参数或训练数据。
SPCT方法：提出了一种新的学习方法——自我原则批评调整（SPCT），用于提升通用奖励模型在推理阶段的可扩展性。该方法通过拒绝式微调和基于规则的在线强化学习，显著提高了模型的性能。
元奖励模型：引入了元奖励模型（Meta Reward Model），进一步优化了推理过程中的奖励机制，提升了模型在复杂任务中的表现。
实验验证：通过在多个基准测试中的实验验证，证明了所提出方法的有效性和优越性，为LLM推理能力的提升提供了有力的证据。

DeepSeek底层揭秘——《推理时Scaling方法》内容理解

4月初，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。论文核心内容理解 DeepSeek与清华大学联合发布的论文《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》，核心在于提出一种新的推理时Scaling方法，即通过动态调…...

编程日记 2026/1/27 8:25:44

JavaScript之Json数据格式

介绍 JavaScript Object Notation， js对象标注法，是轻量级的数据交换格式完全独立于编程语言文本字符集必须用UTF-8格式，必须用“”任何支持的数据类型都可以用JSON表示JS内内置JSON解析JSON本质就是字符串 Json对象和JS对象互相转化前端…...

编程日记 2026/1/27 11:42:15

OBS 中如何设置固定码率（CBR）与可变码率（VBR）？

在使用 OBS 进行录制或推流时，设置“码率控制模式”（Rate Control）是非常重要的一步。常见的控制模式包括： CBR（固定码率）：保持恒定的输出码率，适合直播场景。 VBR（可变码率）：在允许的范围内动态调整码率，适合本地录制、追求画质。一、CBR vs. VBR 的差异项目CBR…...

编程日记 2025/5/31 9:59:38

使用 Rsync + Lsyncd 实现 CentOS 7 实时文件同步

文章目录 🌀使用 Rsync Lsyncd 实现 CentOS 7 实时文件同步前言介绍架构图🧱系统环境🔧Rsync配置（两台都需安装）关闭SELinux（两台都需） 📦配置目标端（client&#xff09…...

编程日记 2026/1/31 20:26:37

C# 多线程并发编程基础

1. 线程基础 1.1 线程简介 C# 中的线程是操作系统能够进行运算调度的最小单位，它被包含在进程中，是进程中的实际运作单位。一个进程可以包含多个线程，这些线程可以并发执行不同的任务。 1.2 线程的创建与启动在 C# 中，可以使…...

编程日记 2026/1/15 23:15:29

RAG（检索增强生成）系统，提示词（Prompt）表现测试（数据说话）

在RAG（检索增强生成）系统中，评价提示词（Prompt）设计是否优秀，必须通过量化测试数据来验证，而非主观判断。以下是系统化的评估方法、测试指标和具体实现方案：一、提示词优秀的核心标准优秀的提示词应显著提升以下指标：维度量化指标测试方法事实一致性Faithfulness …...

编程日记 2025/8/26 3:44:08

QML和C++交互

目录 1 QML与C交互基础1.1 全局属性1.2 属性私有化(提供接口访问) 2 QT与C交互（C创建自定义对象，qml文件直接访问）3 QT与C交互（qml直接访问C中的函数）4 QT与C交互（qml端发送信号 C端实现槽函数）…...

编程日记 2025/10/10 20:09:20

Android studio学习之路（六）--真机的调试以及多媒体照相的使用

多媒体应用（语言识别，照相，拍视频）在生活的各个方面都具有非常大的作用，所以接下来将会逐步介绍多媒体的使用，但是在使用多媒体之前，使用模拟器肯定是不行的，所以我们必须要使用真机…...

编程日记 2026/1/27 5:23:13

解决 Lettuce 在 Redis 集群模式下的故障转移问题

引言在高可用系统中，故障转移是确保服务不中断的重要机制。当我们使用 Lettuce 作为 Redis 的 Java 客户端时，如何高效地处理故障转移成为一项关键任务。本篇文章将探讨如何在 Redis 集群模式下配置 Lettuce 以优化故障转移。背景在初期设置 Lettu…...

编程日记 2025/11/18 10:14:22

Qt 资源文件（.qrc 文件）

Qt 资源文件（.qrc 文件）是 Qt 提供的一种机制，用来将文件（如图像、音频、文本文件等）嵌入到应用程序中，使得这些文件不需要依赖外部文件路径，而是直接打包到程序的可执行文件中。通过使用 Qt 资…...

编程日记 2026/1/26 23:27:36

Vue 组件命名及子组件接收参数命名

1. 对于单个单词的组件方式一：首字母大写。如 <School></School>。在 vue 开发者工具中默认使用的是该种方式。方式二： 首字母小写。如 <school></school> 2. 对于多个单词的组件方式一：每个单词都是小写&…...

编程日记 2026/1/7 1:23:54

PandaAI：一个基于AI的对话式数据分析工具

PandaAI 是一个基于 Python 开发的自然语言处理和数据分析工具，支持问答式（ChatGPT）的数据分析和报告生成功能。PandaAI 提供了一个开源的框架，主要核心组件包含用于数据处理的数据准备层（Pandas）以及实现 …...

编程日记 2026/1/27 3:44:16

【C++算法】50.分治_归并_翻转对

文章目录题目链接：题目描述：解法C 算法代码：图解题目链接： 493. 翻转对题目描述： 解法分治策略一：计算当前元素cur1后面，有多少元素的两倍比我cur1小（降序） 利用单…...

编程日记 2026/1/27 0:01:38

Github最新AI工具汇总2025年4月份第2周

根据GitHub官方动态及开发者生态最新进展，以下是2025年4月第二周（截至4月7日）值得关注的AI工具与技术更新汇总： 1. GitHub Copilot Agent Mode全量发布核心功能：在VS Code中启用Agent模式后，Copilot可自主…...

编程日记 2026/1/30 18:10:27

用VAE作为标题显示标题过短，所以标题变成了这样

VAE (Variational Autoencoder / 变分自编码器) 基本概念: VAE 是一种生成模型 (Generative Model)，属于自编码器 (Autoencoder) 家族。它的目标是学习数据的潜在表示 (Latent Representation)，并利用这个表示来生成新的、与原始数据相似的数据。与标…...

编程日记 2025/5/31 17:21:53

docker的run命令笔记250406

docker的run命令笔记250406 Docker 的 run 命令用于创建并启动一个新的容器。它是 Docker 中最常用的命令之一，基本语法为： docker run [OPTIONS] IMAGE [COMMAND] [ARG...]常用选项（OPTIONS） 参数说明-d 或 --detach后台运行…...

编程日记 2025/10/17 0:10:16

基于pycatia的CATIA层级式BOM生成器开发全解析

引言：BOM生成技术的革新之路在高端装备制造领域，CATIA的BOM管理直接影响着研发效率和成本控制。传统VBA方案虽能实现基础功能，但存在代码维护困难、跨版本兼容性差等痛点。本文基于pycatia框架，提出一种支持动态层级识别、智能查重、Excel联动的BOM生成方案，其核心突破…...

编程日记 2026/1/27 2:24:31

Flink 1.20 Kafka Connector：新旧 API 深度解析与迁移指南

Flink Kafka Connector 新旧 API 深度解析与迁移指南一、Flink Kafka Connector 演进背景 Apache Flink 作为实时计算领域的标杆框架，其 Kafka 连接器的迭代始终围绕性能优化、语义增强和API 统一展开。Flink 1.20 版本将彻底弃用基于 FlinkKafkaConsumer/FlinkK…...

编程日记 2026/1/27 0:13:18

2025年渗透测试面试题总结- 某四字大厂面试复盘扩展一面（题目+回答）

网络安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录某四字大厂面试复盘扩展一面一、Java内存马原理与查杀二、冰蝎与哥斯拉原理对比（技术演…...

编程日记 2026/1/30 15:09:51

批量压缩 jpg/png 等格式照片|批量调整图片的宽高尺寸

图片格式种类非常的多，并且不同的图片由于像素、尺寸不一样，可能占用的空间也会不一样。文件太大会占用较多的磁盘空间，传输及上传系统都非常不方便，可能会收到限制，因此我们经常会碰到需要对图片进行压缩的需求。如何…...

编程日记 2026/1/30 3:11:25

目录穿越 + pickle反序列化 -- xyctf Signin WP

源代码 # -*- encoding: utf-8 -*-File : main.py Time : 2025/03/28 22:20:49 Author : LamentXUflag in /flag_{uuid4}from bottle import Bottle, request, response, redirect, static_file, run, route secret aapp Bottle() route(/) def index():return…...

编程日记 2026/1/13 7:32:20

Spring Boot 框架注解：@ConfigurationProperties

ConfigurationProperties(prefix "sky.jwt") 是 Spring Boot 框架里的一个注解，其主要功能是把配置文件（像 application.properties 或者 application.yml）里的属性值绑定到一个 Java 类的字段上。下面详细阐述其作用：…...

编程日记 2025/7/4 0:40:36

【动手学深度学习】卷积神经网络（CNN）入门

【动手学深度学习】卷积神经网络（CNN）入门 1，卷积神经网络简介2，卷积层2.1，互相关运算原理2.2，互相关运算实现2.3，实现卷积层 3，卷积层的简单应用：边缘检测3.1&#xff0…...

编程日记 2026/1/26 23:28:30

在huggingface上制作小demo

在huggingface上制作小demo 今天好兄弟让我帮他搞一个模型，他有小样本的化学数据，想让我根据这些数据训练一个小模型，他想用这个模型预测一些值最终我简单训练了一个小模型，起初想把这个模型和GUI界面打包成exe发给他&#xff0…...

编程日记 2026/1/27 9:51:47

集合学习内容总结

集合简介 1、Scala 的集合有三大类：序列 Seq、集Set、映射 Map，所有的集合都扩展自 Iterable 特质。 2、对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包不可变集合：scala.collect…...

编程日记 2026/1/8 5:35:14

51.评论日记

千万不能再挖了，否则整个华夏文明将被改写。_哔哩哔哩_bilibili 2025年4月7日22:13:42...

编程日记 2026/2/1 9:09:37

SpringCloud第二篇：注册中心Eureka

注册中心的意义注册中心管理各种服务功能包括服务的注册、发现、熔断、负载、降级等，比如dubbo admin后台的各种功能。有了注册中心，调用关系的变化，画几个简图来看一下。(了解源码可求求: 1791743380) 服务A调用服务B 有了注册中心之后&a…...

编程日记 2026/2/1 4:09:01

ES 参数调优

1、refresh_interval 控制索引刷新的时间间隔。增大这个值可以减少I/O操作，从而提升写入性能，但会延迟新文档的可见性查看 GET /content_erp_nlp_help_202503191453/_settings?include_defaultstrue 动态修改：refresh_interval 是一个动态…...

编程日记 2026/1/28 6:28:04