当前位置: 首页 > article >正文

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

4月初,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

笔者尝试对比了“关于推理时Scaling”与现有技术,粗浅分析如下:

与LoRA的对比

  • 区别
    • 应用场景:LoRA是一种参数高效微调方法,主要用于在训练阶段对模型进行微调,以适应特定的任务或数据集。而“推理时Scaling”主要关注推理阶段的性能提升,通过动态调整奖励机制来实现,不涉及模型参数的改变。
    • 优化目标:LoRA旨在通过引入低秩矩阵来近似模型参数的变化,从而减少训练时的计算量和内存占用。而“推理时Scaling”则侧重于在推理过程中,通过增加计算资源来提升模型的推理能力,如逻辑一致性和事实准确性。
  • 优势
    • 推理时Scaling:无需改变模型参数,避免了重新训练模型的高成本,同时能够在推理阶段灵活地提升模型性能。
    • LoRA:在训练阶段能够有效减少计算资源的消耗,适用于资源有限的情况下的模型微调。
  • 劣势
    • 推理时Scaling:可能需要在推理阶段投入更多的计算资源,导致推理延迟增加和计算成本上升。
    • LoRA:仅在训练阶段有效,对于已经训练好的模型,在推理阶段无法进一步提升性能。

与知识蒸馏的对比

  • 区别
    • 知识传递方式:知识蒸馏通过将大型教师模型的知识传递给小型学生模型,以提高学生模型的性能。而“推理时Scaling”不涉及模型间的知识传递,而是通过在推理过程中增加计算资源来提升同一模型的推理能力。
    • 模型规模变化:知识蒸馏通常会减小模型的规模,以提高推理效率。而“推理时Scaling”不改变模型的规模,只是在推理阶段动态调整计算资源。
  • 优势
    • 推理时Scaling:无需对模型进行重新训练或蒸馏,能够快速提升推理性能,适用于对模型规模有严格限制的场景。
    • 知识蒸馏:通过减小模型规模,降低了存储和计算成本,同时保留了教师模型的大部分性能,适用于资源受限的设备部署。
  • 劣势
    • 推理时Scaling:可能需要更多的计算资源,且性能提升的效果可能因任务和模型而异。
    • 知识蒸馏:蒸馏过程需要额外的训练成本,且蒸馏效果可能受到教师模型质量和蒸馏方法的影响。

与模型剪枝的对比

  • 区别
    • 模型结构改变:模型剪枝通过去除模型中的冗余参数或连接,减小模型规模,从而提高推理效率。而“推理时Scaling”不改变模型结构,只是在推理阶段动态调整计算资源。
    • 性能提升方式:模型剪枝通过优化模型结构来提升推理效率,但可能会降低模型的表达能力。而“推理时Scaling”通过增加计算资源来提升推理性能,不会影响模型的结构和表达能力。
  • 优势
    • 推理时Scaling:无需对模型进行结构修改,避免了剪枝可能导致的性能下降,同时能够灵活地根据推理需求调整计算资源。
    • 模型剪枝:能够显著减小模型规模,降低存储和计算成本,适用于对模型大小有严格限制的场景,如移动设备和嵌入式系统。
  • 劣势
    • 推理时Scaling:需要额外的计算资源,可能不适用于资源极度受限的环境。
    • 模型剪枝:剪枝过程可能导致模型性能的下降,且需要重新训练模型以恢复性能,增加了训练成本。

与动态Batch Size的对比

  • 区别
    • 资源调整方式:动态Batch Size通过在训练过程中根据计算资源和内存限制动态调整Batch Size,以提高训练效率。而“推理时Scaling”在推理阶段通过增加计算资源,如多次采样和并行采样,来提升推理性能。
    • 应用场景:动态Batch Size主要用于训练阶段的资源优化,而“推理时Scaling”专注于推理阶段的性能提升。
  • 优势
    • 推理时Scaling:能够在推理阶段灵活地利用计算资源,提升推理的准确性和效率,适用于对推理性能要求较高的场景。
    • 动态Batch Size:在训练阶段能够有效利用计算资源,提高训练速度和效率,适用于大规模模型的分布式训练。
  • 劣势
    • 推理时Scaling:可能增加推理延迟和计算成本,需要在性能提升和资源消耗之间进行权衡。
    • 动态Batch Size:仅在训练阶段有效,对推理阶段的性能提升没有直接帮助。

与模型并行的对比

  • 区别
    • 并行方式:模型并行通过将模型的不同部分分配到不同的计算设备上进行并行计算,以提高训练和推理速度。而“推理时Scaling”主要通过在推理过程中增加计算资源,如多次采样和并行采样,来提升推理性能。
    • 目标:模型并行侧重于提高模型的训练和推理速度,特别是在处理大规模模型时。而“推理时Scaling”侧重于提升推理阶段的性能,如逻辑一致性和事实准确性。
  • 优势
    • 推理时Scaling:无需对模型进行复杂的并行化处理,能够快速提升推理性能,适用于对模型并行化有困难的场景。
    • 模型并行:能够有效利用多个计算设备的资源,提高大规模模型的训练和推理速度,适用于需要快速处理大量数据的场景。
  • 劣势
    • 推理时Scaling:可能需要更多的计算资源,且性能提升的效果可能因任务和模型而异。
    • 模型并行:实现复杂,需要对模型进行仔细的划分和优化,且可能会引入通信开销,影响整体性能。

相关文章:

DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

4月初,DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。 笔者尝试对比了“关于推理时Scaling”与现有技术,粗浅分析如下: 与LoRA的对比 区别: 应用场景:LoRA是一种参数高效微调方法,主要用于在…...

Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(四)

Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(四) 对 Android Coli 3 ImageView load two suit Bitmap thumb and formal,Kotlin(三)-CSDN博客 进行完善,注意完善 …...

Adam优化器研究综述

摘要 Adam优化器(Adaptive Moment Estimation)是一种广泛应用于深度学习的优化算法,通过自适应学习率加速梯度下降过程。本文从Adam的定义、算法原理、优势与局限性、应用场景及变体等方面进行调研,结合学术文献和实践经验&#x…...

在 macOS 上连接 PostgreSQL 数据库(pgAdmin、DBeaver)

在 macOS 上连接 PostgreSQL 数据库 pgAdmin 官方提供的图形化管理工具,支持 macOS。 下载地址:https://www.pgadmin.org/ pgAdmin 4 是对 pgAdmin 的完全重写,使用 Python、ReactJs 和 Javascript 构建。一个用 Electron 编写的桌面运行时…...

使用文本翻译API打破语言障碍

一、引言 在当今全球化的商业环境中,企业面临着前所未有的语言挑战。无论是出口商品、引进技术,还是与国际客户进行交流,语言障碍始终是一个亟待解决的问题。文本翻译API作为一款高效、稳定的工具,支持多种语言的翻译&#xff0c…...

UniappX动态引入在线字体图标,不兼容css时可用。

优缺点 优点:不需要占用本地存储,可直接在线同步库图标,不用再手动引入ttf文件,不用手动添加键值对对应表。 缺点:受网速影响,字体库cdn路径可能会更改,ios端首次加载,可能会无图标…...

2018年真题

数学基础 一、 (共4分)用逻辑符号表达下列语句(论域为包含一切事物的集合) 1、(2分)集合A的任一元素的元素都是A的元素 经过对图片文字的识别与逻辑分析,结果如下: 符号定义&…...

Efficient Burst Raw Denoising:稳定噪声方差和分频率降噪

Efficient Burst Raw Denoising with Stabilization and Multi-Frequency Denoising Network Burst Raw Denoising必要性Burst Raw Image Denoising流程Main Contributions具体方法介绍集成noise priorCMOS sensor 噪声建模噪声变换(Variance stabilization&#xf…...

Ansible的使用2

#### 一、Ansible变量 ##### facts变量 > facts组件是Ansible用于采集被控节点机器的设备信息,比如IP地址、操作系统、以太网设备、mac 地址、时间/日期相关数据,硬件信息等 - setup模块 - 用于获取所有facts信息 shell ## 常用参数 filter…...

Springboot JPA ShardingSphere 根据年分表java详细代码Demo

一、项目结构 src/main/java ├── com.example │ ├── config │ │ └── TableInitializer.java # 动态建表配置 │ ├── entity │ │ └── Order.java # JPA实体类 │ ├── repository │ │ └── OrderRepository.j…...

mapbox进阶,使用本地dem数据,加载hillshade山体阴影图层

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️hillshade 山体阴影图层 api1.3.1 ☘️…...

【C++】Stack Queue 仿函数

📝前言: 这篇文章我们来讲讲STL中的stack和queue。因为前面我们已经有了string、vector和list的学习基础,所以这篇文章主要关注一些stack和queue的细节问题,以及了解一下deque(缝合怪)和priority_queue &am…...

代码随想录_单调栈

代码随想录_单调栈 739.每日温度 739. 每日温度 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温度出现在几天后。如果气温在这之后都不会升高,…...

C++类与对象进阶知识深度解析

目录 一、再谈构造函数 (一)构造函数体赋值 (二)初始化列表 (三)成员变量初始化顺序 (四)explicit关键字 二、static成员 (一)概念 (二&am…...

BoostSearch搜索引擎项目 —— 测试用例设计 + web自动化测试代码

web自动化代码: https://gitee.com/chicken-c/boost-search/tree/master/AutoTest...

【Ansible自动化运维】一、初步了解,开启自动化运维之旅

在当今数字化时代,随着企业 IT 基础设施规模的不断扩大,传统的手工运维方式逐渐显得力不从心。自动化运维技术应运而生,其中 Ansible 凭借其简洁易用、功能强大的特点,成为众多运维工程师和开发人员的首选工具。本篇文章将从基础概…...

AI日报 - 2025年4月9日

🌟 今日概览(60秒速览) ▎🤖 AGI突破 | DeepSeek AI推出自我原则批判调优(SPCT)新方法 通过GRMs自我创建和批判原则,性能媲美671B参数大模型 ▎💼 商业动向 | NVIDIA发布Llama-Nemotron-Ultra 253B模型 开放权重和训练数据&#x…...

2025年二级建造师考前冲刺题库

二建考前冲刺练习通常会涵盖考试的重点和高频考点,考生在做题过程中可以加深对这些知识点的理解和记忆,提高对重点知识的掌握程度。 建设工程法规及相关知识 1、单选题:关于建设工程中代理的说法,正确的是( &#xf…...

蓝桥·20264-祝福语--找连续字串的长度

#include <iostream> using namespace std; int main() {// 请在此输入您的代码//最小字典序&#xff0c;一定是全a&#xff0c;找s的最长字串a,结果就是该字串长度加1&#xff08;t不能是s的子串&#xff09;//所以这道题就变成了&#xff0c;找s中字串a出现的长度strin…...

条件概率、概率乘法公式、全概率公式和贝叶斯 (Bayes) 公式

定义 设 P ( A ) > 0 P(A) > 0 P(A)>0&#xff0c;若在随机事件 A A A发生的条件下随机事件 B B B发生的概率记作 P ( B ∣ A ) P(B|A) P(B∣A)&#xff0c;定义 P ( B ∣ A ) P ( A B ) P ( A ) P(B|A) \frac{P(AB)}{P(A)} P(B∣A)P(A)P(AB)​ 则称 P ( B ∣ A ) …...

pdf转latex

Doc2X&#xff08;https://doc2x.noedgeai.com/&#xff09; Doc2X 是一个由 NoEdgeAI 提供的在线工具&#xff0c;主要用于将 PDF 文件&#xff08;尤其是学术论文、报告等文档&#xff09;转换为 LaTeX 格式。LaTeX 是一种高质量排版系统&#xff0c;广泛应用于学术界和出版…...

【Unity】Unity Transform缩放控制教程:实现3D模型缩放交互,支持按钮/鼠标/手势操作

【Unity 】Transform缩放控制教程&#xff1a;实现3D模型缩放交互&#xff0c;支持按钮/鼠标/手势操作 在Unity开发中&#xff0c;Transform组件承担着场景中物体的空间信息控制&#xff0c;包括位置、旋转和缩放。而缩放&#xff08;Scale&#xff09;操作&#xff0c;作为三…...

【Linux篇】缓冲区的工作原理:如何影响你程序的输入输出速度

从内存到磁盘&#xff1a;缓冲区如何提升文件I/O效率 一. 缓冲区1.1 什么是缓冲区1.2 为什么要引入缓冲区1.3 缓冲区类型1.4 FILE1.4.1 基本概念1.4.2 FILE 结构体的作用1.4.3 FILE 的工作机制 二. 最后 在程序开发中&#xff0c;缓冲区是一个经常被提及却不容易深入理解的概念…...

kotlin,Android,jetpack compose,日期时间设置

AI生成&#xff0c;调试出来学习&#xff0c;这些小组件会用了&#xff0c;就可以组合一个大点的程序了。 package com.example.mydatetimeimport android.app.AlertDialog import android.os.Bundle import androidx.activity.ComponentActivity import androidx.activity.co…...

ASP.NET图书馆借阅系统(源码+lw+部署文档+讲解),源码可白嫖!

摘要 近些年来&#xff0c;随着科技的飞速发展&#xff0c;互联网的普及逐渐延伸到各行各业中&#xff0c;给人们生活带来了十分的便利&#xff0c;图书馆借阅系统利用计算机网络实现信息化管理&#xff0c;使图书信息、图书借阅、归还的管理发展和服务水平有显著提升。 本文拟…...

LeetCode算法题(Go语言实现)_35

题目 给你一棵根为 root 的二叉树&#xff0c;请你返回二叉树中好节点的数目。 「好节点」X 定义为&#xff1a;从根到该节点 X 所经过的节点中&#xff0c;没有任何节点的值大于 X 的值。 一、代码实现 func goodNodes(root *TreeNode) int {if root nil {return 0}return d…...

vi/vim常用快捷键

那么今天我们继续昨天没有介绍完的vi编辑器,来看看常用的一些快捷键,方便我们对文件的编辑. 1.拷贝当前行yy,拷贝当前行向下的5行5yy,并粘贴(输入p) 2.删除当前行dd,删除当前行向下的5行5d 3.在文件中查找某个单词[命令模式/关键字,回车查找,输入n就是查找下一个] ⭐️&…...

JVM核心机制:类加载×字节码引擎×垃圾回收机制

&#x1f680;前言 “为什么你的Spring应用启动慢&#xff1f;为什么GC总是突然卡顿&#xff1f;答案藏在JVM的核心机制里&#xff01; 本文将用全流程图解字节码案例&#xff0c;带你穿透三大核心机制&#xff1a; 类加载&#xff1a;双亲委派如何防止恶意代码入侵&#xff…...

opencv无法设置禁用RGB转换问题

树莓派连接摄像头,摄像头输出格式为YUYV(YUV422)。 通过执行 v4l2-ctl --list-formats --device/dev/video0 可以看的具体的摄像头的数据格式。 使用opencv获取视频流&#xff0c;通过cap.set(cv2.CAP_PROP_CONVERT_RGB, 0)设置禁用自动转换RGB格式&#xff0c;但是打印输出…...

k8s 1.30.6版本部署(使用canal插件)

#系统环境准备 参考 https://blog.csdn.net/dingzy1/article/details/147062698?spm1001.2014.3001.5501 #配置下载源 curl -fsSL https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.30/deb/Release.key |gpg --dearmor -o /etc/apt/keyrings/kubernetes-apt-keyri…...