当前位置：首页 > article >正文

DeepSeek相关技术整理

article 2026/5/8 19:41:13

重要论文

《DeepSeek V3 Technical Report》

辅助损失函数 (Auxiliary Loss) 新策略: 解决了在 MOE 模型训练中，为了平衡负载而引入的辅助损失带来的模型性能损失问题。
Multi-Token Prediction: V3 不再采用传统的单 Token 预测，而是采用多个 token 同时预测，从而提高了模型的整体性能，同时也有利于在推理阶段使用 speculative decoding 来提升推理速度。
FP8 混合精度训练：使用 FP8 混合精度框架训练，并在大规模模型上验证了其可行性和有效性。通过 FP8 计算和存储，训练得到了显著的加速，并减少了 GPU 内存的使用。
DualPipe：通过 DualPipe 算法，显著减少了 pipeline 过程中存在的 bubble，并使得通信过程和计算过程能够高度重叠，大幅提升了训练效率。
高效的跨节点通信: 使用高效的跨节点 all-to-all 通信内核，充分利用 IB 和 NVLink 的带宽，减少训练时的通信开销。
论文地址

《DeepSeek R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》：

不依赖监督微调的 RL：DeepSeek-R1-Zero 直接在 base 模型上运用 RL （强化学习）训练，证明AI大模型可以通过 RL 训练出更强的推理能力，不需要预先经过监督微调的训练。
多阶段强化学习：为了克服 RL 产生的不稳定性，DeepSeek-R1 先使用少量数据进行监督学习，再进行面向推理的强化学习。再通过拒绝采样的方式来做监督微调，并结合全场景的 RL，最终形成了 DeepSeek-R1 模型。
小模型蒸馏：DeepSeek 团队探索了如何把 R1 模型的推理能力迁移到小模型中。他们使用蒸馏的方法训练了基于 Qwen 和 Llama 的系列小模型。

《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》

Multi-Head Latent Attention (MLA)：通过对 Key 和 Value 进行低秩压缩，极大地减少了推理时的 KV cache，提高了推理效率，同时性能又比 MHA 更好。
DeepSeekMoE：通过精细化的专家划分和共享专家的隔离，DeepSeekMoE 能够在更低成本下训练更强大的模型。
Device-Limited Routing: 在训练过程中对 MoE 架构进行了改进，实现了训练效率的提升，并在跨节点通信时加入了平衡负载策略。
低成本训练：V2 在性能超越 DeepSeek 67B 的同时，训练成本却降低了 42.5%。

背景知识点

蒙特卡洛搜索树

1.蒙特卡洛方法（Monte Carlo，MC）

介绍：指使⽤随机数来解决很多计算问题的⽅法总称。也叫作模拟法、统计试验法。
应用1-用随机打点，统计落在圆内的点数占比来求圆周率。
应用2-求定积分：画一个矩阵，随机打点，统计"函数下方的点数:总点数"来计算积分

2.蒙特卡洛树搜索（MCTS）

介绍：一种用来选出“最优的下一步策略”的算法。
原理：重复多次自博弈，每次选择UCT值最高的策略，进行下一步操作（避免因为执行次数低导致的胜率高胜率高引起的偏差）。最后访问次数最多的节点就是最佳策略节点。
流程：选择子节点->展开子节点->自博弈->记录更新数据。
应用：解决强化学习中的博弈问题

3.UCT：（Upper Confidence Bound Apply to Tree）

介绍：一种树搜索算法，可以解决尝试那些胜率高但是执行度低的策略。
公式：UCT=Q_i/N_i + 常数C*根号(ln(T)/N_i) Q_i是i节点赢的次数，N_i是i节点访问次数，C是常数，而T是总访问次数。
理解：例如统计ctr的场景，uct_ctr=ctr加上一个权重，这个权重是是一个随着全局曝光数减小的一个。最终按照uct_ctr降序起到的作用就是优先“item曝光次数少但是ctr高的item，检验他们是不是真的高质量，如果后面曝光了几次ctr降了，那就减少曝光。如果ctr没降多少那就继续曝光。”。
意义：解决访问次数小时，样本不置信的问题。
应用：item的冷启曝光、蒙特卡洛树搜索。

论文地址

模型介绍

《Deepseek》论文 1月26日
LM可以看做是一种强化学习，state是当前prompt，action是从所有词典中选出一个token。
PPO、DPO、GRPO
RLHF 是让模型遵循标注者的偏好。
LM模型和强化学习（一种训练智能体策略的框架）区别。
论文出发点：
想拥有复杂问题的推理能力：step by step来解决。（通过强化学习来激励语言模型，使其用于复杂问题的推理能力）
之前是采用PPO，但是最近采用DPO，现在使用的是GRPO（和PPO很像）。
问题：https://www.bilibili.com/video/BV1giFNe9E4k

相关介绍