DeepSeek成功的秘诀:谈谈DeepSeek的算法创新
李升伟 整理
DeepSeek 是一家专注于人工智能技术研发的公司,其算法创新在业界引起了广泛关注。以下是 DeepSeek 使用的核心算法及其特点的详细解析:
1. 原生稀疏注意力(NSA)算法
DeepSeek 提出的 原生稀疏注意力(Native Sparse Attention, NSA) 算法是其核心技术之一。NSA 通过分层稀疏注意力设计,显著提升了长序列处理的效率。具体特点包括:
- 性能提升:NSA 算法在处理长序列时,速度比全注意力模型快 11.6 倍,同时保持了高准确率。
- 硬件适配:NSA 与现代 AI 硬件良好配合,减少了计算资源的浪费,优化了训练和推理过程。
- 长上下文处理:在 64k 上下文长度的情况下,NSA 能够实现完美的“大海捞针”式检索准确率,解决了传统模型在处理长文本时的性能瓶颈。
2. 混合专家架构(MoE)
DeepSeek 采用了 混合专家架构(Mixture of Experts, MoE),这是一种高效的模型设计方法:
- 动态路由:每个 MoE 层包含 1 个共享专家和 256 个路由专家,运行时每个词元(token)只激活 8 个路由专家,显著降低了计算资源的消耗。
- 任务适应性:MoE 架构在处理复杂任务时表现出色,能够根据任务需求动态分配计算资源,提升模型的泛化能力。
3. 多头潜在注意力(MLA)
DeepSeek 引入了 多头潜在注意力(Multi-head Latent Attention, MLA) 机制,进一步优化了注意力计算:
- 低秩压缩:MLA 通过对注意力键和值进行低秩联合压缩,减少了推理过程中的键值缓存(KV cache),降低了内存占用。
- 位置编码:引入旋转位置编码(RoPE),确保模型在处理长上下文时能够有效捕捉位置信息。
4. 强化学习算法(GRPO)
DeepSeek 开发了 组相对策略优化(Group Relative Policy Optimization, GRPO) 算法,用于强化学习微调:
- 高效训练:GRPO 通过组内样本的相对比较来计算策略梯度,显著降低了训练的不稳定性,同时提高了学习效率。
- 低成本优化:GRPO 算法在降低计算成本的同时,提升了模型的训练效率,使其在数学、逻辑和编程任务中表现出色。
5. FP8 混合精度训练
DeepSeek 采用了 FP8 混合精度训练 技术,进一步优化了训练过程:
- 动态精度选择:根据不同的计算任务和数据特点,动态选择 FP8 或 FP32 精度进行计算,将训练速度提高了 50%,内存占用降低了 40%。
- 低成本高效训练:FP8 混合精度训练显著降低了训练成本,使得 DeepSeek 模型的训练成本仅为 OpenAI 同类模型的 1/10。
6. 多词元预测训练(MTP)
DeepSeek 提出了 多词元预测训练(Multi-token Prediction Training, MTP) 技术:
- 多步预测:MTP 通过在训练过程中让模型预测多个未来的词元,提高了模型的预测能力和效率。
- 共享主干:MTP 通过在共享模型主干上增加多个独立的输出头来实现,不增加训练时间和内存消耗。
7. 开源与低成本策略
DeepSeek 的算法创新不仅体现在技术层面,还体现在其开源和低成本策略上:
- 开源模型:DeepSeek 完全开源其模型,符合开放源代码促进会(OSI)的开源 AI 定义 1.0,吸引了大量开发者关注和使用。
- 低成本训练:DeepSeek 通过算法优化,显著降低了训练和推理成本。例如,DeepSeek-V3 的训练成本仅为 557.6 万美元,远低于 OpenAI 和 Meta 的同类模型。
总结
DeepSeek 的算法创新涵盖了从模型架构到训练优化的多个方面,包括 NSA、MoE、MLA、GRPO、FP8 混合精度训练和 MTP 等技术。这些创新不仅提升了模型的性能和效率,还显著降低了训练和推理成本,使其在 AI 领域具有显著的竞争优势。DeepSeek 的开源策略和低成本模式进一步推动了 AI 技术的普及和应用,为全球开发者提供了强大的工具和平台。
(来自deepseek问答。)
相关文章:
DeepSeek成功的秘诀:谈谈DeepSeek的算法创新
李升伟 整理 DeepSeek 是一家专注于人工智能技术研发的公司,其算法创新在业界引起了广泛关注。以下是 DeepSeek 使用的核心算法及其特点的详细解析: 1. 原生稀疏注意力(NSA)算法 DeepSeek 提出的 原生稀疏注意力(Na…...
初始OpenCV
OpenCV 是一个功能强大、应用广泛的计算机视觉库,它为开发人员提供了丰富的工具和算法,可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展,OpenCV 也将会继续发挥重要的作用。 OpenCV 提供了大量的计算机视觉算法和图像处理工具,广泛应用于图像和视频的处理…...
深圳南柯电子|医疗设备EMC检测测试整改:保障患者安全的第一步
在医疗设备领域,电磁兼容性(EMC)是确保设备安全、有效运行的关键指标。随着医疗技术的飞速发展,医疗设备日益复杂,其电磁环境也愈发复杂多变。EMC检测测试及整改因此成为医疗设备研发、生产、销售过程中不可或缺的一环…...
【笔记】计算机网络——数据链路层
概述 链路是从一个结点到相邻结点的物理路线,数据链路则是在链路的基础上增加了一些必要的硬件和软件实现 数据链路层位于物理层和网络层之间,它的核心任务是在直接相连的节点(如相邻的交换机,路由器)之间提供可靠且…...
Rust语言介绍和猜数字游戏的实现
文章目录 Rust语言介绍和猜数字游戏的实现cargo是什么使用Rust编写猜数字 Rust语言介绍和猜数字游戏的实现 Rust语言是一种系统编程语言,核心强调安全性、并发性以及高性能,由类似于C/C的底层控制能力,性能也非常接近,Rust有一些…...
STM32-汇编
学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表; 初始化各工作模…...
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
引言 随着人工智能技术的不断进步,开发过程中的自动化程度也在逐步提高。阿里云推出的通义灵码AI程序员,作为一款创新型的智能编程助手,现已全面上线并兼容VS Code、JetBrains IDEs等多种开发环境。本文将介绍如何利用最新的Qwen2.5-Max模型…...
202503执行jmeter压测数据库(ScyllaDB,redis,lindorm,Mysql)
一、Mysql 1 、 准备MySQL 连接内容 2 、 下载连接jar包 准备 mysql-connector-java-5.1.49.jar 放到 D:\apache-jmeter-5.6.3\lib\ext 目录下面; 3 、 启动jmeter ,配置脚本 添加线程组---》JDBC Connection Configuration---》JDBC Request---》查看结果树。 1)测…...
【QT 多线程示例】两种多线程实现方式
文章目录 多线程实现方式一:继承QThread类方式二: 使用QObject::moveToThread()方法 多线程实现 在Qt中,实现多线程编程有两种常见的方式,它们分别是通过继承QThread类和使用QObject::moveToThread()方法。 方式一:继…...
excel文件有两列,循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果追加到json文件
import pandas as pd import json import osdef excel_to_json_append(excel_path, json_path):# 1. 读取Excel数据到字典列表df pd.read_excel(excel_path, usecols["question", "answer"])new_data [{"question": str(row["question&qu…...
以太网 MAC 帧格式
文章目录 以太网 MAC 帧格式以太网帧间隔参考 本文为笔者学习以太网对网上资料归纳整理所做的笔记,文末均附有参考链接,如侵权,请联系删除。 以太网 MAC 帧格式 以太网技术的正式标准是 IEEE 802.3,它规定了以太网传输数据的帧结…...
【PCB工艺】基础:电子元器件
电子原理图(Schematic Diagram)是电路设计的基础,理解电子元器件和集成电路(IC)的作用,是画好原理图的关键。 本专栏将系统讲解 电子元器件分类、常见 IC、电路设计技巧,帮助你快速掌握电子电路…...
docker 部署elk 设置账号密码
1. 先把 kibana 停掉 2.进入es 容器 docker exec -it 75895a078cbc /bin/bash 找到 bin 目录 执行 ./elasticsearch-setup-passwords interactive 全部设置一样的密码 ,不一样自己要记住,设置成功会输出如下内容 Changed password for user [apm_system] Chang…...
【微信小程序(云开发模式)变通实现DeepSeek支持语音】
整体架构 前端(微信小程序): 使用微信小程序云开发能力,实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和 DeepSeek 处理。界面模仿 DeepSeek,支持文本编辑。 后端(云函数 Node.js&#…...
从WebRTC到嵌入式:EasyRTC如何借助大模型提升音视频通信体验
随着人工智能技术的快速发展,WebRTC与大模型的结合正在为音视频通信领域带来革命性的变革。WebRTC作为一种开源实时通信技术,以其低延迟、跨平台兼容性和强大的音视频处理能力,成为智能硬件和物联网设备的重要技术支撑。 而EasyRTC作为基于W…...
前端样式库推广——TailwindCss
官方网址: https://tailwindcss.com/docs/installation/using-vite 中文官方文档:https://www.tailwindcss.cn/ github地址:tailwindcss 正在使用tailwindcss的网站:https://tailwindcss.com/showcase 一看github,竟然…...
Gemini分析屏幕截图时,如何处理图像模态(如界面元素、文字内容)与文本模态(用户指令)的语义对齐?
在通过Gemini大语言模型进行屏幕截图分析时,实现图像模态(界面元素/文字内容)与文本模态(用户指令)的语义对齐,需要结合多模态融合技术和领域知识。以下是具体的技术实现路径和挑战应对方案: 1.…...
【6】组合计数学习笔记
前言 关于今天发现自己连快速幂都忘记怎么写这件事 这篇博客是组合计数基础,由于大部分内容都是 6 6 6 级,所以我就给整个提高级的组合数学评了 6 6 6 级。 组合计数基础 加法原理与乘法原理 加法原理(分类计数原理)&#…...
Ai客服机器人系统源码
我将基于常见的自然语言处理库,用 Python 编写一个简单的 AI 客服机器人功能代码示例,它能处理常见问题并根据用户输入提供相应回复。 import nltk from nltk.chat.util import Chat, reflections # 下载必要的NLTK数据 nltk.download(pun…...
Redis——事务实现以及应用场景
本文介绍Redis事务相关的原理以及知识点,从redis的常用命令出发,深入理解redis在日常工作中的实际场景使用用法。 本文目录 一、Redis事务简介二、事务相关命令三、事务应用场景 一、Redis事务简介 Redis 事务本质上是一个命令队列。用户可以使用MULTI命…...
SpringBoot 第二课(Ⅰ) 整合springmvc(详解)
目录 一、SpringBoot对静态资源的映射规则 1. WebJars 资源访问 2. 静态资源访问 3. 欢迎页配置 二、SpringBoot整合springmvc 概述 Spring MVC组件的自动配置 中央转发器(DispatcherServlet) 控制器(Controller) 视图解…...
Kafka 八股文
一、基础概念 1. Kafka 是什么?它的核心组件有哪些? Kafka 的定义 Kafka 是一个 分布式流处理平台,最初由 LinkedIn 开发,后成为 Apache 顶级项目。它主要用于 高吞吐量的实时数据流处理,支持发布-订阅模式的消息传递…...
OpenHarmony 开源鸿蒙北向开发——3.配置SDK
安装、配置完成之后我们就要配置SDK。 我们创建工程后,点击右上角设置 进入设置 进入OpenHarmony SDK,选择编辑 这里配置一下SDK安装位置 点击完成 这里我们API版本勾选第一个即可 确认安装 勾选接受 这里要等一会 安装完成后,点击完成...
电子工程师转战汽车OEM主机厂之路
文章目录 1 电子工程师2 汽车系统工程师 第一篇分享一个笔者2018年的一个心得文章,回头想想从事汽车行业也小8年了,从懵懂稚嫩到所谓的老油条,也是难忘的经历,希望我的经历对从事电子行业和汽车行业的小伙伴有所帮助。 1 电子工程…...
vulhub Matrix-Breakout
1.下载靶机,打开靶机和kali虚拟机 2.查询kali和靶机ip 3.浏览器访问 访问81端口有登陆界面 4.扫描敏感目录 kali dirb 扫描 一一访问 robot.txt提示我们继续找找,可能是因为我们的字典太小了,我们换个扫描器换个字典试下,利用kali自带的最大…...
Unity3D开发AI桌面精灵/宠物系列 【二】 语音唤醒 ivw 的两种方式-Windows本地或第三方讯飞等
Unity3D 交互式AI桌面宠物开发系列【二】ivw 语音唤醒 该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲有关于…...
三月九次前端面试复盘:当场景题成为通关密钥
三月初集中面了包括字节、美团、滴滴在内的9家公司,经历7场技术面2场Leader面后,发现如今的面试逻辑已发生根本转变。这里分享真实经历与题目,供近期求职者参考。 一、面试形态变化:从理论背诵到实战推演 1. 八股文边缘化&#…...
STM32 —— 嵌入式系统、通用计算机系统、物联网三层架构
目录 一、嵌入式系统的概念 二、通用计算机系统与嵌入式系统的比较 用途 硬件 软件 性能与功耗 开发与维护 三、嵌入式系统与物联网的关系 四、物联网的三层架构 1. 感知层(Perception Layer) 2. 网络层(Network Layer) …...
如何选择合适的 AI 模型?(开源 vs 商业 API,应用场景分析)
1. 引言 在 AI 迅猛发展的今天,各类 AI 模型层出不穷,从开源模型(如 DeepSeek、Llama、Qwen)到商业 API(如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google Gemini),每种方案都有其优势与适用…...
视频对讲系统中,强插和强拆;视频分发功能
强插和强拆 在视频对讲系统中,强插和强拆是两个具有特定功能的操作,具体含义如下: 强插功能:指在视频对讲过程中,具有更高权限的用户或管理员可以强行插入正在进行的通话或视频连接。例如,当小区保安室监控…...
