阿里云一键部署DeepSeek-V3、DeepSeek-R1模型
目录
支持的模型列表
模型部署
模型调用
WebUI使用
在线调试
API调用
关于成本
FAQ
点击部署后服务长时间等待
服务部署成功后,调用API返回404
请求太长导致EAS网关超时
部署完成后,如何在EAS的在线调试页面调试
模型部署之后没有“联网搜索”功能
模型服务如何集成到AI应用(以Dify为例)
DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,帮助您一键部署DeepSeek-V3和DeepSeek-R1系列模型。
支持的模型列表
说明
DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(8卡96G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低)。
根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。
表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。
| 模型 | 最低配置 | 支持的最大Token数 | |||
| 部署方式为BladeLLM加速(推荐) | 部署方式为SGLang加速(推荐) | 部署方式为vLLM加速 | 部署方式为标准部署 | ||
| DeepSeek-R1 | 8卡GU120(8 * 96 GB显存) | 不支持 | 163840 | 4096 | 不支持 |
| DeepSeek-V3 | 8卡GU120(8 * 96 GB显存) | 不支持 | 163840 | 4096 | 2000 |
| DeepSeek-R1-Distill-Qwen-1.5B | 1卡A10(24 GB显存) | 131072 | 不支持 | 131072 | 131072 |
| DeepSeek-R1-Distill-Qwen-7B | 1卡A10(24 GB显存) | 131072 | 不支持 | 32768 | 131072 |
| DeepSeek-R1-Distill-Llama-8B | 1卡A10(24 GB显存) | 131072 | 不支持 | 32768 | 131072 |
| DeepSeek-R1-Distill-Qwen-14B | 1卡GPU L(48 GB显存) | 131072 | 不支持 | 32768 | 131072 |
| DeepSeek-R1-Distill-Qwen-32B | 2卡GPU L(2 * 48 GB显存) | 131072 | 不支持 | 32768 | 131072 |
| DeepSeek-R1-Distill-Llama-70B | 2卡GU120(2 * 96 GB显存) | 131072 | 不支持 | 32768 | 131072 |
部署方式说明:
-
BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。
-
SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。
-
vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。
-
标准部署:不使用任何推理加速的标准部署。
推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。
加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。
模型部署
-
进入Model Gallery页面。
-
登录PAI控制台。
-
在顶部左上角根据实际情况选择地域。
-
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
-
在左侧导航栏选择快速开始 > Model Gallery。
-
-
在Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。
-
单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。
说明
如果部署DeepSeek-R1或DeepSeek-V3模型,您可以选择的机型包括:
ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共资源,库存可能较紧张)
ecs.ebmgn8v.48xlarge(无法通过公共资源使用,请购买EAS专属资源)

模型调用
您可以通过下表了解不同部署方式支持的模型调用方式。
| BladeLLM部署 | SGLang部署 | vLLM部署 | 标准部署 | |
| WebUI | 不支持,需本地启动WebUI。详情请参见WebUI使用。 | 支持 | ||
| 在线调试 | 支持。详情请参见在线调试。 | |||
| API调用 | 所有部署方式都支持通过以下接口发送HTTP POST请求调用模型。
注意,标准部署还支持Endpoint后面不添加任何内容直接调用。详情请参见API调用。 | |||
重要
使用BladeLLM加速部署方式,如果不指定max_tokens参数,默认会按照max_tokens=16进行截断。建议您根据实际需要调整请求参数max_tokens。
WebUI使用
如果是标准部署,支持Web应用。在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。

非标准部署,可下载Web UI代码,在本地启动一个Web UI。
注意:BladeLLM和vLLM、SGLang部署使用的Web UI代码不同。
-
BladeLLM:BladeLLM_github、 BladeLLM_oss
-
vLLM、SGLang:vLLM_github、vLLM_oss
python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"
在线调试
在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在在线测试模块中找到EAS在线调试的入口,使用如下示例数据测试接口。
注意:在线调试中已经填充的路径是以下示例中的<EAS_ENDPOINT>。
单击查看请求数据示例
API调用
-
在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。
-
单击查看调用信息获取调用的 Endpoint 和 Token。
-
单击预训练模型跳转到Model Gallery的模型介绍页查看API调用方式的详细说明。


关于成本
-
由于DeepSeek-V3和DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。
-
您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。
-
如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。
-
对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。
-
如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。
FAQ
点击部署后服务长时间等待
可能的原因:
-
当前地域下机器资源不足。
-
由于模型较大,模型加载耗时较长(对于DeepSeek-R1、DeepSeek-V3这样的大模型,需要20-30min)。
您可以耐心等待观察一段时间,如果服务仍长时间无法正常启动运行,建议尝试以下步骤:
-
进入任务管理-部署任务,查看部署任务详情页。在页面右上角单击更多 > 更多信息,跳转到PAI-EAS的模型服务详情,查看服务实例状态。

-
关闭当前服务,并在控制台左上角切换到其他地域重新部署服务。
说明
对于DeepSeek-R1、DeepSeek-V3这样的超大参数量模型,需要8卡GPU才能启动服务(资源库存较紧张),您可以选择部署DeepSeek-R1-Distill-Qwen-7B等蒸馏小模型(资源库存较富裕)。
服务部署成功后,调用API返回404
请检查调用的URL是否加上了OpenAI的API后缀,例如v1/chat/completions。详情可以参考模型主页调用方式介绍。
请求太长导致EAS网关超时
EAS默认网关的请求超时时间是180秒,如果需要延长超时时间,可以配置EAS专属网关,并提交工单调整专属网关的请求超时时间,最大可以调整到600秒。
部署完成后,如何在EAS的在线调试页面调试
详情请参见如何在线调试已部署的模型?
模型部署之后没有“联网搜索”功能
“联网搜索”功能并不是仅通过直接部署一个模型服务就能实现的,而是需要基于该模型服务自行构建一个AI应用(Agent)来完成。
通过PAI的大模型应用开发平台LangStudio,可以构建一个联网搜索的AI应用,详情请参考Chat With Web Search应用流。
模型服务如何集成到AI应用(以Dify为例)
以DeepSeek-R1-Distill-Qwen-7B模型为例,建议采用vLLM加速部署。
-
在Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”:

-
模型名称填写“DeepSeek-R1-Distill-Qwen-7B”,API Key填写EAS服务Token,API endpoint URL填写EAS服务endpoint(注意末尾加上/v1)。EAS服务Token和endpoint获取方式:进入Model Gallery的任务管理-部署任务,在部署任务详情页面单击查看调用信息。

相关文章:
阿里云一键部署DeepSeek-V3、DeepSeek-R1模型
目录 支持的模型列表 模型部署 模型调用 WebUI使用 在线调试 API调用 关于成本 FAQ 点击部署后服务长时间等待 服务部署成功后,调用API返回404 请求太长导致EAS网关超时 部署完成后,如何在EAS的在线调试页面调试 模型部署之后没有“联网搜索…...
分享一款AI绘画图片展示和分享的小程序
🎨奇绘图册 【开源】一款帮AI绘画爱好者维护绘图作品的小程序 查看Demo 反馈 github 文章目录 前言一、奇绘图册是什么?二、项目全景三、预览体验3.1 截图示例3.2 在线体验 四、功能介绍4.1 小程序4.2 服务端 五、安装部署5.1 快速开始~~5.2 手动部…...
【练习】【双指针】力扣热题100 283. 移动零
题目 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 示例 2: 输入: nums [0] 输出…...
QT 互斥锁
一、概述 1、在多线程编程中,为了防止多个线程同时访问共享资源而导致的不确定性和错误,经常会使用互斥锁(Mutex)进行保护。 2、QMutex是Qt提供的一个互斥锁类,用于确保在同一时间只有一个线程访问共享资源。 3、QM…...
什么是算法的空间复杂度和时间复杂度,分别怎么衡量。
1. 时间复杂度 时间复杂度衡量的是算法运行时间与输入规模之间的关系。它通常用大O记号(Big O Notation)表示,例如 O(1)、O(n)、O(n2) 等。 衡量方法: 常数时间复杂度 O(1):无论输入规模如何,算法的执行时…...
VMware Workstation 17.0 Pro创建虚拟机并安装Ubuntu22.04与ubuntu20.04(双版本同时存在)《包含小问题总结》
目录 一、创建虚拟机 二、下载安装22.04 三、一些配置问题总结(小屏,网络,复制贴贴等) 1、网络问题 2、sudo apt install net-tools出现无法定为软件包 3、小屏与ubuntu虚拟机与windows系统之间复制粘贴 4、安装终端:Termi…...
Windows 10 ARM工控主板CAN总线实时性能测试
在常规的Windows系统中支持CAN总线应用,需要外接CAN总线适配器,通常为USB转CAN模块或PCI接口CAN卡。实时性本身是CAN总线的显著特性之一,但由于Windows并非实时操作系统,应用程序容易受到系统CPU负载影响,导致调度周期…...
如何在不依赖函数调用功能的情况下结合工具与大型语言模型
当大型语言模型(LLM)原生不支持函数调用功能时,如何实现智能工具调度?本文通过自然语言解析结构化输出控制的方法来实现。 GitHub代码地址 核心实现步骤 定义工具函数 使用tool装饰器声明可调用工具: from langcha…...
【Linux AnolisOS】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
AnolisOS 8中使用Docker部署(全)_anolis安装docker-CSDN博客 从在虚拟机安装龙蜥到安装docker上面这篇文章写的很清晰了,我重点讲述我解决文章里面问题一些的方法。 问题1: docker: Get https://registry-1.docker.io/v2/: net/h…...
【Elasticsearch】Mapping概述
以下是Elasticsearch中提到的关于Mapping的各模块概述: --- 1.Dynamic mapping(动态映射) 动态映射是指Elasticsearch在索引文档时,自动检测字段类型并创建字段映射的过程。当你首次索引一个文档时,Elasticsearch会根…...
GPT-4o悄然升级:能力与个性双突破,AI竞技场再掀波澜
在大模型竞技场中,GPT-4o悄悄发布了全新版本,凭借其卓越的多项能力,迅速超越了DeepSeek-R1,成功登上并列第一的位置。这次更新不仅在数学(第6名)上有所突破,还在创意写作、编程、指令遵循、长文…...
如何选择合适的超参数来训练Bert和TextCNN模型?
选择合适的超参数来训练Bert和TextCNN模型是一个复杂但关键的过程,它会显著影响模型的性能。以下是一些常见的超参数以及选择它们的方法: 1. 与数据处理相关的超参数 最大序列长度(max_length) 含义:指输入到Bert模…...
C# SpinLock 类 使用详解
总目录 前言 SpinLock 是 C# 中一种轻量级的自旋锁,属于 System.Threading 命名空间,专为极短时间锁竞争的高性能场景设计。它通过忙等待(自旋)而非阻塞线程来减少上下文切换开销,适用于锁持有时间极短(如…...
【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题
【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题 【承接商业广告,如需商业合作请+v17740568442】 文章目录 【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题问题描述:解决方法方法一:手动中断并重启下载方法二:使用 Bash 脚本自动化下载在…...
机器学习所需要的数学知识【01】
总览 导数 行列式 偏导数 概理论 凸优化-梯度下降 kkt条件...
4.【线性代数】——矩阵的LU分解
四 矩阵的LU分解 1. AB的逆矩阵2. 转置矩阵3. ALU3.1 2x2矩阵3.2 3x3矩阵3.3 nxn的矩阵分解的次数? 1. AB的逆矩阵 { ( A B ) ( B − 1 A − 1 ) I ( B − 1 A − 1 ) ( A B ) I ⇒ ( A B ) − 1 B − 1 A − 1 \begin{cases} (AB)(B^{-1}A^{-1}) I\\ (B^{-1}A^…...
【清晰教程】本地部署DeepSeek-r1模型
【清晰教程】通过Docker为本地DeepSeek-r1部署WebUI界面-CSDN博客 目录 Ollama 安装Ollama DeepSeek-r1模型 安装DeepSeek-r1模型 Ollama Ollama 是一个开源工具,专注于简化大型语言模型(LLMs)的本地部署和管理。它允许用户在本地计算机…...
Spring Cloud工程搭建
目录 工程搭建 搭建父子工程 创建父工程 Spring Cloud版本 创建子项目-订单服务 声明项⽬依赖 和 项⽬构建插件 创建子项目-商品服务 声明项⽬依赖 和 项⽬构建插件 工程搭建 因为拆分成了微服务,所以要拆分出多个项目,但是IDEA只能一个窗口有一…...
使用Redis实现分布式锁,基于原本单体系统进行业务改造
一、单体系统下,使用锁机制实现秒杀功能,并限制一人一单功能 1.流程图: 2.代码实现: Service public class VoucherOrderServiceImpl extends ServiceImpl<VoucherOrderMapper, VoucherOrder> implements IVoucherOrderSe…...
【MediaTek】 T750 openwrt-23.05编 cannot find dependency libexpat for libmesode
MediaTek T750 T750 采用先进的 7nm 制程,高度集成 5G 调制解调器和四核 Arm CPU,提供较强的功能和配置,设备制造商得以打造精巧的高性能 CPE 产品,如固定无线接入(FWA)路由器和移动热点。 MediaTek T750 平台是一款综合的芯片组,集成了 5G SoC MT6890、12nm 制程…...
保姆级教程:用巴法云MQTT把ESP8266灯接入Home Assistant,小白也能5分钟搞定
零基础玩转智能家居:5分钟实现ESP8266灯控接入Home Assistant全攻略 第一次接触智能家居系统时,我被Home Assistant的强大功能所吸引,但面对复杂的配置过程却望而却步。直到发现巴法云MQTT这个"桥梁",才真正体会到智能家…...
开源插件逆向解析DG-Lab硬件协议,实现BLE蓝牙自定义控制
1. 项目概述:一个开源插件如何重塑硬件交互体验最近在折腾一些智能硬件和物联网项目时,我一直在寻找一种更灵活、更“软”的方式来控制那些通常需要依赖官方封闭SDK的硬件设备。相信很多开发者都有同感,厂商提供的开发套件往往功能受限、更新…...
支付宝异步通知验签:支付安全核心机制解析与开源工具实践
1. 项目概述:一个被忽视的支付安全“守门人” 如果你在开发一个涉及在线支付的网站或应用,无论是电商平台、知识付费还是会员订阅,支付成功后的异步通知(Notify)处理都是整个交易闭环中最关键、也最容易出错的环节。想…...
想要将AI Agent完全应用到自动化测试中,我们还需要做哪些努力?
过去一年,AI Agent的概念在测试领域被反复讨论。从Open-AutoGLM、AppAgent到Midscene、Mobile-Agent,各种开源方案和商业产品层出不穷。在各类技术分享和PR稿里,我们看到了太多"跑通了一个登录流程"、"成功点击了三个按钮&quo…...
技术突破:Windows原生APK安装器的架构设计与实现原理
技术突破:Windows原生APK安装器的架构设计与实现原理 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在移动应用开发与测试领域,传统Android模拟…...
别再只会apt了!在统信UOS/麒麟KOS上,用dpkg命令搞定微信、WPS等.deb包的安装与管理
国产系统进阶指南:dpkg命令在统信UOS/麒麟KOS中的高阶应用 当你在统信UOS或麒麟KOS上双击一个.deb文件却遭遇安装失败时,是否意识到这背后隐藏着一个更强大的工具世界?作为国产操作系统的深度用户,掌握dpkg命令不仅能解决90%的第三…...
别再装错了!保姆级教程:根据你的CUDA版本一键安装对应ONNXRuntime-GPU
深度学习部署避坑指南:精准匹配ONNXRuntime-GPU与CUDA版本的终极方案 刚接触模型部署的开发者们,往往会在环境配置阶段遭遇"版本地狱"——CUDA、cuDNN、框架版本之间的复杂依赖关系就像一团乱麻。上周有位同事花了整整两天时间排查一个模型推理…...
边走边聊 Python 3.8:Chapter 13:Flask 入门
Chapter 13:Flask 入门 从脚本到网页,是程序员世界观的第一次扩张。本章将带你理解路由、模板、静态文件、表单提交等 Web 开发的核心概念,并把你的知识库系统升级成一个真正可在浏览器访问的应用。你会体验到:当程序能被多人访问,它就拥有了新的生命。 “从脚本到网页,…...
kodustech/cli:模块化命令行工具集的设计哲学与工程实践
1. 项目概述:一个面向开发者的现代化命令行工具集如果你和我一样,每天的工作都离不开终端,那你肯定对命令行工具又爱又恨。爱的是它的高效和强大,一个命令就能完成图形界面里需要点半天鼠标的操作;恨的是,不…...
BSS段、Data段、Text段的具体含义和数据特性
目录 概述 1 BSS段、Data段、Text段介绍 1.1 对比表格 1.2 各个字段解释 1.2.1 Text段(代码段) 1.2.2 Data段(数据段) 1.2.3 BSS段(未初始化数据段) 2 高级特性与编译器行为 2.1 编译器优化策略…...
