阿里云一键部署DeepSeek-V3、DeepSeek-R1模型
目录
支持的模型列表
模型部署
模型调用
WebUI使用
在线调试
API调用
关于成本
FAQ
点击部署后服务长时间等待
服务部署成功后,调用API返回404
请求太长导致EAS网关超时
部署完成后,如何在EAS的在线调试页面调试
模型部署之后没有“联网搜索”功能
模型服务如何集成到AI应用(以Dify为例)
DeepSeek-V3是由深度求索公司推出的一款拥有6710亿参数的专家混合(MoE)大语言模型,DeepSeek-R1是基于DeepSeek-V3-Base训练的高性能推理模型。Model Gallery提供了BladeLLM、SGLang和vLLM加速部署功能,帮助您一键部署DeepSeek-V3和DeepSeek-R1系列模型。
支持的模型列表
说明
DeepSeek-R1、DeepSeek-V3满血版模型的参数量较大(671B),所需配置和成本较高(8卡96G显存以上)。建议您选择蒸馏版模型(机器资源较充足、部署成本较低)。
根据测试,DeepSeek-R1-Distill-Qwen-32B模型的效果和成本较优,适合云上部署,可尝试作为DeepSeek-R1的替代模型。您也可以选择7B、8B、14B等其他蒸馏模型部署,Model Gallery还提供了模型评测功能,可以评测模型实际效果(评测入口在模型详情页右上角)。
表中给出的是最低所需配置机型,在Model Gallery的部署页面的资源规格选择列表中系统已自动过滤出模型可用的公共资源规格。
模型 | 最低配置 | 支持的最大Token数 | |||
部署方式为BladeLLM加速(推荐) | 部署方式为SGLang加速(推荐) | 部署方式为vLLM加速 | 部署方式为标准部署 | ||
DeepSeek-R1 | 8卡GU120(8 * 96 GB显存) | 不支持 | 163840 | 4096 | 不支持 |
DeepSeek-V3 | 8卡GU120(8 * 96 GB显存) | 不支持 | 163840 | 4096 | 2000 |
DeepSeek-R1-Distill-Qwen-1.5B | 1卡A10(24 GB显存) | 131072 | 不支持 | 131072 | 131072 |
DeepSeek-R1-Distill-Qwen-7B | 1卡A10(24 GB显存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Llama-8B | 1卡A10(24 GB显存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Qwen-14B | 1卡GPU L(48 GB显存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Qwen-32B | 2卡GPU L(2 * 48 GB显存) | 131072 | 不支持 | 32768 | 131072 |
DeepSeek-R1-Distill-Llama-70B | 2卡GU120(2 * 96 GB显存) | 131072 | 不支持 | 32768 | 131072 |
部署方式说明:
-
BladeLLM 加速部署:BladeLLM是阿里云 PAI 自研的高性能推理框架。
-
SGLang 加速部署:SGLang是一个适用于大型语言模型和视觉语言模型的快速服务框架。
-
vLLM 加速部署:vLLM是一个业界流行的用于LLM推理加速的库。
-
标准部署:不使用任何推理加速的标准部署。
推荐使用加速部署(BladeLLM、SGLang),性能和支持的最大Token数都会更优。
加速部署仅支持API调用方式,标准部署支持API调用方式及WebUI chat界面。
模型部署
-
进入Model Gallery页面。
-
登录PAI控制台。
-
在顶部左上角根据实际情况选择地域。
-
在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间。
-
在左侧导航栏选择快速开始 > Model Gallery。
-
-
在Model Gallery页面右侧的模型列表中,找到需要部署的模型卡片,例如DeepSeek-R1-Distill-Qwen-32B模型,单击进入模型详情页面。
-
单击右上角部署,选择部署方式和部署资源后,即可一键部署,生成一个 PAI-EAS 服务。
说明
如果部署DeepSeek-R1或DeepSeek-V3模型,您可以选择的机型包括:
ml.gu8v.c192m1024.8-gu120、ecs.gn8v-8x.48xlarge(公共资源,库存可能较紧张)
ecs.ebmgn8v.48xlarge(无法通过公共资源使用,请购买EAS专属资源)
模型调用
您可以通过下表了解不同部署方式支持的模型调用方式。
BladeLLM部署 | SGLang部署 | vLLM部署 | 标准部署 | |
WebUI | 不支持,需本地启动WebUI。详情请参见WebUI使用。 | 支持 | ||
在线调试 | 支持。详情请参见在线调试。 | |||
API调用 | 所有部署方式都支持通过以下接口发送HTTP POST请求调用模型。
注意,标准部署还支持Endpoint后面不添加任何内容直接调用。详情请参见API调用。 |
重要
使用BladeLLM加速部署方式,如果不指定max_tokens参数,默认会按照max_tokens=16进行截断。建议您根据实际需要调整请求参数max_tokens。
WebUI使用
如果是标准部署,支持Web应用。在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在服务详情页面右上角单击查看WEB应用,即可通过ChatLLM WebUI进行实时交互。
非标准部署,可下载Web UI代码,在本地启动一个Web UI。
注意:BladeLLM和vLLM、SGLang部署使用的Web UI代码不同。
-
BladeLLM:BladeLLM_github、 BladeLLM_oss
-
vLLM、SGLang:vLLM_github、vLLM_oss
python webui_client.py --eas_endpoint "<EAS API Endpoint>" --eas_token "<EAS API Token>"
在线调试
在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,在在线测试模块中找到EAS在线调试的入口,使用如下示例数据测试接口。
注意:在线调试中已经填充的路径是以下示例中的<EAS_ENDPOINT>
。
单击查看请求数据示例
API调用
-
在PAI-Model Gallery > 任务管理 > 部署任务中单击已部署的服务名称,进入服务详情页。
-
单击查看调用信息获取调用的 Endpoint 和 Token。
-
单击预训练模型跳转到Model Gallery的模型介绍页查看API调用方式的详细说明。
关于成本
-
由于DeepSeek-V3和DeepSeek-R1模型较大,模型部署费用较高,建议用于正式生产环境。
-
您还可以选择部署经过知识蒸馏的轻量级模型,这些模型的参数量显著减少,从而大幅降低部署成本。
-
如果您从未使用过EAS,可以前往阿里云试用中心领取PAI-EAS试用资源。领取成功后,可以在Model Gallery选择最低配置为 A10 的模型(如DeepSeek-R1-Distill-Qwen-7B)进行部署,并在部署时修改资源规格为试用活动中的机型。
-
对于长期使用的模型,您可以采用公共资源组搭配节省计划的方式,或者购买预付费EAS资源组来节约成本。
-
如果是非生产环境使用,可以在部署时打开竞价模式,但需满足一定条件才能竞价成功,且有资源不稳定的风险。
FAQ
点击部署后服务长时间等待
可能的原因:
-
当前地域下机器资源不足。
-
由于模型较大,模型加载耗时较长(对于DeepSeek-R1、DeepSeek-V3这样的大模型,需要20-30min)。
您可以耐心等待观察一段时间,如果服务仍长时间无法正常启动运行,建议尝试以下步骤:
-
进入任务管理-部署任务,查看部署任务详情页。在页面右上角单击更多 > 更多信息,跳转到PAI-EAS的模型服务详情,查看服务实例状态。
-
关闭当前服务,并在控制台左上角切换到其他地域重新部署服务。
说明
对于DeepSeek-R1、DeepSeek-V3这样的超大参数量模型,需要8卡GPU才能启动服务(资源库存较紧张),您可以选择部署DeepSeek-R1-Distill-Qwen-7B等蒸馏小模型(资源库存较富裕)。
服务部署成功后,调用API返回404
请检查调用的URL是否加上了OpenAI的API后缀,例如v1/chat/completions。详情可以参考模型主页调用方式介绍。
请求太长导致EAS网关超时
EAS默认网关的请求超时时间是180秒,如果需要延长超时时间,可以配置EAS专属网关,并提交工单调整专属网关的请求超时时间,最大可以调整到600秒。
部署完成后,如何在EAS的在线调试页面调试
详情请参见如何在线调试已部署的模型?
模型部署之后没有“联网搜索”功能
“联网搜索”功能并不是仅通过直接部署一个模型服务就能实现的,而是需要基于该模型服务自行构建一个AI应用(Agent)来完成。
通过PAI的大模型应用开发平台LangStudio,可以构建一个联网搜索的AI应用,详情请参考Chat With Web Search应用流。
模型服务如何集成到AI应用(以Dify为例)
以DeepSeek-R1-Distill-Qwen-7B模型为例,建议采用vLLM加速部署。
-
在Dify中编辑“模型供应商”,添加更多模型供应商“OpenAI-API-compatible”:
-
模型名称填写“DeepSeek-R1-Distill-Qwen-7B”,API Key填写EAS服务Token,API endpoint URL填写EAS服务endpoint(注意末尾加上/v1)。EAS服务Token和endpoint获取方式:进入Model Gallery的任务管理-部署任务,在部署任务详情页面单击查看调用信息。
相关文章:

阿里云一键部署DeepSeek-V3、DeepSeek-R1模型
目录 支持的模型列表 模型部署 模型调用 WebUI使用 在线调试 API调用 关于成本 FAQ 点击部署后服务长时间等待 服务部署成功后,调用API返回404 请求太长导致EAS网关超时 部署完成后,如何在EAS的在线调试页面调试 模型部署之后没有“联网搜索…...

分享一款AI绘画图片展示和分享的小程序
🎨奇绘图册 【开源】一款帮AI绘画爱好者维护绘图作品的小程序 查看Demo 反馈 github 文章目录 前言一、奇绘图册是什么?二、项目全景三、预览体验3.1 截图示例3.2 在线体验 四、功能介绍4.1 小程序4.2 服务端 五、安装部署5.1 快速开始~~5.2 手动部…...
【练习】【双指针】力扣热题100 283. 移动零
题目 给定一个数组 nums,编写一个函数将所有 0 移动到数组的末尾,同时保持非零元素的相对顺序。 请注意 ,必须在不复制数组的情况下原地对数组进行操作。 示例 1: 输入: nums [0,1,0,3,12] 输出: [1,3,12,0,0] 示例 2: 输入: nums [0] 输出…...

QT 互斥锁
一、概述 1、在多线程编程中,为了防止多个线程同时访问共享资源而导致的不确定性和错误,经常会使用互斥锁(Mutex)进行保护。 2、QMutex是Qt提供的一个互斥锁类,用于确保在同一时间只有一个线程访问共享资源。 3、QM…...
什么是算法的空间复杂度和时间复杂度,分别怎么衡量。
1. 时间复杂度 时间复杂度衡量的是算法运行时间与输入规模之间的关系。它通常用大O记号(Big O Notation)表示,例如 O(1)、O(n)、O(n2) 等。 衡量方法: 常数时间复杂度 O(1):无论输入规模如何,算法的执行时…...

VMware Workstation 17.0 Pro创建虚拟机并安装Ubuntu22.04与ubuntu20.04(双版本同时存在)《包含小问题总结》
目录 一、创建虚拟机 二、下载安装22.04 三、一些配置问题总结(小屏,网络,复制贴贴等) 1、网络问题 2、sudo apt install net-tools出现无法定为软件包 3、小屏与ubuntu虚拟机与windows系统之间复制粘贴 4、安装终端:Termi…...

Windows 10 ARM工控主板CAN总线实时性能测试
在常规的Windows系统中支持CAN总线应用,需要外接CAN总线适配器,通常为USB转CAN模块或PCI接口CAN卡。实时性本身是CAN总线的显著特性之一,但由于Windows并非实时操作系统,应用程序容易受到系统CPU负载影响,导致调度周期…...
如何在不依赖函数调用功能的情况下结合工具与大型语言模型
当大型语言模型(LLM)原生不支持函数调用功能时,如何实现智能工具调度?本文通过自然语言解析结构化输出控制的方法来实现。 GitHub代码地址 核心实现步骤 定义工具函数 使用tool装饰器声明可调用工具: from langcha…...

【Linux AnolisOS】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
AnolisOS 8中使用Docker部署(全)_anolis安装docker-CSDN博客 从在虚拟机安装龙蜥到安装docker上面这篇文章写的很清晰了,我重点讲述我解决文章里面问题一些的方法。 问题1: docker: Get https://registry-1.docker.io/v2/: net/h…...

【Elasticsearch】Mapping概述
以下是Elasticsearch中提到的关于Mapping的各模块概述: --- 1.Dynamic mapping(动态映射) 动态映射是指Elasticsearch在索引文档时,自动检测字段类型并创建字段映射的过程。当你首次索引一个文档时,Elasticsearch会根…...

GPT-4o悄然升级:能力与个性双突破,AI竞技场再掀波澜
在大模型竞技场中,GPT-4o悄悄发布了全新版本,凭借其卓越的多项能力,迅速超越了DeepSeek-R1,成功登上并列第一的位置。这次更新不仅在数学(第6名)上有所突破,还在创意写作、编程、指令遵循、长文…...
如何选择合适的超参数来训练Bert和TextCNN模型?
选择合适的超参数来训练Bert和TextCNN模型是一个复杂但关键的过程,它会显著影响模型的性能。以下是一些常见的超参数以及选择它们的方法: 1. 与数据处理相关的超参数 最大序列长度(max_length) 含义:指输入到Bert模…...
C# SpinLock 类 使用详解
总目录 前言 SpinLock 是 C# 中一种轻量级的自旋锁,属于 System.Threading 命名空间,专为极短时间锁竞争的高性能场景设计。它通过忙等待(自旋)而非阻塞线程来减少上下文切换开销,适用于锁持有时间极短(如…...

【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题
【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题 【承接商业广告,如需商业合作请+v17740568442】 文章目录 【linux】在 Linux 上部署 DeepSeek-r1:32/70b:解决下载中断问题问题描述:解决方法方法一:手动中断并重启下载方法二:使用 Bash 脚本自动化下载在…...

机器学习所需要的数学知识【01】
总览 导数 行列式 偏导数 概理论 凸优化-梯度下降 kkt条件...
4.【线性代数】——矩阵的LU分解
四 矩阵的LU分解 1. AB的逆矩阵2. 转置矩阵3. ALU3.1 2x2矩阵3.2 3x3矩阵3.3 nxn的矩阵分解的次数? 1. AB的逆矩阵 { ( A B ) ( B − 1 A − 1 ) I ( B − 1 A − 1 ) ( A B ) I ⇒ ( A B ) − 1 B − 1 A − 1 \begin{cases} (AB)(B^{-1}A^{-1}) I\\ (B^{-1}A^…...

【清晰教程】本地部署DeepSeek-r1模型
【清晰教程】通过Docker为本地DeepSeek-r1部署WebUI界面-CSDN博客 目录 Ollama 安装Ollama DeepSeek-r1模型 安装DeepSeek-r1模型 Ollama Ollama 是一个开源工具,专注于简化大型语言模型(LLMs)的本地部署和管理。它允许用户在本地计算机…...

Spring Cloud工程搭建
目录 工程搭建 搭建父子工程 创建父工程 Spring Cloud版本 创建子项目-订单服务 声明项⽬依赖 和 项⽬构建插件 创建子项目-商品服务 声明项⽬依赖 和 项⽬构建插件 工程搭建 因为拆分成了微服务,所以要拆分出多个项目,但是IDEA只能一个窗口有一…...

使用Redis实现分布式锁,基于原本单体系统进行业务改造
一、单体系统下,使用锁机制实现秒杀功能,并限制一人一单功能 1.流程图: 2.代码实现: Service public class VoucherOrderServiceImpl extends ServiceImpl<VoucherOrderMapper, VoucherOrder> implements IVoucherOrderSe…...
【MediaTek】 T750 openwrt-23.05编 cannot find dependency libexpat for libmesode
MediaTek T750 T750 采用先进的 7nm 制程,高度集成 5G 调制解调器和四核 Arm CPU,提供较强的功能和配置,设备制造商得以打造精巧的高性能 CPE 产品,如固定无线接入(FWA)路由器和移动热点。 MediaTek T750 平台是一款综合的芯片组,集成了 5G SoC MT6890、12nm 制程…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:
一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...

智慧工地云平台源码,基于微服务架构+Java+Spring Cloud +UniApp +MySql
智慧工地管理云平台系统,智慧工地全套源码,java版智慧工地源码,支持PC端、大屏端、移动端。 智慧工地聚焦建筑行业的市场需求,提供“平台网络终端”的整体解决方案,提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...

2.Vue编写一个app
1.src中重要的组成 1.1main.ts // 引入createApp用于创建应用 import { createApp } from "vue"; // 引用App根组件 import App from ./App.vue;createApp(App).mount(#app)1.2 App.vue 其中要写三种标签 <template> <!--html--> </template>…...

MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...

学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...
Linux离线(zip方式)安装docker
目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...
tomcat指定使用的jdk版本
说明 有时候需要对tomcat配置指定的jdk版本号,此时,我们可以通过以下方式进行配置 设置方式 找到tomcat的bin目录中的setclasspath.bat。如果是linux系统则是setclasspath.sh set JAVA_HOMEC:\Program Files\Java\jdk8 set JRE_HOMEC:\Program Files…...
多元隐函数 偏导公式
我们来推导隐函数 z z ( x , y ) z z(x, y) zz(x,y) 的偏导公式,给定一个隐函数关系: F ( x , y , z ( x , y ) ) 0 F(x, y, z(x, y)) 0 F(x,y,z(x,y))0 🧠 目标: 求 ∂ z ∂ x \frac{\partial z}{\partial x} ∂x∂z、 …...