解锁 DeepSeek 安全接入、稳定运行新路径
背景
目前,和 DeepSeek 相关的需求总结为两类:
- 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API + 算力服务,还有不少基于开源+家用计算和存储设备的本地部署方案,以分担 DeepSeek 官方的服务压力。
- 各行各业开始调用 DeepSeek API 来设计大模型应用,服务于企业内外部,关注应用的构建效率和稳定性。
此前,我们已经针对以上的第一点需求,发布了不少云端和本地的部署;本篇文章,将针对第二点需求,谈谈流量管理层的工程化方案。
DeepSeek 部署
由于 DeepSeek 开源了完整的 DeepSeek-R1 模型权重,企业可以将模型部署到自己的网络内,从而使得整个 AI 应用的数据链路都掌握在自己手里。
模型权重下载
可以通过魔搭社区 (https://modelscope.cn/) 下载模型权重。
由于完整的 DeepSeek-R1 模型有 671B 参数,运行其全量参数模型需要大量的 GPU 资源,可以考虑通过 int8/int4 等量化方式推理。同时,DeepSeek 也放出了几个不同规格的蒸馏模型,可以在较低配置的机器上部署。
部署方案
阿里云官方已经提供了多种部署方式,包括 PAI、GPU + ACK、魔搭社区+FC、Spring AI Alibaba + Ollama。本文不再详细展开,感兴趣的朋友可自行选择下方链接,了解详情。
- PAI:https://mp.weixin.qq.com/s/Ly9bseQxhmunlbePphRsnA
- 百炼:https://mp.weixin.qq.com/s/UgB90HfKlMDfarMugc5F5w
- 容器化部署(GPU + ACK):https://mp.weixin.qq.com/s/SSGD5G7KL8iYLy2jxh9FOg
- Serverless 部署(魔搭社区+FC):https://mp.weixin.qq.com/s/yk5t0oIv7XQR0ky6phiq6g
- 本地部署(Spring AI Alibaba + Ollama + Higress):https://mp.weixin.qq.com/s/-8z9OFHvn0A1ga2rFsmeww
通过 PAI 部署
本方案以 DeepSeek-R1-Distill-Qwen-7B 为例进行演示,用户通过人工智能平台 PAI 的 Model Gallery,无须写代码即可完成模型部署。用户也可以在 PAI-Model Gallery 中选择 DeepSeek-R1 等其他模型进行一键部署,系统将自动适配所需的实例规格。
部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868642
通过百炼部署
百炼提供了 DeepSeek 模型调用的 API,其中 DeepSeek-R1 与 DeepSeek-V3 分别有 100 万的免费 Token,另有多款开源 Qwen 及 Llama 蒸馏模型支持调用。
部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868889
通过 GPU 服务器部署
将 DeepSeek-R1 开源模型部署到 GPU 云服务器。在 GPU 云服务器上安装与配置 vLLM 和 Open WebUI。vLLM 负责托管 DeepSeek-R1 模型,Open WebUI 则为用户提供友好的交互界面。
部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868645
通过 Serverless 范式部署
通过云原生应用开发平台 CAP 部署 Ollama 和 Open WebUI 两个 FC 函数。Ollama 负责托管模型,它是基于 DeepSeek-R1 的推理能力,通过蒸馏技术将推理模式迁移到较小的 Qwen 模型上,从而在保持高效性能的同时降低了计算成本。
部署指南:https://www.aliyun.com/solution/tech-solution-deploy/2868644
本地部署
下载 Ollama,在项目中加入 spring-ai-ollama-spring-boot-starter 依赖,由于模型是通过 ollama 运行的,这里我们也加入,再将 ChatClientBean 注入就可以实现与 DS 模型聊天了。
部署指南:https://java2ai.com/blog/spring-ai-alibaba-ollama-deepseek
大模型应用落地过程中的常见需求
和部署 Web 应用一样,当我们在部署大模型应用时,也会遇到诸如流量突发与过载、网络波动与延迟、安全与合规问题、调用额度和成本管控、发布引起的线上故障等工程化难题,但是由于大模型应用的架构和 Web 应用有所不同,因此应对方案也会有所差异。如下图。

在《大模型推理全景图》一文中,我们分享了流量管控对大模型应用工程化的重要性,而 AI 网关已经成了大模型应用的标配,通过 AI 网关将部署的模型作为服务注册,API 暴露给需要的调用方,同时并具备了限流、鉴权、统计等能力。接下来,我们来看看 AI 网关如何解决大模型应用落地过程中的工程化难题。
Higress 是阿里云开源的一款高性能的网关,用于部署 Web 应用和大模型应用,并提供商业版服务,即阿里云云原生 API 网关,本文将以云原生 API 网关的控制台进行演示。

需求一:自建的 DeepSeek 服务并发有限,调用失败怎么兜底?
DeepSeek-R1 拥有 671B 的庞大参数,部署成本较高,可以部署一些 R1 系列的蒸馏模型进行兜底,如基于 Qwen 模型训练的 DeepSeek-R1-Distill-Qwen-32B [ 1] 是个不错的选择。
云原生 API 网关中的 AI 网关支持配置多个后端模型服务,且可以通过 Fallback 能力将失败的请求重新调度,如调用自部署的 DeepSeek-R1 失败后,就可以路由至一些参数较小的模型。此外,也可以选择路由至在线 API 服务以确保整体服务能力,如 DeepSeek-V3、Qwen-max 等。

如图,配置了 DeepSeek 的服务,Fallback 策略为调用 qwen-max。
需求二:自建的 DeepSeek 服务怎么保证内容安全?
DeepSeek 的 R1 系列开源模型的输出风格整体是偏“自由”的,如果使用其提供对外服务,难免会有对内容安全的担忧,一旦模型对一些敏感问题做了回复,可能会为企业带来一些额外的解释成本。
云原生 API 网关对接了阿里云内容安全,能够做到对大模型请求/响应的实时处理与内容封禁,阿里云内容安全通过了信通院的认证,能够提供强有力的 AI 内容安全保障。
开启内容安全后,此时如果发送违规内容,将会得到如下响应:
{"id": "chatcmpl-E45zRLc5hUCxhsda4ODEhjvkEycC9","object": "chat.completion","model": "from-security-guard","choices": [{"index": 0,"message": {"role": "assistant","content": "我不能处理隐私信息"},"logprobs": null,"finish_reason": "stop"}],"usage": {"prompt_tokens": 0,"completion_tokens": 0,"total_tokens": 0}
}
同时,在内容安全控制台可以查看每一个请求的审计日志:

需求三:我想把 API 授权给特定的用户使用,并且控制他们的额度
基于云原生 API 网关的消费者鉴权能力支持模型服务的分租,用户可以像模型服务商一样在网关上签发自己的 API Key 供用户使用,并能够控制消费者的调用权限和调用额度,配合可观测能力,还可以对每个消费者的 token 用量进行观测统计。
对于在线模型服务,则可以通过此功能屏蔽掉模型提供商的 API Key,从而做到 API Key 的分租。

需求四:现在已经有在使用别的 LLM,想切一点流量到 DeepSeek 看看效果
云原生 API 网关支持模型按比例灰度能力,便于用户在模型间迁移,如下图所示,请求流量将有 90% 被路由到 openai,10% 被路由到 DeepSeek,后续灰度的切换也只需修改配置并发布,不需要做任何代码层级的变更。

需求五:部署模型推理的成本很高,常见的请求能用缓存挡掉就好了
云原生 API 网关支持对 LLM 生产结果进行缓存,开启缓存能力后,一些常用的请求,如打招呼、询问产品能力等,均可通过命中的缓存直接回复,不会进入到后端模型,占用宝贵的推理资源。
上面的这些能力怎么看效果呢?
云原生 API 网关提供了更丰富的可观测能力,例如内容安全、限流、缓存等相关的监控。

此外,我们联合 SLS 提供了基于大模型对话的语义向量索引功能以及进阶的语义富化功能,可以实现话题聚类、意图识别、情绪识别、质量评估等能力,帮助用户逐步提升模型应用效果。

相关链接:
[1] DeepSeek-R1-Distill-Qwen-32B
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
相关文章:
解锁 DeepSeek 安全接入、稳定运行新路径
背景 目前,和 DeepSeek 相关的需求总结为两类: 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API 算力服务,还有不少基于开源家用计算和存储设备的本地部署方案,以分担 De…...
Spring Boot 配置属性 (Configuration Properties) 详解:优雅地管理应用配置
引言 Spring Boot 的 配置属性 (Configuration Properties) 是其另一个核心特性,它提供了一种 类型安全、结构化 的方式来管理应用的配置信息。 与自动配置相辅相成,配置属性允许开发者 以声明式的方式将外部配置 (如 properties 文件、YAML 文件、环境…...
【LangChain入门 1】安装
文章目录 一、安装LangChain二、安装Ollama三、Ollama下载DeepSeekR1-7b模型 本学习系列以Ollama推理后端作为大语言模型,展开对LangChain框架的入门学习。 模型采用deepseek-r1:7b。 毕竟是免费开源的,下载过程耐心等待即可。 如果可以连接外网&#x…...
HTML中required与aria required区别
在HTML中,required和aria-required"true"都用于标识表单字段为必填项,但它们的作用和适用场景有所不同: 1. required 属性 • 功能属性:属于HTML5原生属性,直接控制表单验证逻辑。 • 作用: • …...
IvorySQL 增量备份与合并增量备份功能解析
1. 概述 IvorySQL v4 引入了块级增量备份和增量备份合并功能,旨在优化数据库备份与恢复流程。通过 pg_basebackup 工具支持增量备份,显著降低了存储需求和备份时间。同时,pg_combinebackup 工具能够将多个增量备份合并为单个完整备份&#x…...
【css酷炫效果】纯CSS实现故障文字特效
【css酷炫效果】纯CSS实现故障文字特效 缘创作背景html结构css样式完整代码基础版进阶版(3D效果) 效果图 想直接拿走的老板,链接放在这里:https://download.csdn.net/download/u011561335/90492053 缘 创作随缘,不定时更新。 创作背景 刚…...
SpringSecurity配置(自定义认证过滤器)
文末有本篇文章的项目源码文件可供下载学习 在这个案例中,我们已经实现了自定义登录URI的操作,登录成功之后,我们再次访问后端中的API的时候要在请求头中携带token,此时的token是jwt字符串,我们需要将该jwt字符串进行解析,查看解析后的User对象是否处于登录状态.登录状态下,将…...
设计模式(行为型)-备忘录模式
目录 定义 类图 角色 角色详解 (一)发起人角色(Originator) (二)备忘录角色(Memento) (三)备忘录管理员角色(Caretaker)…...
WebAssembly 技术在逆向爬虫中的应用研究
一、引言 1.1 Web 技术发展与性能需求 在当今数字化浪潮中,Web 应用已成为人们生活和工作中不可或缺的一部分。从简单的静态网页到功能复杂的单页面应用(SPA),Web 技术的发展日新月异。随着用户对 Web 应用交互性、实时性和复杂性的要求不断提高,传统的 Web 开发技术面临着…...
Advanced Intelligent Systems 软体机器手助力截肢者玩转鼠标
随着科技的不断进步,假肢技术在改善截肢者生活质量方面取得了显著成就。然而,截肢群体在就业方面仍面临巨大困难,适龄截肢群体的就业率仅为健全群体的一半。现有的肌电控制假肢手在与计算机交互时存在诸多挑战,特别是截肢者在使用…...
pyhton中 字典 元组 列表 集合之间的互相转换
在 Python 中,集合(set)、字典(dict)、元组(tuple)、列表(list)和序列(如字符串 str)之间可以互相转换。以下是它们之间转换的详细方法,涵盖从基础到高级的用法。 1. 列表(list)与其他类型的转换 1.1 列表 → 集合 my_list = [1, 2, 2, 3...
每日Attention学习27——Patch-based Graph Reasoning
模块出处 [NC 25] [link] Graph-based context learning network for infrared small target detection 模块名称 Patch-based Graph Reasoning (PGR) 模块结构 模块特点 使用图结构更好的捕捉特征的全局上下文将图结构与特征切片(Patching)相结合,从而促进全局/…...
理一理Mysql日期
在 MySQL 数据库中,关于日期和时间的类型主要有以下几种: 1. **DATE**: 仅存储日期部分,格式为 YYYY-MM-DD,例如 2023-10-31。 2. **TIME**: 仅存储时间部分,格式为 HH:MM:SS,例如 14:30:00。 3. **DATE…...
数据结构:栈的应用举例——括号匹配的检验
2. 括号匹配的检验 如果表达式中包含括号,当程序中含有这类表达式时,在代码编译过程中,必然会检查括号是否匹配,这是一项必需的语法检查环节。 (1)迭代版 此处假设表达式中只含有左、右圆括号࿰…...
DeepSeek成功的秘诀:谈谈DeepSeek的算法创新
李升伟 整理 DeepSeek 是一家专注于人工智能技术研发的公司,其算法创新在业界引起了广泛关注。以下是 DeepSeek 使用的核心算法及其特点的详细解析: 1. 原生稀疏注意力(NSA)算法 DeepSeek 提出的 原生稀疏注意力(Na…...
初始OpenCV
OpenCV 是一个功能强大、应用广泛的计算机视觉库,它为开发人员提供了丰富的工具和算法,可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展,OpenCV 也将会继续发挥重要的作用。 OpenCV 提供了大量的计算机视觉算法和图像处理工具,广泛应用于图像和视频的处理…...
深圳南柯电子|医疗设备EMC检测测试整改:保障患者安全的第一步
在医疗设备领域,电磁兼容性(EMC)是确保设备安全、有效运行的关键指标。随着医疗技术的飞速发展,医疗设备日益复杂,其电磁环境也愈发复杂多变。EMC检测测试及整改因此成为医疗设备研发、生产、销售过程中不可或缺的一环…...
【笔记】计算机网络——数据链路层
概述 链路是从一个结点到相邻结点的物理路线,数据链路则是在链路的基础上增加了一些必要的硬件和软件实现 数据链路层位于物理层和网络层之间,它的核心任务是在直接相连的节点(如相邻的交换机,路由器)之间提供可靠且…...
Rust语言介绍和猜数字游戏的实现
文章目录 Rust语言介绍和猜数字游戏的实现cargo是什么使用Rust编写猜数字 Rust语言介绍和猜数字游戏的实现 Rust语言是一种系统编程语言,核心强调安全性、并发性以及高性能,由类似于C/C的底层控制能力,性能也非常接近,Rust有一些…...
STM32-汇编
学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表; 初始化各工作模…...
利用通义灵码AI在VS Code中快速开发扫雷游戏:Qwen2.5-Max模型的应用实例
引言 随着人工智能技术的不断进步,开发过程中的自动化程度也在逐步提高。阿里云推出的通义灵码AI程序员,作为一款创新型的智能编程助手,现已全面上线并兼容VS Code、JetBrains IDEs等多种开发环境。本文将介绍如何利用最新的Qwen2.5-Max模型…...
202503执行jmeter压测数据库(ScyllaDB,redis,lindorm,Mysql)
一、Mysql 1 、 准备MySQL 连接内容 2 、 下载连接jar包 准备 mysql-connector-java-5.1.49.jar 放到 D:\apache-jmeter-5.6.3\lib\ext 目录下面; 3 、 启动jmeter ,配置脚本 添加线程组---》JDBC Connection Configuration---》JDBC Request---》查看结果树。 1)测…...
【QT 多线程示例】两种多线程实现方式
文章目录 多线程实现方式一:继承QThread类方式二: 使用QObject::moveToThread()方法 多线程实现 在Qt中,实现多线程编程有两种常见的方式,它们分别是通过继承QThread类和使用QObject::moveToThread()方法。 方式一:继…...
excel文件有两列,循环读取文件两列赋值到字典列表。字典的有两个key,分别为question和answer。将最终结果追加到json文件
import pandas as pd import json import osdef excel_to_json_append(excel_path, json_path):# 1. 读取Excel数据到字典列表df pd.read_excel(excel_path, usecols["question", "answer"])new_data [{"question": str(row["question&qu…...
以太网 MAC 帧格式
文章目录 以太网 MAC 帧格式以太网帧间隔参考 本文为笔者学习以太网对网上资料归纳整理所做的笔记,文末均附有参考链接,如侵权,请联系删除。 以太网 MAC 帧格式 以太网技术的正式标准是 IEEE 802.3,它规定了以太网传输数据的帧结…...
【PCB工艺】基础:电子元器件
电子原理图(Schematic Diagram)是电路设计的基础,理解电子元器件和集成电路(IC)的作用,是画好原理图的关键。 本专栏将系统讲解 电子元器件分类、常见 IC、电路设计技巧,帮助你快速掌握电子电路…...
docker 部署elk 设置账号密码
1. 先把 kibana 停掉 2.进入es 容器 docker exec -it 75895a078cbc /bin/bash 找到 bin 目录 执行 ./elasticsearch-setup-passwords interactive 全部设置一样的密码 ,不一样自己要记住,设置成功会输出如下内容 Changed password for user [apm_system] Chang…...
【微信小程序(云开发模式)变通实现DeepSeek支持语音】
整体架构 前端(微信小程序): 使用微信小程序云开发能力,实现录音功能。将录音文件上传到云存储。调用云函数进行语音识别和 DeepSeek 处理。界面模仿 DeepSeek,支持文本编辑。 后端(云函数 Node.js&#…...
从WebRTC到嵌入式:EasyRTC如何借助大模型提升音视频通信体验
随着人工智能技术的快速发展,WebRTC与大模型的结合正在为音视频通信领域带来革命性的变革。WebRTC作为一种开源实时通信技术,以其低延迟、跨平台兼容性和强大的音视频处理能力,成为智能硬件和物联网设备的重要技术支撑。 而EasyRTC作为基于W…...
前端样式库推广——TailwindCss
官方网址: https://tailwindcss.com/docs/installation/using-vite 中文官方文档:https://www.tailwindcss.cn/ github地址:tailwindcss 正在使用tailwindcss的网站:https://tailwindcss.com/showcase 一看github,竟然…...
