当前位置：首页 > article >正文

百度百舸 x 昆仑芯，加速 GLM-5.1 从开源发布到规模化应用

article 2026/4/9 4:41:05

今日智谱正式开源新一代大模型 GLM 5.1。作为智谱 GLM 系列的最新力作GLM-5.1 的整体能力得到了全面提升。尤其在代码能力上在最接近真实软件开发的 SWE-bench Pro 基准测试中GLM-5.1 超过 GPT-5.4、Claude Opus 4.6刷新全球最佳成绩。此外GLM-5.1 还在长程任务Long Horizon Task处理能力上实现了显著突破有别于当前以分钟级交互为主的模型GLM-5.1 可在单次任务中持续、自主地工作长达 8 小时凭借自主规划、执行与迭代进化最终交付完整的工程级成果。百度百舸基于昆仑芯硬件平台第一时间完成了 GLM-5.1 的模型适配与集群部署助力最新开源大模型快速投入生产环境的大规模应用。百度百舸基于 Prefill-Decode 分离架构使用 CP (Context Parallelism) 上下文并行策略有效降低 128K 以上序列的计算负载和显存压力从而使得 GLM-5.1 能够更好的支撑 AI Agent、Coding 场景的长上下文与高并发需求。目前百度百舸与昆仑芯已具备「极速模型适配 - 全链路性能提升 - 高效规模化部署 - 超大规模集群落地」的完备能力。极速模型适配为实现高性能模型的快速开发与适配百度百舸联合昆仑芯开发了 vLLM-Kunlun Plugin将 vLLM 社区版与昆仑芯 XPU 后端完全解耦。用户通过 vLLM-Kunlun Plugin快速适配主流开源模型。依托 CUDA-like 特性vLLM-Kunlun Plugin 在软件层面「抹平」了硬件差异使开发者能够像使用通用 GPU 一样便捷地使用昆仑芯。同时vLLM-Playground 已全面支持昆仑芯即便是初学者也能通过直观的 Web UI 一键完成模型配置与推理。在适配效率上基于昆仑芯成熟的高性能算子库针对无新增算子的新模型如从 GLM-5.0 版本迭代至 GLM-5.1可实现 Day0 极速适配针对有新增算子的新模型也可在极短时间内完成新算子的开发与模型适配。再配合 torch_xray 精度对齐工具与 PyTorch Profiler 性能分析工具百度百舸为模型跑对与性能表现提供了全方位保障。全链路性能提升为了使国产模型充分发挥昆仑芯硬件算力百度百舸从算子、Kernel Launch、框架及系统等不同维度开展全链路优化 —— 依据昆仑芯硬件单元特性为各类算子制定专属优化策略借助 CUDA Graph 消除 CPU 调度开销显著降低 Kernel Launch 耗时针对框架原生的性能瓶颈开发了昆仑芯定制算子并在系统层面上大幅提升并行计算能力。同时在量化层面百度百舸推出了「模型层 - 框架层 - 硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化对不同来源的 INT8 / INT4 量化模型实现最佳模型部署与量化推理并基于昆仑芯 XPU 的计算特性定制化开发高性能量化专用算子库。在实际部署时采用 INT4 混合精度量化仅用单机昆仑芯 P800即可实现 754B 超大参数模型的 64K 长序列支持并将推理性能提升 20%。高效规模化部署在完成模型适配并实现性能提升的基础上百度百舸依托 PD 分离架构进一步优化集群推理效能并提供针对标准 8 卡与超节点硬件平台的标准化部署方案。在传统 8 卡服务器场景中通过 TP/EP 扩展仅需 6 台昆仑芯 P800 便可实现 GLM-5.0 模型 200K 的超长序列推理在超节点场景中相较同卡数的单机 8 卡场景Prefill 阶段性能提升超 16%Decode 阶段提升超 17%。同时百度百舸构建了精细化的 KV Cache 调度与加速引擎实现高达 80% 90% 的缓存命中率将 64K 序列的 TTFT 缩短 6.2 倍为 AI Agent 及复杂 Coding 等高并发、极长文本业务提供了稳健的响应保障。此外针对业务流量波动百度百舸对昆仑芯集群的弹性扩缩容能力进行了系统性优化将实例拉起时间从分钟级压缩至秒级。3.2 万卡集群与天池超节点目前百度智能云已自建完成多个大规模国产算力基础设施。2025 年 2 月百度智能云成功点亮昆仑芯 P800 万卡集群这是国内首个正式点亮的自研万卡 AI 集群。同年 4 月该集群规模进一步扩展至 3.2 万卡并已支撑百度千帆、百度蒸汽机等多个千卡级大模型训练任务。2025 年 4 月百度发布基于昆仑芯的天池超节点方案采用 32 卡一层点对点全互联架构通信延迟低至 1.5 μs方案兼容现有机房环境支持单人运维并依托昆仑芯与百度百舸的持续软硬协同优化实现极致的每 Token 成本。截至目前百度百舸基于昆仑芯完成了 GLM、Qwen、DeepSeek、MiniMax、Kimi、MiMo 等最新大模型的部署和应用让顶尖 AI 能力转化为产业发展动能。

百度百舸 x 昆仑芯，加速 GLM-5.1 从开源发布到规模化应用

相关文章：

百度百舸 x 昆仑芯，加速 GLM-5.1 从开源发布到规模化应用

OpenClaw技能扩展指南：为Qwen3-4B-Thinking添加公众号发布模块

分享我用稳卖AI浏览器实操出来的：AI选品降低试错成本思路

OpenClaw多模态开发：千问3.5-27B视觉API调用与结果解析

氧化镓高体积热容的特性，集成高介电常数界面的结侧冷却架构

OpenClaw+Qwen3-14b_int4_awq低成本方案：自建模型接口替代OpenAI API

韩国GaN外延片技术专家 IVWorks 宣布完成 450万美元的新一轮融资

OpenClaw+百川2-13B-4bits：智能客服模拟器搭建教程

、SEATA分布式事务——XA模式奖

OpenClaw模型配置详解：Kimi-VL-A3B-Thinking多模态接口接入

OpenClaw跨平台配置指南：千问3.5-35B-A3B-FP8在mac与Win下的对接

CodeMagicianT奈

从 Apache SeaTunnel 走向 ASF Member：一位开发者的长期主义样本悔

如何突破抖音视频下载限制：douyin-downloader的全方位解决方案

开源工具Free-NTFS-for-Mac：跨平台NTFS设备高效管理指南

Matlab七次非均匀B样条轨迹规划及基于NSGAII的优化方法

8大AI核心概念，让你秒懂智能体、多智能体系统、RAG、工作流、微调、函数调用、MCP和A2A！

2026 年深度测评：立体库品牌哪家权威？

09 华夏之光永存：带领华为盘古大模型走向世界巅峰

基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】

Chat Smith 7.1.0 vs 原生ChatGPT：哪个更适合你的日常AI需求？

高光谱成像基础（十一）异常检测算法 RX 与 KRX胸

c语言错题

AppImageLauncher：5分钟掌握Linux AppImage应用的终极管理方案

如何永久保存微信聊天记录？这个免费工具让你轻松备份和分析所有对话！[特殊字符]

Noise2Noise 去噪程序完整运行指南：从环境配置到模型部署

GIL终结者来了！Python原生无锁并发的3大工业级模式：MPMC队列、无等待哈希表、RCU读写分离实战（含perf火焰图验证）

C# 13主构造函数+Records+With表达式三重组合技（.NET 8.0正式版实测）：DTO层代码减少83%，但需绕过这个编译器Bug

【苍穹外卖】Mac前端开发环境搭建：从零到部署的完整指南

零基础玩转OpenClaw：Qwen3.5-9B镜像云端体验指南