当前位置: 首页 > article >正文

百度百舸 x 昆仑芯,加速 GLM-5.1 从开源发布到规模化应用

今日智谱正式开源新一代大模型 GLM 5.1。作为智谱 GLM 系列的最新力作GLM-5.1 的整体能力得到了全面提升。尤其在代码能力上在最接近真实软件开发的 SWE-bench Pro 基准测试中GLM-5.1 超过 GPT-5.4、Claude Opus 4.6刷新全球最佳成绩。此外GLM-5.1 还在长程任务Long Horizon Task处理能力上实现了显著突破有别于当前以分钟级交互为主的模型GLM-5.1 可在单次任务中持续、自主地工作长达 8 小时凭借自主规划、执行与迭代进化最终交付完整的工程级成果。百度百舸基于昆仑芯硬件平台第一时间完成了 GLM-5.1 的模型适配与集群部署助力最新开源大模型快速投入生产环境的大规模应用。百度百舸基于 Prefill-Decode 分离架构使用 CP (Context Parallelism) 上下文并行策略有效降低 128K 以上序列的计算负载和显存压力从而使得 GLM-5.1 能够更好的支撑 AI Agent、Coding 场景的长上下文与高并发需求。目前百度百舸与昆仑芯已具备「极速模型适配 - 全链路性能提升 - 高效规模化部署 - 超大规模集群落地」的完备能力。极速模型适配为实现高性能模型的快速开发与适配百度百舸联合昆仑芯开发了 vLLM-Kunlun Plugin将 vLLM 社区版与昆仑芯 XPU 后端完全解耦。用户通过 vLLM-Kunlun Plugin快速适配主流开源模型。依托 CUDA-like 特性vLLM-Kunlun Plugin 在软件层面「抹平」了硬件差异使开发者能够像使用通用 GPU 一样便捷地使用昆仑芯。同时vLLM-Playground 已全面支持昆仑芯即便是初学者也能通过直观的 Web UI 一键完成模型配置与推理。在适配效率上基于昆仑芯成熟的高性能算子库针对无新增算子的新模型如从 GLM-5.0 版本迭代至 GLM-5.1可实现 Day0 极速适配针对有新增算子的新模型也可在极短时间内完成新算子的开发与模型适配。再配合 torch_xray 精度对齐工具与 PyTorch Profiler 性能分析工具百度百舸为模型跑对与性能表现提供了全方位保障。全链路性能提升为了使国产模型充分发挥昆仑芯硬件算力百度百舸从算子、Kernel Launch、框架及系统等不同维度开展全链路优化 —— 依据昆仑芯硬件单元特性为各类算子制定专属优化策略借助 CUDA Graph 消除 CPU 调度开销显著降低 Kernel Launch 耗时针对框架原生的性能瓶颈开发了昆仑芯定制算子并在系统层面上大幅提升并行计算能力。同时在量化层面百度百舸推出了「模型层 - 框架层 - 硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化对不同来源的 INT8 / INT4 量化模型实现最佳模型部署与量化推理并基于昆仑芯 XPU 的计算特性定制化开发高性能量化专用算子库。在实际部署时采用 INT4 混合精度量化仅用单机昆仑芯 P800即可实现 754B 超大参数模型的 64K 长序列支持并将推理性能提升 20%。高效规模化部署在完成模型适配并实现性能提升的基础上百度百舸依托 PD 分离架构进一步优化集群推理效能并提供针对标准 8 卡与超节点硬件平台的标准化部署方案。在传统 8 卡服务器场景中通过 TP/EP 扩展仅需 6 台昆仑芯 P800 便可实现 GLM-5.0 模型 200K 的超长序列推理在超节点场景中相较同卡数的单机 8 卡场景Prefill 阶段性能提升超 16%Decode 阶段提升超 17%。同时百度百舸构建了精细化的 KV Cache 调度与加速引擎实现高达 80% 90% 的缓存命中率将 64K 序列的 TTFT 缩短 6.2 倍为 AI Agent 及复杂 Coding 等高并发、极长文本业务提供了稳健的响应保障。此外针对业务流量波动百度百舸对昆仑芯集群的弹性扩缩容能力进行了系统性优化将实例拉起时间从分钟级压缩至秒级。3.2 万卡集群与天池超节点目前百度智能云已自建完成多个大规模国产算力基础设施。2025 年 2 月百度智能云成功点亮昆仑芯 P800 万卡集群这是国内首个正式点亮的自研万卡 AI 集群。同年 4 月该集群规模进一步扩展至 3.2 万卡并已支撑百度千帆、百度蒸汽机等多个千卡级大模型训练任务。2025 年 4 月百度发布基于昆仑芯的天池超节点方案采用 32 卡一层点对点全互联架构通信延迟低至 1.5 μs方案兼容现有机房环境支持单人运维并依托昆仑芯与百度百舸的持续软硬协同优化实现极致的每 Token 成本。截至目前百度百舸基于昆仑芯完成了 GLM、Qwen、DeepSeek、MiniMax、Kimi、MiMo 等最新大模型的部署和应用让顶尖 AI 能力转化为产业发展动能。

相关文章:

百度百舸 x 昆仑芯,加速 GLM-5.1 从开源发布到规模化应用

今日,智谱正式开源新一代大模型 GLM 5.1。作为智谱 GLM 系列的最新力作,GLM-5.1 的整体能力得到了全面提升。尤其在代码能力上:在最接近真实软件开发的 SWE-bench Pro 基准测试中,GLM-5.1 超过 GPT-5.4、Claude Opus 4.6&#xff…...

OpenClaw技能扩展指南:为Qwen3-4B-Thinking添加公众号发布模块

OpenClaw技能扩展指南:为Qwen3-4B-Thinking添加公众号发布模块 1. 为什么需要公众号发布技能 上周我尝试用OpenClaw自动整理技术文档时,突然想到个痛点:每次写完文章都要手动复制到公众号后台,调整格式、上传封面、设置摘要&…...

分享我用稳卖AI浏览器实操出来的:AI选品降低试错成本思路

很多跨境卖家都有类似经历:一个产品在决定要不要做的时候,表面上看信息不少,但真正落到“为什么选它”这个问题上,判断依据往往并不够扎实。有时候是看到某个平台趋势不错,有时候是看到竞品最近销量有变化,…...

OpenClaw多模态开发:千问3.5-27B视觉API调用与结果解析

OpenClaw多模态开发:千问3.5-27B视觉API调用与结果解析 1. 为什么选择OpenClaw对接多模态模型 去年我在整理个人照片库时,发现手动标注几千张旅行照片几乎是不可能完成的任务。直到偶然接触到OpenClaw和千问3.5-27B的组合,才找到自动化解决…...

氧化镓高体积热容的特性,集成高介电常数界面的结侧冷却架构

速览:技术背景与挑战背景: 虽然宽禁带(WBG)半导体(如SiC、GaN)已取得进展,但超宽禁带(UWBG)材料如氧化镓(Ga₂O₃)具有更高的理论极限。痛点&…...

OpenClaw+Qwen3-14b_int4_awq低成本方案:自建模型接口替代OpenAI API

OpenClawQwen3-14b_int4_awq低成本方案:自建模型接口替代OpenAI API 1. 为什么需要本地模型替代OpenAI API 去年我在开发一个自动化内容处理系统时,遇到了一个棘手的问题:OpenAI API的Token消耗速度远超预期。当时系统需要处理大量长文本&a…...

韩国GaN外延片技术专家 IVWorks 宣布完成 450万美元的新一轮融资

核心技术:reGaN 与外延专长IVWorks 依托其在磊晶(Epiwafer)领域的深厚积累,正在向多个高端领域扩张:核心技术:基于选择性区域再生长(Selective Area Regrowth)技术的 reGaN。技术价值…...

OpenClaw+百川2-13B-4bits:智能客服模拟器搭建教程

OpenClaw百川2-13B-4bits:智能客服模拟器搭建教程 1. 为什么需要本地化客服模拟器 去年参与一个电商项目时,我遇到了一个典型痛点:每次修改客服话术都需要重新训练线上模型,既消耗API费用又影响真实客户体验。当时就萌生了搭建本…...

、SEATA分布式事务——XA模式奖

MySQL 中的 count 三兄弟:效率大比拼! 一、快速结论(先看结论再看分析) 方式 作用 效率 一句话总结 count(*) 统计所有行数 最高 我是专业的!我为统计而生 count(1) 统计所有行数 同样高效 我是 count(*) 的马甲兄弟…...

OpenClaw模型配置详解:Kimi-VL-A3B-Thinking多模态接口接入

OpenClaw模型配置详解:Kimi-VL-A3B-Thinking多模态接口接入 1. 为什么选择Kimi-VL-A3B-Thinking 去年我在尝试构建一个自动化内容处理工作流时,发现市面上大多数模型对图文混合内容的理解能力有限。直到偶然在开发者社区看到Kimi-VL-A3B-Thining的评测…...

OpenClaw跨平台配置指南:千问3.5-35B-A3B-FP8在mac与Win下的对接

OpenClaw跨平台配置指南:千问3.5-35B-A3B-FP8在mac与Win下的对接 1. 为什么需要跨平台配置指南 上周我在团队内部推广OpenClaw时遇到一个典型问题:同事A用macOS,同事B用Windows,两人都需要对接同一个千问3.5-35B-A3B-FP8模型。本…...

CodeMagicianT奈

前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知,本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。 写在前面 Kafka 作为一个成熟的事件流平台,有非常多的配置参数。详细的参数列表可以…...

从 Apache SeaTunnel 走向 ASF Member:一位开发者的长期主义样本悔

一、中间件是啥?咱用“餐厅”打个比方 想象一下,你的FastAPI应用是个高级餐厅。 ?? 顾客(客户端请求)来到门口。- 迎宾(CORS中间件):先看你是不是从允许的街区(域名)来…...

如何突破抖音视频下载限制:douyin-downloader的全方位解决方案

如何突破抖音视频下载限制:douyin-downloader的全方位解决方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallba…...

开源工具Free-NTFS-for-Mac:跨平台NTFS设备高效管理指南

开源工具Free-NTFS-for-Mac:跨平台NTFS设备高效管理指南 【免费下载链接】Free-NTFS-for-Mac Nigate: An open-source NTFS utility for Mac. It supports all Mac models (Intel and Apple Silicon), providing full read-write access, mounting, and management …...

Matlab七次非均匀B样条轨迹规划及基于NSGAII的优化方法

matlab-B样条轨迹规划-1 七次非均匀B样条轨迹规划, 基于NSGAII的时间-能量-冲击最优。 换上自己的关节值和时间就能用,简单好用,最近在搞机器人轨迹规划,发现七次非均匀B样条真是个好东西。它不仅能保证轨迹的平滑性,还…...

8大AI核心概念,让你秒懂智能体、多智能体系统、RAG、工作流、微调、函数调用、MCP和A2A!

本文介绍了8个AI核心概念,包括智能体(Agent)和多智能体系统(Multi-Agent System),以及如何通过RAG(Retrieval-Augmented Generation)、工作流(Work Flow)、微…...

2026 年深度测评:立体库品牌哪家权威?

“立体库用得好是降本神器,用不好就是百万窟窿。”这是我在仓储物流行业摸爬滚打 15 年来最深的体会。当企业投入巨资上马自动化立体库,最核心的疑问只有一个:立体库品牌哪家好、哪家强、选哪家更放心?是选低价集成商,…...

09 华夏之光永存:带领华为盘古大模型走向世界巅峰

09 华夏之光永存:带领华为盘古大模型走向世界巅峰 小标题:鸿蒙生态深度协同:端侧大模型原生融合方案 文章摘要 本文作为系列专栏第九篇,聚焦华为盘古大模型与鸿蒙生态端侧原生适配、端边云全域协同核心痛点,针对当前端…...

基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型【MATLAB】

基于核密度估计的CNN-LSTM-Attention-KDE多输入单输出回归模型 在深度学习时间序列预测与回归分析中,传统的模型往往只能给出一个确定的“点预测”结果(例如:预测明天的温度是25度)。然而,在许多高风险的工程和金融场景…...

Chat Smith 7.1.0 vs 原生ChatGPT:哪个更适合你的日常AI需求?

Chat Smith 7.1.0与原生ChatGPT深度评测:如何选择你的AI助手? 在AI助手遍地开花的今天,选择一款适合自己的工具就像在糖果店挑选最合口味的糖果——眼花缭乱却难以抉择。Chat Smith 7.1.0和原生ChatGPT无疑是当前最受关注的两款产品&#xff…...

高光谱成像基础(十一)异常检测算法 RX 与 KRX胸

一、简化查询 1. 先看一下查询的例子 /// /// 账户获取服务 /// /// /// public class AccountGetService(AccountTable table, IShadowBuilder builder) {private readonly SqlSource _source new(builder.DataSource);private readonly IParamQuery _accountQuery build…...

c语言错题

c 错题#include <iostream> using namespace std;int bitCount(int x){int y0;for(; x>0;){y x & 1;x >>1;}return y; } int main() {// 请在此输入您的代码int i, n, m, j;scanf("%d",&n);int a[n];for(i0;i<n;i){scanf("%d",…...

AppImageLauncher:5分钟掌握Linux AppImage应用的终极管理方案

AppImageLauncher&#xff1a;5分钟掌握Linux AppImage应用的终极管理方案 【免费下载链接】AppImageLauncher Helper application for Linux distributions serving as a kind of "entry point" for running and integrating AppImages 项目地址: https://gitcode…...

如何永久保存微信聊天记录?这个免费工具让你轻松备份和分析所有对话![特殊字符]

如何永久保存微信聊天记录&#xff1f;这个免费工具让你轻松备份和分析所有对话&#xff01;&#x1f680; 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https:…...

Noise2Noise 去噪程序完整运行指南:从环境配置到模型部署

Noise2Noise 去噪程序完整运行指南:从环境配置到模型部署 摘要 本文旨在为深度学习研究者和开发者提供一份完整、详尽的 Noise2Noise 去噪程序运行指南。Noise2Noise(噪声到噪声)是由 NVIDIA 研究团队在 ICML 2018 发表的一种突破性图像恢复方法,其核心创新在于仅使用带噪…...

GIL终结者来了!Python原生无锁并发的3大工业级模式:MPMC队列、无等待哈希表、RCU读写分离实战(含perf火焰图验证)

第一章&#xff1a;GIL终结者&#xff1a;Python原生无锁并发的范式革命长久以来&#xff0c;CPython解释器中的全局解释器锁&#xff08;GIL&#xff09;被视为Python高并发能力的天然枷锁——它强制同一时刻仅有一个线程执行Python字节码&#xff0c;即便在多核CPU上也无法真…...

C# 13主构造函数+Records+With表达式三重组合技(.NET 8.0正式版实测):DTO层代码减少83%,但需绕过这个编译器Bug

第一章&#xff1a;C# 13主构造函数案例C# 13 引入了主构造函数&#xff08;Primary Constructor&#xff09;语法&#xff0c;允许在类或结构体声明时直接定义构造参数&#xff0c;并自动将参数提升为类型成员&#xff08;如只读字段或属性&#xff09;&#xff0c;显著简化了…...

【苍穹外卖】Mac前端开发环境搭建:从零到部署的完整指南

1. 为什么选择Mac搭建前端开发环境&#xff1f; 作为一个长期使用Mac进行前端开发的程序员&#xff0c;我可以很负责任地说&#xff0c;Mac确实是前端开发的绝佳选择。首先&#xff0c;Mac基于Unix系统&#xff0c;命令行环境对开发者极其友好&#xff0c;很多工具和命令与Linu…...

零基础玩转OpenClaw:Qwen3.5-9B镜像云端体验指南

零基础玩转OpenClaw&#xff1a;Qwen3.5-9B镜像云端体验指南 1. 为什么选择云端体验OpenClaw 作为一个长期在本地折腾AI工具的开发者&#xff0c;我完全理解新手面对环境配置时的恐惧。记得第一次尝试部署本地AI助手时&#xff0c;光是解决Python版本冲突就花了两天时间。直到…...