当前位置: 首页 > article >正文

落地生产级推理引擎!高性能GPU算子生成系统Kernel-Smith发布

在当今的大模型时代高性能 GPU 算子Kernel是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统还是驱动 AI for Science (AI4S) 的复杂科学计算高效的算子实现都是释放硬件潜能的重中之重。然而尽管大模型的编程能力日益强大但让其自主生成高性能算子并稳定应用于真实生产环境仍是一个未被全面攻克的行业难题。在这一背景下上海人工智能实验室联合沐曦MetaX发布了高性能GPU算子生成系统—— Kernel-Smith。Kernel-Smith 创新性地将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”深度融合依托 Intern-S1-Pro的基座能力进行深度定制化训练让大模型真正化身为“算子优化大师”。Kernel-Smith 自动生成的高性能算子已在实际场景中得到应用不仅加速了 DeepSeek 新架构 Engram并合入 DLBlas还落地主流生产级推理引擎 SGLang 和 LMDeploy实现了大模型自动生成算子从实验室受控评估到前沿模型研发与生产级部署的双重跨越。亮点速览首创稳定评估驱动的进化智能体克服评测噪声支持 NVIDIA Triton 与 MetaX Maca 双后端保障算子搜索的可靠性。提出面向进化的后训练范式Post-training摒弃传统的多轮反馈迭代路线将长周期的进化轨迹转化为步进式的训练信号让模型成为最强“局部优化器”。显著性能优势**** Kernel-Smith-235B-RL 在 KernelBench 上取得 SOTA平均加速比超越 Gemini-3.0-pro 与 Claude-4.6-opus 等顶尖闭源模型。打通落地闭环生成的代码已成功合入 SGLang、LMDeploy 等主流开源推理引擎。技术报告https://github.com/InternLM/Kernel-Smith/blob/main/Kernel-Smith.pdf在线体验链接https://chat.intern-ai.org.cn/kernel-smith在线体验页面两大创新设计破解大模型算子生成难题当前的算子开发高度依赖工程师的经验。一个高效的算子往往需要在众多融合模式、Tiling 策略等实现方案中反复搜索与调试而现有基于 LLM 的算子生成系统多依赖多轮对话或基于历史的 Agent 循环这也带来了两大挑战路径依赖与试错成本高传统的 Debug 过程容易让模型“锚定”在早期的错误决策上限制了探索的多样性。“写对”不等于“跑得快”功能上的正确性与极致的性能是两种完全不同的能力。模型不仅需要一次性生成正确的代码更需要具备在测试阶段通过持续迭代不断提升算子性能的能力。为了解决这些问题研究团队创新地提出了一个统一的进化智能体与强化训练框架。核心设计一构建稳定评估驱动的进化智能体进化搜索天然适合算子优化因为它可以通过维护一个候选程序池在多轮迭代中不断累积性能增益。然而这一过程对“评测方差”极其敏感如果 GPU 运行时间测量存在噪声智能体可能会误删极具潜力的算子或者保留次优解这种错误会在代际之间不断放大。为此Kernel-Smith 在智能体设计上将“评测稳定性”放在首位。通过固定计算图、重复测量以及异常值剔除等机制大幅抑制了计时噪声确保了进化搜索动态的可靠性。同时研究团队还为NVIDIA Triton和MetaX MacaGPU 构建了专属的后端评估服务提供编译、正确性和加速比的结构化执行反馈。核心设计二化长为短面向进化的后训练****策略在模型训练层面Kernel-Smith将训练定义为进化循环中的“局部优化器Local Improver”。具体而言研究团队将长周期的进化轨迹转化为以“步骤”为中心的监督与强化学习信号。算法只保留那些“在保证正确性的前提下带来了高收益性能提升”的修改步骤。这种过滤策略相当于一种轨迹压缩模型不需要去模仿那些冗余的中间过渡或捷径而是专注于学习那些对最终加速贡献最大的“原子级改进”。在 SFT 和 RL 阶段应用这一原则使得 Kernel-Smith 不仅提升了单步修改的代码质量更大幅提高了进化搜索中性能增益的复合增长率。显著性能优势超越顶尖闭源模型得益于上述两大核心设计Kernel-Smith 在实战中展现出了显著的性能优势。在统一的进化智能体协议下Kernel-Smith-235B-RL 在 KernelBenchNvidia Triton 后端上实现了整体性能的 SOTA。在严格保证功能正确性的前提下其平均加速比不仅优于所有开源基线模型还超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等顶尖闭源大模型。KernelBench-Triton 评测结果更重要的是评测曲线显示Kernel-Smith-235B-RL 的平均得分增长曲线在整个搜索过程中始终处于领先地位如下图所示这充分证明了该模型能够最有效地利用测试时算力Test-time Compute实现性能跃升。不同模型使用同样的 KernelSmith Agent Framework在 KernelBench-Triton 上的迭代增长曲线图在 MetaX MACA 后端的测试中Kernel-Smith 同样表现出色。研究团队在四类常用算子上对比了不同模型生成高性能 MACA 算子的能力结果显示Kernel-Smith-MACA-30B 的平均加速比超过了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大参数量的开源模型而 Kernel-Smith-MACA-235B 取得了进一步性能提升验证了 Kernel-Smith 框架支持异构平台的能力。MetaX MACA 平台算子性能优化任务评测结果走出实验室赋能前沿创新与生产级应用Kernel-Smith 生成的高性能优化算子不仅成功赋能前沿架构创新加速了 DeepSeek 新架构 Engram 并合入 DLBlas 开源算子库 更重要的是它已顺利落地主流生产级推理引擎分别为 SGLang 优化了 FlashAttention 后端的 normal_decode_set_metadata 算子并为 LMDeploy 优化了 DeepSeek MoE Routing 算子真正实现了大模型自动生成算子从实验室受控评估到前沿模型研发与生产级部署的双重跨越。相关 Pull Request 链接https://github.com/DeepLink-org/DLBlas/pull/102https://github.com/sgl-project/sglang/pull/20778https://github.com/InternLM/lmdeploy/pull/4345在 NV-H200 硬件环境下的算子隔离评测中Kernel-Smith 展现出显著的Test-Time Scaling效应随着演化迭代的深入算子性能实现持续增长。算子进化迭代曲线图在主流推理引擎的实际落地中Kernel-Smith 自动生成的算子为 SGLang 和 LMDeploy 分别带来了4.78x和1.36x的真实加速收益。在 DeepSeek Engram 复杂场景的深度探索中模型成功跨越局部最优解触发了从 5 倍到 12 倍以上的突破性性能跃升最终达到14.59x加速。算子隔离评测结果同时研究团队在社区率先将自动化算子评测扩展至端到端模型吞吐。Kernel-Smith 生成的算子不仅稳定提升了 LMDeploy 的端到端吞吐最高约 3%还可靠地降低了 SGLang 的真实服务延迟。这验证了生成代码在复杂系统中的鲁棒性也为自动化算子在生产级引擎中的端到端集成提供了可行的实践参考。LMDeploy 端到端模型吞吐评测

相关文章:

落地生产级推理引擎!高性能GPU算子生成系统Kernel-Smith发布

在当今的大模型时代,高性能 GPU 算子(Kernel)是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统,还是驱动 AI for Science (AI4S) 的复杂科学计算,高效的算子实现都是释放硬件…...

效率飙升,跳过proteus安装配置,用快马ai秒建仿真项目

最近在做一个温度监测系统的项目,需要验证电路设计的可行性。按照传统方式,我得先下载安装Proteus软件,配置各种库文件,光是环境准备就得折腾半天。不过这次尝试了用InsCode(快马)平台的AI功能,整个过程变得异常高效。…...

探索GetQzonehistory:永久保存QQ空间记忆的数字时光机

探索GetQzonehistory:永久保存QQ空间记忆的数字时光机 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字时代,我们的记忆分散在各个社交平台,而Q…...

别再瞎调了!FOC电机控制中,采样电阻选型和PCB布局的5个实战避坑点

FOC电机控制实战指南:采样电阻选型与PCB布局的5个关键避坑点 在无刷电机控制领域,FOC(磁场定向控制)算法凭借其优异的动态性能和效率表现,已成为工业驱动、消费电子和机器人关节的主流方案。然而,许多工程师…...

基于Python的多媒体信息共享平台毕业设计源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于Python的多媒体信息共享平台,以满足现代网络环境下多媒体信息传播的需求。具体研究目的如下:构建一个高效、…...

基于GOOSE - Transformer - LSTM的数据回归预测探索

基于GOOSE-Transformer-LSTM的数据回归预测 模型结合Transformer的全局注意力机制和LSTM的短期记忆及序列处理能力 首先,采用Transformer自注意力机制捕捉数据的全局依赖性,并输出一个经过全局上下文编码的表示;然后,采用2024年最…...

ESP32-S3实战指南:SPI多设备管理与高效数据传输

1. ESP32-S3的SPI总线基础认知 第一次接触ESP32-S3的SPI总线时,我完全被各种专业术语搞懵了。后来在实际项目中反复折腾才发现,SPI本质上就是个"快递小哥",负责在芯片和外围设备之间搬运数据。ESP32-S3内置了4个这样的"快递站…...

若依框架实战:如何优雅地实现静态资源权限校验(附完整代码)

若依框架静态资源权限校验实战指南 在企业级应用开发中,静态资源的安全访问控制是一个常见需求。无论是小程序图片资源管理,还是企业内部文档权限控制,都需要确保只有授权用户才能访问特定资源。本文将深入探讨如何在若依(RuoYi)框架中实现静…...

快马AI助力:十分钟用Python搭建免费股票行情网站原型

最近想验证一个股票行情网站的原型,但作为独立开发者,从零搭建前后端实在太耗时。尝试用PythonFlask快速实现,结合InsCode(快马)平台的AI辅助功能,居然十分钟就完成了基础框架。记录下关键实现思路: 数据获取层设计 选…...

从YOLOv8到RTDETR:如何将训练后的YOLO指标无缝转换为COCO格式

1. 为什么需要YOLO到COCO格式转换 当你用YOLOv8官方代码训练RTDETR模型时,会发现评估结果默认输出的是YOLO格式指标。但学术界和工业界普遍采用COCO评估标准,这就好比在中国用人民币交易,到了欧洲就得换成欧元。我在去年帮某无人机公司做目标…...

PyTorch实战:手把手教你实现MobileFaceNet人脸识别模型(附完整代码)

PyTorch实战:从零构建MobileFaceNet人脸识别系统 人脸识别技术正在从实验室走向日常生活,而MobileFaceNet作为轻量级模型的代表,在移动端和嵌入式设备上展现出惊人的潜力。今天我们将深入探讨如何用PyTorch实现这个高效的神经网络架构&#x…...

通过配置驱动前端页面的实现方法

通过配置驱动前端页面的实现方法 配置驱动开发(Configuration-Driven Development, CDD)是一种通过外部配置而非硬编码来控制应用行为的开发模式。在前端领域,这种模式可以显著提升页面灵活性和可维护性。以下是具体实现方案: 理解…...

AI报告文档审核助力生态数据可信化:IACheck提升生物多样性调查报告物种识别准确性

在生态环境保护逐渐走向精细化管理的背景下,生物多样性调查数据的重要性不断提升。从自然保护区评估到生态修复项目,从环境影响评价到长期生态监测,物种数据已成为支撑决策的重要基础。而在这些数据中,“物种识别的准确性”&#…...

SaaS的末日重构:AI Agent浪潮下的危机与新生

目录 前言 一、 市场恐慌的源头:“软件-PE”的死亡循环 二、 核心重构:AI 将如何改造企业级 SaaS? 2.1 交互层的降维打击:从“点界面”到“说意图” 2.2 流程层的动态重组:从“应用中心”到“工作流中心” 2.3 定…...

Qwen3.5-9B-AWQ-4bit部署指南:双卡RTX 4090-D镜像免配置快速上手

Qwen3.5-9B-AWQ-4bit部署指南:双卡RTX 4090-D镜像免配置快速上手 1. 模型概述 千问3.5-9B-AWQ-4bit是一个支持图像理解的多模态模型,能够结合上传图片与文字提示词,输出中文分析结果。这个量化版本特别适合处理以下任务: 图片主…...

5分钟掌握:PowerToys Image Resizer让图片批量处理效率提升10倍

5分钟掌握:PowerToys Image Resizer让图片批量处理效率提升10倍 【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/…...

告别效率黑洞:AOSP构建降本增效实战!更有最新技术报告免费领!

近年来,AI模型训练与大型软件构建的复杂度持续攀升,企业级操作系统的多分支、多产品构建正成为工程团队的“效率黑洞”。在 Android 平台,AOSP 构建尤为突出:全量构建耗时长、增量改动触发大规模重建、CI 队列冗长、资源消耗高等问…...

2025届毕业生推荐的五大AI论文方案推荐榜单

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 普及时,人工智能生成的内容让文本展现出一种高度模式化的特性,这一情…...

【数字电路】从双稳态到触发器:时序逻辑的存储基石

1. 数字世界的记忆细胞:双稳态电路探秘 当你按下电脑电源键的瞬间,数十亿个微型存储单元开始工作,它们就像数字世界的记忆细胞,忠实地记录着每一个比特的信息。这一切的起点,正是我们今天要探讨的双稳态电路。想象一下…...

AI学习路线及建议

1.python快速入门(边用边学,建议3天) 2.人工智能必备数学的基础(边用边学,建议3天) 3.机器学习(找工作面试考点,临面试前晚一点刷) 数据分析:短期找工作 ML/D…...

TCT亚洲展|直击3D打印前沿盛宴,解锁增材制造新趋势

近日,2026 TCT亚洲展在上海国家会展中心圆满落幕,作为亚太地区规模最大、专业性最强的3D打印与增材制造行业盛会,本届展会汇聚全球550余家头部展商,集中呈现了从工业级设备、高性能材料到全场景应用方案的全产业链创新成果&#x…...

League Akari:英雄联盟玩家的终极智能工具箱 - 3大核心功能深度解析

League Akari:英雄联盟玩家的终极智能工具箱 - 3大核心功能深度解析 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为英雄联盟…...

终极指南:3步打造你的闲鱼AI客服机器人,实现24小时自动化值守

终极指南:3步打造你的闲鱼AI客服机器人,实现24小时自动化值守 【免费下载链接】XianyuAutoAgent 智能闲鱼客服机器人系统:专为闲鱼平台打造的AI值守解决方案,实现闲鱼平台724小时自动化值守,支持多专家协同决策、智能议…...

数字孪生+AI:某国家级技术科研机构:耦合仿真评估部件性能,长期运维监测承压状态

部件仿真|设备安全|能源装备|风险评估 某国家级技术科研机构长期服务于国家级重点工程与大型产业体系,在复杂系统运行保障、风险评估与技术支撑等方面承担着关键角色。其业务覆盖多类型基础设施与工程场景,具备完善的…...

【数值分析】线性方程组求解的MATLAB实战:从高斯消元到追赶法

1. 线性方程组求解的数值方法概述 在工程计算和科学研究中,线性方程组的求解是一个基础而重要的问题。想象一下,你正在设计一座桥梁,需要计算各个节点的受力情况;或者你在分析电路时,需要确定各个支路的电流大小。这些…...

SiameseAOE中文-base高性能部署:WebUI响应<800ms,吞吐达12QPS(RTX4090)

SiameseAOE中文-base高性能部署&#xff1a;WebUI响应<800ms&#xff0c;吞吐达12QPS&#xff08;RTX4090&#xff09; 今天要跟大家聊一个非常实用的工具——SiameseAOE通用属性观点抽取模型。你可能听说过信息抽取&#xff0c;但面对海量文本&#xff0c;如何快速、准确地…...

SpringBoot + MyBatis-Plus项目实战:从零搭建一个JavaEE课程设计骨架(附完整源码结构解析)

SpringBoot MyBatis-Plus项目实战&#xff1a;从零搭建一个JavaEE课程设计骨架&#xff08;附完整源码结构解析&#xff09; 当你第一次打开IDE准备开始JavaEE课程设计时&#xff0c;面对空白的项目窗口是否感到无从下手&#xff1f;本文将带你从零开始&#xff0c;用SpringBo…...

StructBERT文本相似度模型Java开发实战:SpringBoot集成与API调用

StructBERT文本相似度模型Java开发实战&#xff1a;SpringBoot集成与API调用 你是不是也遇到过这样的场景&#xff1f;用户搜索“苹果手机”&#xff0c;你希望系统不仅能返回iPhone&#xff0c;还能识别出“苹果公司手机”、“Apple iPhone”这些同义查询。或者&#xff0c;在…...

新手福音:在快马平台开启你的云端代码编程第一课

作为一名刚接触编程的新手&#xff0c;我最近发现了一个特别适合入门的学习方式——云端代码编程。以前总觉得学编程要先装一堆软件、配置环境&#xff0c;光是这些准备工作就能劝退不少人。但在InsCode(快马)平台上&#xff0c;这些烦恼都不存在了。 零门槛的编程初体验 打开平…...

牙科手术显微镜市场:其中中国市场占比超15%

在口腔诊疗向精细化、微创化演进的进程中&#xff0c;牙科手术显微镜作为核心光学放大设备&#xff0c;凭借其高照度、高景深与高清晰度特性&#xff0c;成为提升根管治疗、牙周手术及种植修复等环节精准性的关键工具。该设备集成连续变倍观察、同轴照明、术野调焦及影像记录系…...