当前位置: 首页 > article >正文

一个从零实现的 CUDA 大模型推理引擎

我写了一个从零实现的 CUDA 大模型推理引擎最近我在做一个比较硬核的小项目用 C / CUDA 从零实现一个大模型推理引擎。项目地址https://github.com/luogantt/LLM-inference-engine这个项目当前主要面向 DeepSeek-R1-Distill-Qwen-7B 的单 batch 推理。它不是在 PyTorch、Transformers、vLLM 或 llama.cpp 上套一层接口而是尽量把推理核心路径自己写出来直接用 CUDA 实现模型 forward 和 decode。为什么做这个项目现在大模型推理框架已经很多vLLM、TensorRT-LLM、llama.cpp 都非常成熟。但如果想真正理解一个大模型在 GPU 上是怎么跑起来的只会调用框架还不够。我想做的是一个可以拆开看的推理引擎权重怎么加载RMSNorm 怎么算RoPE 怎么处理GQA Attention 怎么做KV Cache 怎么管理MLP / SwiGLU 怎么执行decode 每一步的耗时在哪里CUDA kernel 怎么一步一步优化这个项目就是围绕这些问题写出来的。项目特点不依赖 PyTorch、Transformers、vLLM、llama.cpp使用 C / CUDA 实现核心推理路径手写 RMSNorm、RoPE、GQA Attention、SwiGLU、KV Cache、decode支持 HuggingFace safetensors 权重加载提供 Python tokenizer CUDA 动态库推理入口当前mma版本针对 A100 / A800 的单步 decode 做了多轮优化当前性能测试模型DeepSeek-R1-Distill-Qwen-7B当前记录max_seq800 max_new_tokens512 512 tokens 65.6845 tok/s max forward_ms 16.1768这个速度是在单 batch、单步 decode 场景下测到的。它不是靠 batching 堆总吞吐也不是 speculative decoding而是比较直接地看每一步 target model forward 的速度。如何运行make-fMakefile.cuda_lib libAsm_80CUDA_VISIBLE_DEVICES4python python_infer.py\--model/data3/ledi/models/DeepSeek-R1-Distill-Qwen-7B\--lib./build/libllm_cuda.so\--prompt你好 deepseek 介绍一下黑格尔的思想\--max-new-tokens512\--max-seq800后续方向目前这个项目已经完成了基础推理链路和多轮 CUDA 优化。后面如果继续往上冲主要会看几个方向CUDA Graph减少 decode 阶段的 kernel launch 开销重写 decode GEMV / MLP 路径更激进的 kernel fusion量化推理speculative decoding欢迎交流这个项目更偏研究和实验性质适合对 CUDA、大模型推理、底层性能优化感兴趣的人一起看、一起改、一起 benchmark。如果你也对从零写推理引擎感兴趣欢迎 star、fork 或交流https://github.com/luogantt/LLM-inference-engine

相关文章:

一个从零实现的 CUDA 大模型推理引擎

我写了一个从零实现的 CUDA 大模型推理引擎 最近我在做一个比较硬核的小项目:用 C / CUDA 从零实现一个大模型推理引擎。 项目地址: https://github.com/luogantt/LLM-inference-engine 这个项目当前主要面向 DeepSeek-R1-Distill-Qwen-7B 的单 batc…...

Steam Deck Tools 终极指南:让 Windows 掌机体验焕然一新

Steam Deck Tools 终极指南:让 Windows 掌机体验焕然一新 【免费下载链接】steam-deck-tools (Windows) Steam Deck Tools - Fan, Overlay, Power Control and Steam Controller for Windows 项目地址: https://gitcode.com/gh_mirrors/st/steam-deck-tools …...

随心剪99.2分断层登顶!个人创作者AI剪辑工具权威评测TOP1

——基于800博主实测,30秒一键成片,1人顶5人,轻松实现日更爆款本次评测基于800美食、穿搭、知识、vlog等领域个人创作者的真实使用数据、出片效率复盘及深度访谈,覆盖一键成片速度、智能适配度、素材丰富度、操作便捷性四大核心维…...

广州初创公司,办公家具租还是买?我帮你算了一笔账

广州很多初创公司都会面临一个真实问题:现金流紧张、抗风险能力弱,办公家具采购却是一笔不小的开支。租划算,还是买划算?结合广州初创公司的经营特点和现金流需求,我从成本、灵活性、风险、售后四个维度对比后得出的结…...

一张表算清账:发券营销的ROI该怎么算?

一、 别被“领券量”忽悠了 后台显示发了5000张券,老板很高兴,觉得生意稳了。结果月底一算账,发现不仅没赚,还贴进去几千块广告费。问题出在哪?​ 只看“领”,不看“核”。二、 核心指标:核销率…...

auditd:Linux 系统审计日志,记录谁动了你的服务器

auditd:Linux 系统审计日志,记录谁动了你的服务器 服务器被入侵后,管理员面临的第一个问题往往不是"怎么修复",而是"到底发生了什么"——攻击者登录了哪个账号?修改了哪些文件?执行了什…...

DeepSeek MoE训练稳定性突破(动态负载均衡+梯度裁剪双保险):解决专家坍缩的工业级方案

更多请点击: https://kaifayun.com 第一章:DeepSeek MoE架构解析 DeepSeek MoE(Mixture of Experts)是一种面向大语言模型高效推理与训练的稀疏化架构设计,其核心思想是在保持模型总参数量庞大的前提下,仅…...

轴承‘健康体检’新思路:不用复杂公式,5步教你用CNN从振动信号中‘看’出故障先兆

轴承健康监测:用CNN像AI医生一样"听诊"振动信号 想象一下,医生通过听诊器捕捉心跳的微妙变化,就能预判潜在的健康风险。在工业设备的"健康管理"中,轴承的振动信号就像它的"心跳",而卷积…...

大模型时代,小白程序员如何抓住机遇?阿里高薪Offer背后的大模型学习指南(收藏版)

文章主要介绍了阿里在大模型领域的强势发展,包括高薪Offer和招聘趋势,强调了AI技能的重要性。作者建议小白和程序员学习大模型技术,并推荐了“派聪明RAG项目”作为学习资源。同时,文章还探讨了AI工具的实际应用和挑战,…...

OpenCost:Kubernetes 成本监控,开源的云资源费用分析

OpenCost:Kubernetes 成本监控,开源的云资源费用分析 随着企业将越来越多的工作负载迁移到 Kubernetes,一个新的管理挑战随之浮现:到底哪个团队、哪个应用在花钱? 公有云账单只能告诉你整个集群的月度费用,…...

瑞萨RH850芯片HSM软件实现:从硬件隔离到安全通信

1. RH850芯片HSM模块的硬件基础 第一次接触瑞萨RH850芯片的HSM(Hardware Security Module)功能时,我被它精妙的硬件设计所震撼。这颗芯片内部其实藏着两个"大脑":主处理器(Host)和专为安全设计的…...

从PyTorch到边缘设备:手把手教你用OpenVINO优化YOLOv5模型并在Jetson Orin上部署

从PyTorch到边缘设备:OpenVINO优化YOLOv5模型与Jetson Orin部署实战 在工业质检、智慧零售等实时场景中,将YOLOv5这类目标检测模型部署到Jetson Orin等边缘设备时,开发者常面临三大挑战:模型体积臃肿导致内存不足、计算资源有限影…...

为什么92%的研究者搜不到关键书评?Perplexity图书评论搜索的3大认知盲区与实时校准方案

更多请点击: https://codechina.net 第一章:为什么92%的研究者搜不到关键书评? 学术资源检索的失效,往往并非源于信息缺失,而是检索逻辑与出版生态的错位。当前主流学术数据库(如Google Scholar、CNKI、JS…...

告别命令行!用Offset Explorer(原Kafka Tool)图形化管理Kafka集群,5分钟上手

告别命令行恐惧:用Offset Explorer实现Kafka集群的可视化高效管理 对于许多开发者和运维人员来说,Kafka的命令行操作就像一道难以逾越的门槛。那些复杂的参数、冗长的命令和难以直观理解的输出,常常让人望而却步。而Offset Explorer&#xff…...

蓝桥杯JavaB组赛后复盘:从‘类斐波那契’到‘星际旅行’,我的解题思路与踩坑实录

蓝桥杯JavaB组赛后复盘:从‘类斐波那契’到‘星际旅行’,我的解题思路与踩坑实录 1. 考场策略与时间分配 比赛开始前15分钟,我快速浏览了所有题目,用铅笔在草稿纸上标注了每道题的预估难度和解题方向。这种策略让我避免了"死…...

别再搞混了!设备上那个RJ45口是Console调试口,不是网口(附电路设计详解)

别再搞混了!设备上那个RJ45口是Console调试口,不是网口(附电路设计详解) 第一次接触企业级网络设备时,许多新手都会犯一个经典错误——把设备背面那个看似网口的RJ45接口当作普通网络接口使用。我曾亲眼见过一位实习生…...

若依(RuoYi)框架安全自查清单:开发者必知的5个高危漏洞与修复方案

若依(RuoYi)框架安全自查清单:开发者必知的5个高危漏洞与修复方案 在当今快速迭代的软件开发环境中,安全防护已成为项目全生命周期中不可忽视的关键环节。作为国内广泛使用的快速开发框架,若依(RuoYi)凭借其模块化设计和丰富的功能集成&#…...

ATmega328P烧录Bootloader报错?别急着换芯片,可能是签名搞的鬼(附avrdude.conf修改教程)

ATmega328P烧录Bootloader报错?别急着换芯片,可能是签名搞的鬼(附avrdude.conf修改教程) 当你兴致勃勃地准备给新买的ATmega328P芯片烧录Bootloader时,突然弹出一串红色报错信息,那种心情就像煮熟的鸭子飞走…...

从继电器到MOS管:电源控制电路选型实战与仿真验证

1. 继电器与MOS管:电源控制的双面选择 第一次接触电源控制电路时,我像大多数新手一样纠结:到底该用继电器还是MOS管?这个问题困扰了我整整两周,直到在某个深夜调试电路时,继电器"咔嗒"的机械声突…...

从零构建:基于YOLOv8/YOLOv10的智能游戏瞄准系统深度解析

从零构建:基于YOLOv8/YOLOv10的智能游戏瞄准系统深度解析 【免费下载链接】yolov8_aimbot Aim-bot based on AI for all FPS games 项目地址: https://gitcode.com/gh_mirrors/yo/yolov8_aimbot 你是否曾经好奇,人工智能技术如何精准识别游戏中的…...

订阅Token Plan套餐如何在实际开发中有效控制大模型调用成本

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 订阅Token Plan套餐如何在实际开发中有效控制大模型调用成本 对于开发团队而言,将大模型能力集成到自动化流程或内部工…...

解锁本科论文高效创作新思路,okbiye 赋能毕业生轻松完成学术撰稿

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 引言 步入毕业季,本科阶段最后的学术考核毕业论文,成为众多应届学子面前最大的难题。从前期选题构思、框架梳理&…...

okbiye 实测:本科生如何用 AI 搞定毕业论文全流程,从选题到格式一步到位

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 引言:当本科论文撞上 “时间焦虑”,你需要的不是 “文字裁缝” 凌晨三点的宿舍,电脑屏幕的蓝光映着你通…...

STM32F103C8T6的MODBUS-RTU从机实战:基于RS485的寄存器读写

1. MODBUS-RTU与STM32F103C8T6的工业应用价值 在工业自动化领域,设备间的可靠通信是系统稳定运行的基础。STM32F103C8T6作为一款性价比极高的Cortex-M3内核微控制器,配合MODBUS-RTU协议和RS485物理层,能够构建出稳定高效的设备监控网络。这种…...

从开题到定稿,okbiye 如何让本科毕业论文写作告别 “通宵焦虑”

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 一、本科毕业论文的 “三座大山”,正在拖垮你的毕业季 对于大多数本科生而言,毕业论文写作早已不是 “写一篇文章”…...

3分钟快速上手Inter字体:免费开源字体如何提升你的数字产品体验

3分钟快速上手Inter字体:免费开源字体如何提升你的数字产品体验 【免费下载链接】inter The Inter font family 项目地址: https://gitcode.com/gh_mirrors/in/inter Inter字体是一款专为屏幕显示设计的开源无衬线字体,凭借其出色的可读性和多语言…...

2026年的专业床垫,从平价到高端究竟该怎么选?

在忙碌的生活中,拥有一张好床垫能显著提升睡眠质量。2026年市场上床垫种类繁多,从平价到高端各有特色,该如何选择呢?下面为大家详细分析。平价床垫:性价比之选平价床垫通常价格亲民,适合预算有限的消费者。…...

怎么远程操作另一台手机 手机能远程控制别的手机吗

想远程操作另一台手机应急?不管是忘带工作机需回复客户消息,还是手游玩家用备用机远程控制主力机挂机领福利,都需要好用的工具。市面上能远程操作另一台手机的软件不少,但是却多有短板,难以适配需求。推荐无界趣连2.0&…...

告别环境冲突!用Miniconda3在Windows上为不同Python项目创建独立开发环境(保姆级图文)

告别Python环境冲突:Miniconda3在Windows下的高效开发环境管理实战 刚接手新项目的Python开发者小王遇到了一个典型问题:本地运行良好的Django 3.2项目,在同事电脑上却频频报错。经过排查,发现是Python环境版本不一致导致的依赖冲…...

基于8ms平台的嵌入式GUI开发实践:智能家居86盒UI设计与实现

1. 项目概述:当智能家居遇上8ms,一个86盒的UI革命 最近在折腾一个智能家居的改造项目,核心是想把家里那些老旧的开关面板,换成能联网、能自定义、还能显示点信息的“智能大脑”。市面上现成的智能开关要么功能固化,要么…...