当前位置: 首页 > article >正文

LLM/HPC常见术语汇总

文章目录一、基础架构类LLM核心概念二、核心算子/层类算子开发重点三、训练/推理优化类四、性能/硬件相关类算子开发核心五、推理策略类汇总关键点一、基础架构类LLM核心概念术语全称核心解释LLM场景关联Transformer-2017年提出的序列建模架构LLM的基础由Encoder/Decoder、Self-Attention、FFN组成所有现代LLMLLaMA/Qwen/GLM均基于Transformer变体Encoder编码器双向注意力输入序列全可见如BERT仅Encoder架构少用LLM多为Decoder-onlyDecoder解码器单向因果注意力只能看前文如GPTLLM主流架构LLaMA/GPT均为Decoder-onlyToken-文本的最小单位字/词/子词LLM的输入基本单元如“大模型”可能拆为“大”“模型”两个tokenVocabVocabulary模型可识别的token字典包含所有可生成的token常见大小32k/64k/128k如LLaMA2 vocab32000Embedding-将token转为高维向量语义表示LLM第一层输出维度为hidden_dim如4096Hidden DimHidden Dimension模型每一层的特征维度核心超参如LLaMA2-7B的hidden_dim4096FFNFeed Forward Network前馈网络Transformer的非线性层占模型计算量≈50%核心是GEMM算子Num HeadsNumber of Attention Heads多头注意力的头数如LLaMA2-7B num_heads32拆分hidden_dim并行计算二、核心算子/层类算子开发重点术语全称核心解释LLM场景关联MHSAMulti-Head Self-Attention多头自注意力将Q/K/V拆分为多个头并行计算最后拼接LLM最核心算子显存/性能瓶颈所在SASelf-Attention自注意力计算token间的关联权重聚合上下文信息MHSA的基础单元核心流程Q·K^T→Softmax→×VCACross-Attention交叉注意力Decoder关注Encoder输出如翻译模型多模态LLM如GPT-4V常用LNLayer Normalization层归一化对每个token的特征做归一化减均值、除方差解决训练不稳定LLM每一层后必用RMSNormRoot Mean Square Normalization简化版LN仅做均方根缩放无均值减法LLaMA/Qwen等LLM标配计算更快BNBatch Normalization批归一化对批次维度做归一化LLM中几乎不用序列长度不一致批维度无意义Softmax-归一化函数将分值转为和为1的概率分布MHSA中归一化注意力权重输出层生成token概率ScaleSoftmax-带缩放的Softmax分值/√head_dimMHSA专用防止Q·K^T分值过大导致梯度消失RoPERotary Position Embedding旋转位置编码通过复数旋转给Q/K加入位置信息LLaMA/Qwen主流位置编码方式算子开发高频考点ALiBiAttention with Linear Biases线性偏置位置编码给注意力分值加位置偏置推理友好无需额外位置向量存储GELU/SwiGLUGaussian Error Linear Units激活函数引入非线性FFN层核心SwiGLU是LLM主流替代GELUGEMMGeneral Matrix Multiplication通用矩阵乘法支持任意形状矩阵乘LLM 90%计算量来自GEMMQKV投影/FFNMatMulMatrix Multiplication基础矩阵乘法GEMM的子集特指二维矩阵乘Reduce-归约算子Sum/Mean/Max/VarLN/RMSNorm/Softmax的核心子算子三、训练/推理优化类术语全称核心解释LLM场景关联KVCacheKey-Value Cache推理时缓存历史K/V避免重复计算注意力LLM推理提速核心显存占用主要来源FlashAttention-高性能Attention实现分块内存复用降低显存解决MHSA O(N²)显存问题LLM训练/推理标配PagedAttention-分页式KVCache将缓存分页管理vLLM推理引擎核心支持动态批处理MoEMixture of Experts混合专家模型稀疏激活不同专家网络大模型扩容方案如GLaM降低计算量TopK-选取分值最高的K个元素MoE中选激活的专家生成时选候选tokenGather/Scatter-聚合/分散算子按索引读写数据MoE中分发/收集token到对应专家All2All-集体通信算子跨卡全量数据交换MoE多卡并行时分发token到不同卡的专家Dropout-正则化算子随机屏蔽神经元输出训练时防止过拟合推理时关闭Quantization-量化降低数据精度FP32→FP16/BF16/FP8/INT4减少显存占用、提升推理速度算子开发重点TPTensor Parallelism张量并行拆分模型参数到多卡大模型训练/推理必用如70B模型拆8卡PPPipeline Parallelism流水线并行拆分模型层到多卡超大规模模型如175B的并行方式ZeROZero Redundancy Optimizer零冗余优化器拆分优化器状态到多卡降低训练显存占用主流大模型训练框架标配四、性能/硬件相关类算子开发核心术语全称核心解释LLM场景关联SMStreaming MultiprocessorGPU核心计算单元包含CUDA Core/Tensor Core算子线程块分配的基本单元Tensor Core-NVIDIA专用矩阵计算单元支持混合精度GEMM算子性能优化核心LLM计算提速关键Warp-CUDA基本执行单元32个线程Reduce/Softmax算子优化的核心粒度Warp Shuffle-Warp内线程直接交换数据的指令Reduce算子高性能实现的核心手段Shared Memory-SM级高速共享内存速度≈寄存器FlashAttention核心优化减少全局内存访存Global Memory-GPU全局显存HBMLLM大张量存储位置访存速度慢Coalesced Access-全局内存合并访问线程访问连续地址算子访存优化的核心要求提升带宽利用率Kernel Fusion-算子融合将多个算子合并为一个Kernel减少中间张量存储提升LLM算子吞吐量Memory-Bound-算子性能瓶颈为内存访问而非计算MHSA/Softmax/Reduce均为访存绑定Compute-Bound-算子性能瓶颈为计算速度GEMM/FFN层接近计算绑定五、推理策略类术语全称核心解释LLM场景关联Speculative Sampling-推测采样小模型推测、大模型验证提升LLM推理速度如FastChatBeam Search-束搜索保留多个候选序列生成结果提升生成质量推理延迟较高Greedy Search-贪心搜索每次选概率最高的token推理速度最快生成多样性低Dynamic Batching-动态批处理合并不同长度的推理请求vLLM/TensorRT-LLM核心提升吞吐量汇总关键点算子开发核心聚焦MHSA/FlashAttention、LN/RMSNorm、Softmax、Reduce、RoPE、GEMM、KVCache、MoE相关算子LLM特有优化KVCache、FlashAttention、量化、张量并行是区别于传统CV/NLP的核心硬件优化关键词Tensor Core、Warp Shuffle、Shared Memory、Kernel Fusion是CUDA算子开发的核心抓手。

相关文章:

LLM/HPC常见术语汇总

文章目录一、基础架构类(LLM核心概念)二、核心算子/层类(算子开发重点)三、训练/推理优化类四、性能/硬件相关类(算子开发核心)五、推理策略类汇总关键点一、基础架构类(LLM核心概念&#xff09…...

C语言中的宏日志打印语法以及相对printf的优点

文章目录宏日志打印解析一、核心语法拆解:#define LOG(...) __log_info(__VA_ARGS__)1. #define LOG(...)2. __log_info(__VA_ARGS__)二、配套的可变参数函数 __log_info 解析1. 函数签名:static void __log_info(const char* format, ...)2. 可变参数处…...

Wan2.1-umt5代码生成实战:媲美Claude Code的AI编程助手

Wan2.1-umt5代码生成实战:媲美Claude Code的AI编程助手 最近在AI编程助手这个圈子里,Claude Code的名声可以说是响当当。不过,今天我想跟你聊聊另一个同样厉害,甚至在某些方面可能更“香”的选择——Wan2.1-umt5。它不是那种遥不…...

不懂技术也能用AI管物流?深度解析OpenClaw如何重塑货代行业底层逻辑

在传统的物流货代行业,从业者们长期受困于繁杂的单证处理、无休止的客户询价以及极低的人力人效比。随着AI时代的到来,许多货代企业主面临着“不转型等死,乱转型找死”的技术焦虑。然而,匠厂科技推出的OpenClaw正在打破这一僵局。…...

手把手教你学Simulink——基于Simulink的温度漂移下PMSM转矩输出补偿策略

目录 手把手教你学Simulink——基于Simulink的温度漂移下PMSM转矩输出补偿策略​ 摘要​ 一、背景与挑战​ 1.1 温度漂移对PMSM转矩的影...

【优化求解】遗传算法的非线性静态系统识别(含高斯基函数)【含Matlab源码 15202期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…...

CHM文件制作中的三大核心文件解析:.hhp、.hhc、.hhk的作用与关系

CHM文件制作中的三大核心文件解析:.hhp、.hhc、.hhk的作用与关系 在数字文档领域,CHM(Compiled HTML Help)文件至今仍是技术文档、软件帮助系统的主流格式之一。这种微软开发的帮助文件格式,以其紧凑的体积、高效的索引…...

从“洛必达”到“泰勒展开”:用Python可视化理解高等数学核心定理(附代码)

从“洛必达”到“泰勒展开”:用Python可视化理解高等数学核心定理(附代码) 数学定理的抽象性常常让初学者望而生畏,而代码的可视化能力恰好能架起理解的桥梁。本文将带你用Python的Matplotlib和SymPy库,亲手绘制微分中…...

【故障检测】模拟运载火箭俯仰控制系统中基于IMU的故障检测(结合执行器动力学和基于残差的检测)【含Matlab源码 15205期】含报告

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…...

Ostrakon-VL-8B艺术鉴赏分析:解读画作风格、情感与历史背景

Ostrakon-VL-8B艺术鉴赏分析:解读画作风格、情感与历史背景 你有没有过这样的经历?站在一幅画前,感觉它很美,却说不出它到底好在哪里,属于什么风格,画家想表达什么。或者,面对一幅历史名画&…...

Cat-Catch:浏览器资源嗅探扩展的架构深度解析与技术实现

Cat-Catch:浏览器资源嗅探扩展的架构深度解析与技术实现 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 技术痛点:现代Web媒体资源获取的复杂挑战 在当前的Web生态系统中&…...

MedGemma-X快速上手:5分钟部署,像医生一样对话式阅片

MedGemma-X快速上手:5分钟部署,像医生一样对话式阅片 1. 为什么选择MedGemma-X? 在放射科日常工作中,医生们常常面临这样的挑战:需要快速处理大量影像资料,同时保证诊断报告的准确性和规范性。传统CAD系统…...

Qwen3.5-9B效果展示:Qwen3-VL全面超越者——图文推理与代码生成惊艳案例集

Qwen3.5-9B效果展示:Qwen3-VL全面超越者——图文推理与代码生成惊艳案例集 1. 开篇:新一代多模态大模型登场 Qwen3.5-9B作为Qwen系列的最新力作,在多模态理解和代码生成领域实现了质的飞跃。这款模型不仅在图文推理能力上全面超越前代Qwen3…...

MC1496调幅电路实战:从DSB到AM的完整调试过程(附示波器截图)

MC1496调幅电路实战:从DSB到AM的完整调试过程(附示波器截图) 在电子通信领域,调幅技术作为最基础的模拟调制方式之一,至今仍在广播、航空通信等场景中广泛应用。MC1496这款经典的四象限模拟乘法器芯片,以其…...

科哥二次开发实战:用SenseVoice Small构建智能语音情感分析工具

科哥二次开发实战:用SenseVoice Small构建智能语音情感分析工具 1. 项目背景与核心价值 语音识别技术已经发展到了不仅能听懂内容,还能理解情感和环境的阶段。SenseVoice Small作为一款轻量级多模态语音理解模型,通过科哥的二次开发&#x…...

Qwen3-Reranker-0.6B一键部署教程:5分钟搞定VLLM+WebUI调用

Qwen3-Reranker-0.6B一键部署教程:5分钟搞定VLLMWebUI调用 1. 模型简介与核心价值 Qwen3-Reranker-0.6B是Qwen家族最新推出的文本重排序模型,专为提升文本检索效果而设计。这个0.6B参数的轻量级模型继承了Qwen3系列的多语言能力和长文本理解优势&#…...

2026白帽挖洞实操指南|从零基础到轻松提权,新手也能快速上手拿赏金

2026 白帽挖洞实操指南|从零基础到轻松提权,新手也能快速上手拿赏金 对于刚踏入网络安全领域的新手、计算机相关专业学子,想要摆脱“纸上谈兵”的困境,把技术转化为实际收益,成为受企业认可的白帽黑客,合法…...

避坑指南:人机协同项目中80%团队都会犯的3个数据标注错误

避坑指南:人机协同项目中80%团队都会犯的3个数据标注错误 在计算机视觉和自然语言处理项目中,数据标注质量直接决定模型上限。但现实中,多数团队在标注环节投入的资源与预期效果严重不匹配——我们分析了127个失败案例后发现,62%的…...

思源宋体TTF终极指南:7种字重免费商用字体快速上手

思源宋体TTF终极指南:7种字重免费商用字体快速上手 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 还在为寻找既专业又免费的中文字体而烦恼吗?思源宋体&#x…...

梦幻动漫魔法工坊体验:输入一句话,生成你的动漫世界女主角

梦幻动漫魔法工坊体验:输入一句话,生成你的动漫世界女主角 1. 工具介绍与核心价值 梦幻动漫魔法工坊是一款基于Diffusion模型和LoRA微调技术的动漫图像生成工具。它能够将简单的文字描述转化为精美的二次元角色图像,特别适合动漫爱好者、内…...

VibeVoice语音合成教学:新手如何30分钟内完成首次调用

VibeVoice语音合成教学:新手如何30分钟内完成首次调用 你是不是也想过,要是能有个工具,输入文字就能立刻听到语音,而且声音还特别自然,那该多方便?无论是给视频配音、做有声书,还是开发个智能语…...

基于Mirage Flow的Python爬虫实战:数据采集与智能处理全流程

基于Mirage Flow的Python爬虫实战:数据采集与智能处理全流程 在数据驱动的时代,高效获取和处理网络数据已成为开发者的核心技能之一。但面对复杂的反爬机制、杂乱的数据结构以及海量的信息处理,传统爬虫往往力不从心。今天咱们就来聊聊如何用…...

OFA图像描述模型在Ubuntu系统下的生产环境部署与监控

OFA图像描述模型在Ubuntu系统下的生产环境部署与监控 你或许已经成功在本地电脑上跑通了OFA模型,能给它一张图,让它说出一段描述。但当你想把这个能力开放给团队,甚至集成到线上产品里时,单机运行的脚本就显得力不从心了。服务不…...

文脉定序实操手册:重排序结果后处理——去重、多样性控制与截断

文脉定序实操手册:重排序结果后处理——去重、多样性控制与截断 1. 理解重排序后处理的必要性 当你使用文脉定序系统进行语义重排序后,可能会发现一个常见问题:返回的结果虽然相关性很高,但内容重复度也很高。比如搜索"人工…...

RePKG全能解析:Wallpaper Engine资源高效处理完全指南

RePKG全能解析:Wallpaper Engine资源高效处理完全指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 作为Wallpaper Engine动态壁纸的资深用户,你是否曾因无…...

Qwen-Image+RTX4090D应用案例:面向视障用户的图像语音描述生成服务部署实践

Qwen-ImageRTX4090D应用案例:面向视障用户的图像语音描述生成服务部署实践 1. 项目背景与价值 想象一下,当你走在街上看到一块广告牌,但无法看清上面的内容时,会错过多少重要信息?对于视障人士来说,这个场…...

Qwen2-VL-2B-Instruct在微信小程序开发中的实战应用:智能客服系统搭建

Qwen2-VL-2B-Instruct在微信小程序开发中的实战应用:智能客服系统搭建 为你的小程序插上AI的翅膀,让智能客服不再是大型企业的专属 1. 为什么小程序需要智能客服 如果你开发过微信小程序,一定遇到过这样的问题:用户咨询量大的时候…...

从反复失败到一次成功:3MF格式如何拯救我的3D打印项目

从反复失败到一次成功:3MF格式如何拯救我的3D打印项目 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 当我首次尝试3D打印时,连续三次失败的经历让…...

深求·墨鉴在办公场景的神应用:扫描合同、复杂表单解析全搞定

深求墨鉴在办公场景的神应用:扫描合同、复杂表单解析全搞定 1. 办公文档处理的痛点与解决方案 在日常办公中,我们经常需要处理各种纸质文档和电子表格。从合同扫描存档到复杂表单数据提取,传统的手工录入方式不仅效率低下,还容易…...

开箱即用:麦橘超然Flux离线图像生成控制台完整使用流程解析

开箱即用:麦橘超然Flux离线图像生成控制台完整使用流程解析 1. 为什么选择本地化AI图像生成工具? 在AI绘画工具遍地开花的今天,大多数解决方案都依赖于云端服务。这带来了几个实际问题:生成速度受网络影响、隐私数据需要上传、高…...