当前位置：首页 > article >正文

LLM/HPC常见术语汇总

article 2026/3/22 3:26:34

文章目录一、基础架构类LLM核心概念二、核心算子/层类算子开发重点三、训练/推理优化类四、性能/硬件相关类算子开发核心五、推理策略类汇总关键点一、基础架构类LLM核心概念术语全称核心解释LLM场景关联Transformer-2017年提出的序列建模架构LLM的基础由Encoder/Decoder、Self-Attention、FFN组成所有现代LLMLLaMA/Qwen/GLM均基于Transformer变体Encoder编码器双向注意力输入序列全可见如BERT仅Encoder架构少用LLM多为Decoder-onlyDecoder解码器单向因果注意力只能看前文如GPTLLM主流架构LLaMA/GPT均为Decoder-onlyToken-文本的最小单位字/词/子词LLM的输入基本单元如“大模型”可能拆为“大”“模型”两个tokenVocabVocabulary模型可识别的token字典包含所有可生成的token常见大小32k/64k/128k如LLaMA2 vocab32000Embedding-将token转为高维向量语义表示LLM第一层输出维度为hidden_dim如4096Hidden DimHidden Dimension模型每一层的特征维度核心超参如LLaMA2-7B的hidden_dim4096FFNFeed Forward Network前馈网络Transformer的非线性层占模型计算量≈50%核心是GEMM算子Num HeadsNumber of Attention Heads多头注意力的头数如LLaMA2-7B num_heads32拆分hidden_dim并行计算二、核心算子/层类算子开发重点术语全称核心解释LLM场景关联MHSAMulti-Head Self-Attention多头自注意力将Q/K/V拆分为多个头并行计算最后拼接LLM最核心算子显存/性能瓶颈所在SASelf-Attention自注意力计算token间的关联权重聚合上下文信息MHSA的基础单元核心流程Q·K^T→Softmax→×VCACross-Attention交叉注意力Decoder关注Encoder输出如翻译模型多模态LLM如GPT-4V常用LNLayer Normalization层归一化对每个token的特征做归一化减均值、除方差解决训练不稳定LLM每一层后必用RMSNormRoot Mean Square Normalization简化版LN仅做均方根缩放无均值减法LLaMA/Qwen等LLM标配计算更快BNBatch Normalization批归一化对批次维度做归一化LLM中几乎不用序列长度不一致批维度无意义Softmax-归一化函数将分值转为和为1的概率分布MHSA中归一化注意力权重输出层生成token概率ScaleSoftmax-带缩放的Softmax分值/√head_dimMHSA专用防止Q·K^T分值过大导致梯度消失RoPERotary Position Embedding旋转位置编码通过复数旋转给Q/K加入位置信息LLaMA/Qwen主流位置编码方式算子开发高频考点ALiBiAttention with Linear Biases线性偏置位置编码给注意力分值加位置偏置推理友好无需额外位置向量存储GELU/SwiGLUGaussian Error Linear Units激活函数引入非线性FFN层核心SwiGLU是LLM主流替代GELUGEMMGeneral Matrix Multiplication通用矩阵乘法支持任意形状矩阵乘LLM 90%计算量来自GEMMQKV投影/FFNMatMulMatrix Multiplication基础矩阵乘法GEMM的子集特指二维矩阵乘Reduce-归约算子Sum/Mean/Max/VarLN/RMSNorm/Softmax的核心子算子三、训练/推理优化类术语全称核心解释LLM场景关联KVCacheKey-Value Cache推理时缓存历史K/V避免重复计算注意力LLM推理提速核心显存占用主要来源FlashAttention-高性能Attention实现分块内存复用降低显存解决MHSA O(N²)显存问题LLM训练/推理标配PagedAttention-分页式KVCache将缓存分页管理vLLM推理引擎核心支持动态批处理MoEMixture of Experts混合专家模型稀疏激活不同专家网络大模型扩容方案如GLaM降低计算量TopK-选取分值最高的K个元素MoE中选激活的专家生成时选候选tokenGather/Scatter-聚合/分散算子按索引读写数据MoE中分发/收集token到对应专家All2All-集体通信算子跨卡全量数据交换MoE多卡并行时分发token到不同卡的专家Dropout-正则化算子随机屏蔽神经元输出训练时防止过拟合推理时关闭Quantization-量化降低数据精度FP32→FP16/BF16/FP8/INT4减少显存占用、提升推理速度算子开发重点TPTensor Parallelism张量并行拆分模型参数到多卡大模型训练/推理必用如70B模型拆8卡PPPipeline Parallelism流水线并行拆分模型层到多卡超大规模模型如175B的并行方式ZeROZero Redundancy Optimizer零冗余优化器拆分优化器状态到多卡降低训练显存占用主流大模型训练框架标配四、性能/硬件相关类算子开发核心术语全称核心解释LLM场景关联SMStreaming MultiprocessorGPU核心计算单元包含CUDA Core/Tensor Core算子线程块分配的基本单元Tensor Core-NVIDIA专用矩阵计算单元支持混合精度GEMM算子性能优化核心LLM计算提速关键Warp-CUDA基本执行单元32个线程Reduce/Softmax算子优化的核心粒度Warp Shuffle-Warp内线程直接交换数据的指令Reduce算子高性能实现的核心手段Shared Memory-SM级高速共享内存速度≈寄存器FlashAttention核心优化减少全局内存访存Global Memory-GPU全局显存HBMLLM大张量存储位置访存速度慢Coalesced Access-全局内存合并访问线程访问连续地址算子访存优化的核心要求提升带宽利用率Kernel Fusion-算子融合将多个算子合并为一个Kernel减少中间张量存储提升LLM算子吞吐量Memory-Bound-算子性能瓶颈为内存访问而非计算MHSA/Softmax/Reduce均为访存绑定Compute-Bound-算子性能瓶颈为计算速度GEMM/FFN层接近计算绑定五、推理策略类术语全称核心解释LLM场景关联Speculative Sampling-推测采样小模型推测、大模型验证提升LLM推理速度如FastChatBeam Search-束搜索保留多个候选序列生成结果提升生成质量推理延迟较高Greedy Search-贪心搜索每次选概率最高的token推理速度最快生成多样性低Dynamic Batching-动态批处理合并不同长度的推理请求vLLM/TensorRT-LLM核心提升吞吐量汇总关键点算子开发核心聚焦MHSA/FlashAttention、LN/RMSNorm、Softmax、Reduce、RoPE、GEMM、KVCache、MoE相关算子LLM特有优化KVCache、FlashAttention、量化、张量并行是区别于传统CV/NLP的核心硬件优化关键词Tensor Core、Warp Shuffle、Shared Memory、Kernel Fusion是CUDA算子开发的核心抓手。

LLM/HPC常见术语汇总

相关文章：

LLM/HPC常见术语汇总

C语言中的宏日志打印语法以及相对printf的优点

Wan2.1-umt5代码生成实战：媲美Claude Code的AI编程助手

不懂技术也能用AI管物流？深度解析OpenClaw如何重塑货代行业底层逻辑

手把手教你学Simulink——基于Simulink的温度漂移下PMSM转矩输出补偿策略

【优化求解】遗传算法的非线性静态系统识别（含高斯基函数）【含Matlab源码 15202期】

CHM文件制作中的三大核心文件解析：.hhp、.hhc、.hhk的作用与关系

从“洛必达”到“泰勒展开”：用Python可视化理解高等数学核心定理（附代码）

【故障检测】模拟运载火箭俯仰控制系统中基于IMU的故障检测（结合执行器动力学和基于残差的检测）【含Matlab源码 15205期】含报告

Ostrakon-VL-8B艺术鉴赏分析：解读画作风格、情感与历史背景

Cat-Catch：浏览器资源嗅探扩展的架构深度解析与技术实现

MedGemma-X快速上手：5分钟部署，像医生一样对话式阅片

Qwen3.5-9B效果展示：Qwen3-VL全面超越者——图文推理与代码生成惊艳案例集

MC1496调幅电路实战：从DSB到AM的完整调试过程（附示波器截图）

科哥二次开发实战：用SenseVoice Small构建智能语音情感分析工具

Qwen3-Reranker-0.6B一键部署教程：5分钟搞定VLLM+WebUI调用

2026白帽挖洞实操指南｜从零基础到轻松提权，新手也能快速上手拿赏金

避坑指南：人机协同项目中80%团队都会犯的3个数据标注错误

思源宋体TTF终极指南：7种字重免费商用字体快速上手

梦幻动漫魔法工坊体验：输入一句话，生成你的动漫世界女主角

VibeVoice语音合成教学：新手如何30分钟内完成首次调用

基于Mirage Flow的Python爬虫实战：数据采集与智能处理全流程

OFA图像描述模型在Ubuntu系统下的生产环境部署与监控

文脉定序实操手册：重排序结果后处理——去重、多样性控制与截断

RePKG全能解析：Wallpaper Engine资源高效处理完全指南

Qwen-Image+RTX4090D应用案例：面向视障用户的图像语音描述生成服务部署实践

Qwen2-VL-2B-Instruct在微信小程序开发中的实战应用：智能客服系统搭建

从反复失败到一次成功：3MF格式如何拯救我的3D打印项目

深求·墨鉴在办公场景的神应用：扫描合同、复杂表单解析全搞定

开箱即用：麦橘超然Flux离线图像生成控制台完整使用流程解析