当前位置：首页 > news >正文

LLM全栈框架完整分类清单（预训练+微调+工具链）

news 2026/4/14 10:15:01

一、预训练框架

1. 大规模分布式训练框架

框架名称	核心能力	GitHub地址
Megatron-LM	3D并行训练、FlashAttention支持、Transformer架构优化（NVIDIA生态）	NVIDIA/Megatron-LM
DeepSpeed	ZeRO优化系列、3D并行、RLHF全流程支持（微软生态）	microsoft/DeepSpeed
ColossalAI	多维并行、Gemini内存管理、自动并行策略（国产最优方案）	hpcaitech/ColossalAI
BMTrain	中文模型优化、ZeRO实现、显存优化（OpenBMB生态）	OpenBMB/BMTrain
Alpa	自动并行训练、JAX/TPU原生支持（学术研究友好）	alpa-projects/alpa
FastMoE	MoE架构专用、动态路由优化（混合专家模型首选）	laekov/fastmoe

2. 通用训练框架

框架名称	核心能力	GitHub地址
Fairseq	序列模型优化、多任务支持（Meta官方框架）	facebookresearch/fairseq
PaddlePaddle	全栈支持、产业级优化（百度飞桨生态）	PaddlePaddle/Paddle
MindSpore	端边云协同、自动并行（华为昇腾生态）	mindspore-ai/mindspore
OneFlow	分布式训练、静态图优化（国产高性能框架）	Oneflow-Inc/oneflow
JAX/Flax	函数式编程、TPU原生优化（Google科研生态）	google/jax

3. 预训练工具链

工具名称	核心能力	GitHub地址
Transformers	集成数万预训练模型、多模态支持（Hugging Face生态核心）	huggingface/transformers
ModelScope	模型仓库+训练平台（阿里巴巴多模态生态）	modelscope/modelscope
FairScale	分布式训练、显存优化（Meta官方工具）	facebookresearch/fairscale

二、微调框架

1. 全参数微调框架

框架名称	核心能力	GitHub地址
LitGPT	FSDP支持、量化训练、全流程管理（Lightning AI官方方案）	Lightning-AI/lit-gpt
DeepSpeed-Chat	RLHF全流程优化、混合并行（微软对话模型专用）	microsoft/DeepSpeed-Chat
MosaicML	算法优化、云端训练（商业级SaaS方案）	mosaicml/composer

2. 参数高效微调（PEFT）

框架名称	核心能力	GitHub地址
PEFT	LoRA/QLoRA/AdaLoRA、Prefix Tuning（Hugging Face官方库）	huggingface/peft
OpenDelta	Delta Tuning、多模态适配器（清华NLP组）	thunlp/OpenDelta
S-LoRA	服务化LoRA、动态批处理（Stanford优化方案）	S-LoRA/S-LoRA

3. 指令微调框架

框架名称	核心能力	GitHub地址
LLaMA-Factory	多模型支持、RLHF集成（社区最活跃框架）	hiyouga/LLaMA-Factory
Chinese-LLaMA-Alpaca	中文指令优化、词表扩展（中文领域首选）	ymcui/Chinese-LLaMA-Alpaca
TRL	RLHF训练、PPO/DPO实现（Hugging Face官方方案）	huggingface/trl

4. 量化训练框架

框架名称	核心能力	GitHub地址
GPTQ	低比特量化、训练后优化（IST-DASLab方案）	IST-DASLab/gptq
QLoRA	量化LoRA、显存占用优化（华盛顿大学方案）	artidoro/qlora
BitsAndBytes	8bit优化、量化训练（Tim Dettmers主导）	TimDettmers/bitsandbytes

三、支撑工具链

1. 推理优化框架

框架名称	核心能力	GitHub地址
vLLM	PagedAttention、高吞吐推理（工业级首选）	vllm-project/vllm
TensorRT-LLM	NVIDIA硬件优化、低延迟推理（企业级部署）	NVIDIA/TensorRT-LLM
llama.cpp	CPU推理、GGUF量化（边缘计算首选）	ggerganov/llama.cpp

2. 评估与基准测试

框架名称	核心能力	GitHub地址
OpenCompass	多维度评估、性能分析（上海AI Lab）	InternLM/opencompass
LM-Evaluation-Harness	标准测试集、跨模型对比（EleutherAI）	EleutherAI/lm-evaluation-harness

3. 数据处理工具

工具名称	核心能力	GitHub地址
Datasets	数据加载与预处理（Hugging Face生态）	huggingface/datasets
WebDataset	流式处理、超大规模数据支持	webdataset/webdataset

4. 分布式训练支持

框架名称	核心能力	GitHub地址
Ray	资源调度、分布式计算（UC Berkeley方案）	ray-project/ray
Horovod	多框架支持、易用性优化（Uber开源）	horovod/horovod

四、选型指南

预训练场景

超大规模训练：DeepSpeed（ZeRO优化） + Megatron-LM（模型并行）
国产化需求：ColossalAI（多维并行） + PaddlePaddle（产业级支持）
学术研究：JAX/Flax（函数式编程） + Fairseq（序列模型优化）

微调场景

参数高效：PEFT（LoRA/QLoRA） + OpenDelta（多任务适配）
中文优化：Chinese-LLaMA-Alpaca（指令微调） + ChatGLM-Tuning（清华方案）
工业级部署：vLLM（高吞吐） + TensorRT-LLM（NVIDIA硬件加速）

工具链补充

数据处理：Datasets（标准化） + WebDataset（流式处理）
量化压缩：GPTQ（训练后量化） + QLoRA（微调量化）

本清单覆盖 GitHub Star > 1k 的主流框架，按技术栈和场景分类，持续跟踪最新技术演进。

免责声明

本报告（“LLM全栈框架完整分类清单（预训练+微调+工具链）”）由[ViniJack.SJX] 根据公开可获得的信息以及作者的专业知识和经验撰写，旨在提供关于“LLM全栈框架完整分类清单（预训练+微调+工具链）”的分析和信息。

1. 信息准确性与完整性：

作者已尽最大努力确保报告中信息的准确性和完整性，但不对其绝对准确性、完整性或及时性做出任何明示或暗示的保证。
报告中的信息可能随时间推移而发生变化，作者不承担更新报告内容的义务。
报告中引用的第三方信息（包括但不限于网站链接、项目描述、数据统计等）均来自公开渠道，作者不对其真实性、准确性或合法性负责。

2. 报告用途与责任限制：

本报告仅供参考和学习之用，不构成任何形式的投资建议、技术建议、法律建议或其他专业建议。
读者应自行判断和评估报告中的信息，并根据自身情况做出决策。
对于因使用或依赖本报告中的信息而导致的任何直接或间接损失、损害或不利后果，作者不承担任何责任。

3. 技术使用与合规性：

本报告中提及的任何爬虫框架、工具或技术，读者应自行负责其合法合规使用。
在使用任何爬虫技术时，读者应遵守相关法律法规（包括但不限于数据隐私保护法、知识产权法、网络安全法等），尊重网站的服务条款和robots协议，不得侵犯他人合法权益。
对于因读者违反相关法律法规或不当使用爬虫技术而导致的任何法律责任或纠纷，作者不承担任何责任。

4. 知识产权：

本报告的版权归作者所有，未经作者书面许可，任何人不得以任何形式复制、传播、修改或使用本报告的全部或部分内容。
报告中引用的第三方内容，其知识产权归原作者所有。

5. 其他：

本报告可能包含对未来趋势的预测，这些预测基于作者的判断和假设，不构成任何形式的保证。
作者保留随时修改本免责声明的权利。

请在使用本报告前仔细阅读并理解本免责声明。如果您不同意本免责声明的任何条款，请勿使用本报告。

LLM全栈框架完整分类清单（预训练+微调+工具链）

一、预训练框架 1. 大规模分布式训练框架框架名称核心能力GitHub地址Megatron-LM3D并行训练、FlashAttention支持、Transformer架构优化（NVIDIA生态）NVIDIA/Megatron-LMDeepSpeedZeRO优化系列、3D并行、RLHF全流程支持（微软生态&#xff09…...

编程日记 2025/2/26 18:36:14

蓝桥杯备考：贪心算法之矩阵消除游戏

这道题是牛客上的一道题，它呢和我们之前的排座位游戏非常之相似，但是，排座位问题选择行和列是不会改变元素的值的，这道题呢每每选一行都会把这行或者这列清零，所以我们的策略就是先用二进制把选择所有行的情况全部枚举…...

编程日记 2025/2/26 18:35:12

【Matlab仿真】Matlab Function中如何使用静态变量？

背景根据Simulink的运行机制，每个采样点会调用一次MATLAB Function的函数，两次调用之间，同一个变量的前次计算的终值如何传递到当前计算周期来？其实可以使用persistent变量实现函数退出和进入时内部变量值的保持。 persistent变…...

编程日记 2025/2/26 18:26:02

DeepSeek 提示词：高效的提示词设计

🧑 博主简介：CSDN博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编…...

编程日记 2025/2/26 18:24:59

深入学习Java中的Lambda表达式

深入学习Java中的Lambda表达式自Java 8引入以来，Lambda表达式彻底改变了Java的编程风格，让代码变得更加简洁、易读，尤其是在函数式编程的场景中。接下来，我们将深入探讨Lambda表达式的语法、原理以及实际应用，帮助你…...

编程日记 2025/2/26 18:22:57

1.2 AI 量化炒股的起源与发展

**定性价值**：AI量化炒股通过算法模型实现投资决策自动化，显著提升交易效率与风险控制能力，打破传统人工交易的主观性与延迟性，推动金融科技向智能化、数据驱动方向迭代，具有颠覆传统投资模式的战略意义。 **定量价值…...

编程日记 2025/2/26 18:21:56

计算机单位之详解——存储单位Byte 网络传输单位bps 视频码率单位bps

前言： 计算机里面单位有点复杂，容易混淆，很多时候混起来就容易概念不理解，包括一些小问题，比如说：为什么我买了1T硬盘，实际存在虚标。为什么所谓的千兆宽带，下载起来没有1G每秒&…...

编程日记 2025/2/26 18:20:53

IDEA关闭SpringBoot程序后仍然占用端口的排查与解决

IDEA关闭SpringBoot程序后仍然占用端口的排查与解决问题描述在使用 IntelliJ IDEA 开发 Spring Boot 应用时，有时即使关闭了应用，程序仍然占用端口（例如：4001 端口）。这会导致重新启动应用时出现端口被占用的错误&a…...

编程日记 2025/2/26 18:19:52

deepseek清华大学第二版如何获取 DeepSeek如何赋能职场应用 PDF文档电子档(附下载)

deepseek清华大学第二版 DeepSeek如何赋能职场 pdf文件完整版下载 https://pan.baidu.com/s/1aQcNS8UleMldcoH0Jc6C6A?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/3ee62050a2ac...

编程日记 2025/2/26 18:18:50

【python随手记】——读取文本文件内容转换为json格式

文章目录前言一、TXT文件转换为JSON数组1.txt文件内容2.python代码3.输出结果二、TXT文件转换为JSON对象1.txt文件2.python代码3.输出结果前言场景：用于读取包含空格分隔数据的TXT文件，并将其转换为结构化JSON文件一、TXT文件转换为JSON数组 1.tx…...

编程日记 2025/2/26 18:15:42

k8s集群3主5从高可用架构（kubeadm方式安装k8s）

关键步骤说明环境准备阶段系统更新：所有节点执行yum/apt update确保软件包最新时间同步：通过ntpdate time.windows.com或部署NTP服务器网络规划：明确划分Service网段（默认10.96.0.0/12）和Pod网段（如Flann…...

编程日记 2025/2/26 18:13:37

基于 sklearn 的均值偏移聚类算法的应用

基于 sklearn 的均值偏移聚类算法的应用在机器学习和数据挖掘中，聚类算法是一类非常重要的无监督学习方法。它的目的是将数据集中的数据点划分为若干个类，使得同一类的样本点彼此相似，而不同类的样本点相互之间差异较大。均值偏移聚类&…...

编程日记 2025/2/26 18:12:35

三、大模型微调的多种方法与应用场景

详解大模型微调的多种方法与应用场景随着大模型的不断发展，如何有效地微调这些庞大的预训练模型以适应特定任务成为了研究和应用中的一个重要问题。大模型微调不仅能够提高任务性能，还能在不同的业务需求中提升模型的适应性。在本文中，我们…...

编程日记 2025/2/26 18:09:31

第2课树莓派镜像的烧录

树莓派的系统通常是安装在SD卡上的‌。SD卡作为启动设备，负责启动树莓派并加载操作系统。这种设计使得树莓派具有便携性和灵活性，用户可以通过更换SD卡来更换操作系统或恢复出厂设置。烧录树莓派的镜像即是将树莓派镜像烧录到SD卡上，在此期间会格式化SD卡，如果SD卡…...

编程日记 2025/2/26 18:06:26

SQL之order by盲注

目录一.order by盲注的原理二.注入方式 a.布尔盲注 b.时间盲注三.防御一.order by盲注的原理 order by子句是用于按指定列排序查询结果，列名或列序号皆可。 order by 后面接的字段或者数字不一样，那么这个数据表的排序就会不同。 order by 盲…...

编程日记 2025/2/26 18:05:20

AI大模型（四）基于Deepseek本地部署实现模型定制与调教

AI大模型（四）基于Deepseek本地部署实现模型定制与调教 DeepSeek开源大模型在榜单上以黑马之姿横扫多项评测，其社区热度指数暴涨、一跃成为近期内影响力最高的话题，这个来自中国团队的模型向世界证明：让每个普通人都能…...

编程日记 2025/2/26 18:04:19

（以下内容全部来自上述课程） 1.要求及思路 1.总体框架 2.注册 3.登录 4.忘记密码 2.代码 1.javabean public class User1 {private String username;private String password;private String personID;private String phoneNumber;public User1() {…...

编程日记 2025/2/26 17:59:12

MFC文件和注册表的操作

MFC文件和注册表的操作日志、操作配置文件、ini、注册表、音视频的文件存储 Linux下一切皆文件 C/C操作文件 const char* 与 char* const const char* 常量指针，表示指向的内容为常量。指针可以指向其他变量，但是内容不能再变了 char szName[6]&qu…...

编程日记 2025/2/26 17:58:10

vscode如何使用鼠标滚轮调整字体大小

1.打开设置 2.搜索Font Ligatures 3.编辑配置文件 4.修改代码并保存修改前修改后在最后一行添加：“editor.mouseWheelZoom”: true 记得在上一行最后，加上英文版的“,”逗号 5.配置成功，再次按Ctrl鼠标滚轮便可以缩放了。...

编程日记 2025/2/26 17:54:05

C++之vector和list辨析

std::vector 和 std::list 是 C 标准库中两种常用的容器，它们都用于存储和管理元素集合，但在底层实现和性能特性上有显著的区别。 1. 底层实现 std::vector: 基于动态数组实现。元素在内存中是连续存储的。支持随机访问（通过下标访问元素&a…...

编程日记 2025/2/26 17:49:58

GitHub中文界面终极指南：3分钟让GitHub全面中文化的完整教程

GitHub中文界面终极指南：3分钟让GitHub全面中文化的完整教程【免费下载链接】github-chinese GitHub 汉化插件，GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 你是否曾经因…...

编程新知 2026/4/14 10:10:34

WorkBuddy企业级部署：权限与安全配置详解

目录 WorkBuddy架构概述部署前的准备工作权限体系设计安全配置详解审计日志配置常见问题与排查 WorkBuddy架构概述 WorkBuddy是腾讯推出的企业级AI助手，与面向个人的QClaw不同，WorkBuddy专注于企业场景，提供以下核心能力： 企业…...

编程新知 2026/4/14 9:30:48

higress 这个中登才是AI时代的心头好始

核心摘要：这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景，告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”，并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...

编程新知 2026/4/14 8:47:18

分散加载详解与应用

分散加载（Scatter Loading）是一种由链接器（Linker）提供的、用于精确控制程序各个段（如代码、数据）在目标存储器（如 Flash、RAM）中加载地址和执行地址的机制。其核心在于将单一的、线…...

编程新知 2026/4/14 7:51:24

C# 基于Ble的蓝牙通讯数据交互实战指南

1. BLE蓝牙通讯基础与C#开发环境搭建低功耗蓝牙（BLE）已经成为物联网设备的主流通讯方案，相比传统蓝牙，它的功耗更低、连接速度更快。在智能手环、健康监测设备等场景中，BLE技术随处可见。作为C#开发者，我们…...

编程新知 2026/4/14 7:01:17

SimCLR项目扩展指南：自定义数据增强与模型架构开发

SimCLR项目扩展指南：自定义数据增强与模型架构开发【免费下载链接】SimCLR PyTorch implementation of SimCLR: A Simple Framework for Contrastive Learning of Visual Representations 项目地址: https://gitcode.com/gh_mirrors/sim/SimCLR SimCLR&…...

编程新知 2026/4/14 6:55:16

nlp_structbert_sentence-similarity_chinese-large保姆级教程：错误日志排查与常见报错解决方案

nlp_structbert_sentence-similarity_chinese-large保姆级教程：错误日志排查与常见报错解决方案 1. 工具简介：你的中文句子相似度分析助手 nlp_structbert_sentence-similarity_chinese-large 是一个专门处理中文句子相似度的强大工具。它基于阿里达摩…...

编程新知 2026/4/14 6:08:48

AI 入门 30 天挑战 - Day 8 费曼学习法版 - 神经网络初探

🌟 完整项目和代码本教程是 AI 入门 30 天挑战系列的一部分！ 💻 GitHub 仓库: https://github.com/Lee985-cmd/AI-30-Day-Challenge📖 CSDN 专栏: https://blog.csdn.net/m0_67081842?typeblog⭐ 欢迎 Star 支持！…...

编程新知 2026/4/14 5:50:41

边缘 AI 成智能制造核心引擎，微品致远荣膺2026年边缘计算企业20强

请点击上方蓝字关注我们！近日，由边缘计算领域长期观察者与生态建设者——边缘计算社区精心策划并发起的“2026中国边缘计算企业20强”榜单正式发布。微品致远凭借在边缘AI领域的卓越表现与深厚技术积淀，从众多强劲竞争对手中脱颖而出&#xf…...

编程新知 2026/4/14 5:20:32

C++代码静态检查脚本工具（指针判空越界访问除0风险）

做了个小项目需要进行代码规范检查，但试了两个CPP静态检查工具，效果都不太好。为了快速迭代维护，直接用pyAI写了个常规代码规范校验脚本工具。目前实现三个功能并封了界面：空指针访问、数组越界访问、除0风险排查。用sample文件夹…...

编程新知 2026/4/14 4:54:21