当前位置: 首页 > news >正文

LLM全栈框架完整分类清单(预训练+微调+工具链)

一、预训练框架

1. 大规模分布式训练框架

框架名称核心能力GitHub地址
Megatron-LM3D并行训练、FlashAttention支持、Transformer架构优化(NVIDIA生态)NVIDIA/Megatron-LM
DeepSpeedZeRO优化系列、3D并行、RLHF全流程支持(微软生态)microsoft/DeepSpeed
ColossalAI多维并行、Gemini内存管理、自动并行策略(国产最优方案)hpcaitech/ColossalAI
BMTrain中文模型优化、ZeRO实现、显存优化(OpenBMB生态)OpenBMB/BMTrain
Alpa自动并行训练、JAX/TPU原生支持(学术研究友好)alpa-projects/alpa
FastMoEMoE架构专用、动态路由优化(混合专家模型首选)laekov/fastmoe

2. 通用训练框架

框架名称核心能力GitHub地址
Fairseq序列模型优化、多任务支持(Meta官方框架)facebookresearch/fairseq
PaddlePaddle全栈支持、产业级优化(百度飞桨生态)PaddlePaddle/Paddle
MindSpore端边云协同、自动并行(华为昇腾生态)mindspore-ai/mindspore
OneFlow分布式训练、静态图优化(国产高性能框架)Oneflow-Inc/oneflow
JAX/Flax函数式编程、TPU原生优化(Google科研生态)google/jax

3. 预训练工具链

工具名称核心能力GitHub地址
Transformers集成数万预训练模型、多模态支持(Hugging Face生态核心)huggingface/transformers
ModelScope模型仓库+训练平台(阿里巴巴多模态生态)modelscope/modelscope
FairScale分布式训练、显存优化(Meta官方工具)facebookresearch/fairscale

二、微调框架

1. 全参数微调框架

框架名称核心能力GitHub地址
LitGPTFSDP支持、量化训练、全流程管理(Lightning AI官方方案)Lightning-AI/lit-gpt
DeepSpeed-ChatRLHF全流程优化、混合并行(微软对话模型专用)microsoft/DeepSpeed-Chat
MosaicML算法优化、云端训练(商业级SaaS方案)mosaicml/composer

2. 参数高效微调(PEFT)

框架名称核心能力GitHub地址
PEFTLoRA/QLoRA/AdaLoRA、Prefix Tuning(Hugging Face官方库)huggingface/peft
OpenDeltaDelta Tuning、多模态适配器(清华NLP组)thunlp/OpenDelta
S-LoRA服务化LoRA、动态批处理(Stanford优化方案)S-LoRA/S-LoRA

3. 指令微调框架

框架名称核心能力GitHub地址
LLaMA-Factory多模型支持、RLHF集成(社区最活跃框架)hiyouga/LLaMA-Factory
Chinese-LLaMA-Alpaca中文指令优化、词表扩展(中文领域首选)ymcui/Chinese-LLaMA-Alpaca
TRLRLHF训练、PPO/DPO实现(Hugging Face官方方案)huggingface/trl

4. 量化训练框架

框架名称核心能力GitHub地址
GPTQ低比特量化、训练后优化(IST-DASLab方案)IST-DASLab/gptq
QLoRA量化LoRA、显存占用优化(华盛顿大学方案)artidoro/qlora
BitsAndBytes8bit优化、量化训练(Tim Dettmers主导)TimDettmers/bitsandbytes

三、支撑工具链

1. 推理优化框架

框架名称核心能力GitHub地址
vLLMPagedAttention、高吞吐推理(工业级首选)vllm-project/vllm
TensorRT-LLMNVIDIA硬件优化、低延迟推理(企业级部署)NVIDIA/TensorRT-LLM
llama.cppCPU推理、GGUF量化(边缘计算首选)ggerganov/llama.cpp

2. 评估与基准测试

框架名称核心能力GitHub地址
OpenCompass多维度评估、性能分析(上海AI Lab)InternLM/opencompass
LM-Evaluation-Harness标准测试集、跨模型对比(EleutherAI)EleutherAI/lm-evaluation-harness

3. 数据处理工具

工具名称核心能力GitHub地址
Datasets数据加载与预处理(Hugging Face生态)huggingface/datasets
WebDataset流式处理、超大规模数据支持webdataset/webdataset

4. 分布式训练支持

框架名称核心能力GitHub地址
Ray资源调度、分布式计算(UC Berkeley方案)ray-project/ray
Horovod多框架支持、易用性优化(Uber开源)horovod/horovod

四、选型指南

预训练场景

  • 超大规模训练:DeepSpeed(ZeRO优化) + Megatron-LM(模型并行)
  • 国产化需求:ColossalAI(多维并行) + PaddlePaddle(产业级支持)
  • 学术研究:JAX/Flax(函数式编程) + Fairseq(序列模型优化)

微调场景

  • 参数高效:PEFT(LoRA/QLoRA) + OpenDelta(多任务适配)
  • 中文优化:Chinese-LLaMA-Alpaca(指令微调) + ChatGLM-Tuning(清华方案)
  • 工业级部署:vLLM(高吞吐) + TensorRT-LLM(NVIDIA硬件加速)

工具链补充

  • 数据处理:Datasets(标准化) + WebDataset(流式处理)
  • 量化压缩:GPTQ(训练后量化) + QLoRA(微调量化)

本清单覆盖 GitHub Star > 1k 的主流框架,按技术栈和场景分类,持续跟踪最新技术演进。

免责声明

本报告(“LLM全栈框架完整分类清单(预训练+微调+工具链)”)由[ViniJack.SJX] 根据公开可获得的信息以及作者的专业知识和经验撰写,旨在提供关于“LLM全栈框架完整分类清单(预训练+微调+工具链)”的分析和信息。

1. 信息准确性与完整性:

  • 作者已尽最大努力确保报告中信息的准确性和完整性,但不对其绝对准确性、完整性或及时性做出任何明示或暗示的保证。

  • 报告中的信息可能随时间推移而发生变化,作者不承担更新报告内容的义务。

  • 报告中引用的第三方信息(包括但不限于网站链接、项目描述、数据统计等)均来自公开渠道,作者不对其真实性、准确性或合法性负责。

2. 报告用途与责任限制:

  • 本报告仅供参考和学习之用,不构成任何形式的投资建议、技术建议、法律建议或其他专业建议。

  • 读者应自行判断和评估报告中的信息,并根据自身情况做出决策。

  • 对于因使用或依赖本报告中的信息而导致的任何直接或间接损失、损害或不利后果,作者不承担任何责任。

3. 技术使用与合规性:

  • 本报告中提及的任何爬虫框架、工具或技术,读者应自行负责其合法合规使用。

  • 在使用任何爬虫技术时,读者应遵守相关法律法规(包括但不限于数据隐私保护法、知识产权法、网络安全法等),尊重网站的服务条款和robots协议,不得侵犯他人合法权益。

  • 对于因读者违反相关法律法规或不当使用爬虫技术而导致的任何法律责任或纠纷,作者不承担任何责任。

4. 知识产权:

  • 本报告的版权归作者所有,未经作者书面许可,任何人不得以任何形式复制、传播、修改或使用本报告的全部或部分内容。

  • 报告中引用的第三方内容,其知识产权归原作者所有。

5. 其他:

  • 本报告可能包含对未来趋势的预测,这些预测基于作者的判断和假设,不构成任何形式的保证。

  • 作者保留随时修改本免责声明的权利。

请在使用本报告前仔细阅读并理解本免责声明。如果您不同意本免责声明的任何条款,请勿使用本报告。

相关文章:

LLM全栈框架完整分类清单(预训练+微调+工具链)

一、预训练框架 1. 大规模分布式训练框架 框架名称核心能力GitHub地址Megatron-LM3D并行训练、FlashAttention支持、Transformer架构优化(NVIDIA生态)NVIDIA/Megatron-LMDeepSpeedZeRO优化系列、3D并行、RLHF全流程支持(微软生态&#xff09…...

蓝桥杯备考:贪心算法之矩阵消除游戏

这道题是牛客上的一道题,它呢和我们之前的排座位游戏非常之相似,但是,排座位问题选择行和列是不会改变元素的值的,这道题呢每每选一行都会把这行或者这列清零,所以我们的策略就是先用二进制把选择所有行的情况全部枚举…...

【Matlab仿真】Matlab Function中如何使用静态变量?

背景 根据Simulink的运行机制,每个采样点会调用一次MATLAB Function的函数,两次调用之间,同一个变量的前次计算的终值如何传递到当前计算周期来?其实可以使用persistent变量实现函数退出和进入时内部变量值的保持。 persistent变…...

DeepSeek 提示词:高效的提示词设计

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...

深入学习Java中的Lambda表达式

深入学习Java中的Lambda表达式 自Java 8引入以来,Lambda表达式彻底改变了Java的编程风格,让代码变得更加简洁、易读,尤其是在函数式编程的场景中。接下来,我们将深入探讨Lambda表达式的语法、原理以及实际应用,帮助你…...

1.2 AI 量化炒股的起源与发展

**定性价值**:AI量化炒股通过算法模型实现投资决策自动化,显著提升交易效率与风险控制能力,打破传统人工交易的主观性与延迟性,推动金融科技向智能化、数据驱动方向迭代,具有颠覆传统投资模式的战略意义。 **定量价值…...

计算机单位之详解——存储单位Byte 网络传输单位bps 视频码率单位bps

前言: 计算机里面单位有点复杂,容易混淆,很多时候混起来就容易概念不理解,包括一些小问题,比如说:为什么我买了1T硬盘,实际存在虚标。为什么所谓的千兆宽带,下载起来没有1G每秒&…...

IDEA关闭SpringBoot程序后仍然占用端口的排查与解决

IDEA关闭SpringBoot程序后仍然占用端口的排查与解决 问题描述 在使用 IntelliJ IDEA 开发 Spring Boot 应用时,有时即使关闭了应用,程序仍然占用端口(例如:4001 端口)。这会导致重新启动应用时出现端口被占用的错误&a…...

deepseek清华大学第二版 如何获取 DeepSeek如何赋能职场应用 PDF文档 电子档(附下载)

deepseek清华大学第二版 DeepSeek如何赋能职场 pdf文件完整版下载 https://pan.baidu.com/s/1aQcNS8UleMldcoH0Jc6C6A?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/3ee62050a2ac...

【python随手记】——读取文本文件内容转换为json格式

文章目录 前言一、TXT文件转换为JSON数组1.txt文件内容2.python代码3.输出结果 二、TXT文件转换为JSON对象1.txt文件2.python代码3.输出结果 前言 场景:用于读取包含空格分隔数据的TXT文件,并将其转换为结构化JSON文件 一、TXT文件转换为JSON数组 1.tx…...

k8s集群3主5从高可用架构(kubeadm方式安装k8s)

关键步骤说明 环境准备阶段 系统更新:所有节点执行yum/apt update确保软件包最新时间同步:通过ntpdate time.windows.com或部署NTP服务器网络规划:明确划分Service网段(默认10.96.0.0/12)和Pod网段(如Flann…...

基于 sklearn 的均值偏移聚类算法的应用

基于 sklearn 的均值偏移聚类算法的应用 在机器学习和数据挖掘中,聚类算法是一类非常重要的无监督学习方法。它的目的是将数据集中的数据点划分为若干个类,使得同一类的样本点彼此相似,而不同类的样本点相互之间差异较大。均值偏移聚类&…...

三、大模型微调的多种方法与应用场景

详解大模型微调的多种方法与应用场景 随着大模型的不断发展,如何有效地微调这些庞大的预训练模型以适应特定任务成为了研究和应用中的一个重要问题。大模型微调不仅能够提高任务性能,还能在不同的业务需求中提升模型的适应性。在本文中,我们…...

第2课 树莓派镜像的烧录

树莓派的系统通常是安装在SD卡上的‌。SD卡作为启动设备,负责启动树莓派并加载操作系统。这种设计使得树莓派具有便携性和灵活性,用户可以通过更换SD卡来更换操作系统或恢复出厂设置。 烧录树莓派的镜像即是将树莓派镜像烧录到SD卡上,在此期间会格式化SD卡,如果SD卡…...

SQL之order by盲注

目录 一.order by盲注的原理 二.注入方式 a.布尔盲注 b.时间盲注 三.防御 一.order by盲注的原理 order by子句是用于按指定列排序查询结果,列名或列序号皆可。 order by 后面接的字段或者数字不一样,那么这个数据表的排序就会不同。 order by 盲…...

AI大模型(四)基于Deepseek本地部署实现模型定制与调教

AI大模型(四)基于Deepseek本地部署实现模型定制与调教 DeepSeek开源大模型在榜单上以黑马之姿横扫多项评测,其社区热度指数暴涨、一跃成为近期内影响力最高的话题,这个来自中国团队的模型向世界证明:让每个普通人都能…...

java后端开发day19--学生管理系统升级

(以下内容全部来自上述课程) 1.要求及思路 1.总体框架 2.注册 3.登录 4.忘记密码 2.代码 1.javabean public class User1 {private String username;private String password;private String personID;private String phoneNumber;public User1() {…...

MFC文件和注册表的操作

MFC文件和注册表的操作 日志、操作配置文件、ini、注册表、音视频的文件存储 Linux下一切皆文件 C/C操作文件 const char* 与 char* const const char* 常量指针,表示指向的内容为常量。指针可以指向其他变量,但是内容不能再变了 char szName[6]&qu…...

vscode如何使用鼠标滚轮调整字体大小

1.打开设置 2.搜索Font Ligatures 3.编辑配置文件 4.修改代码并保存 修改前 修改后 在最后一行添加:“editor.mouseWheelZoom”: true 记得在上一行最后,加上英文版的“,”逗号 5.配置成功,再次按Ctrl鼠标滚轮便可以缩放了。...

C++之vector和list辨析

std::vector 和 std::list 是 C 标准库中两种常用的容器,它们都用于存储和管理元素集合,但在底层实现和性能特性上有显著的区别。 1. 底层实现 std::vector: 基于动态数组实现。元素在内存中是连续存储的。支持随机访问(通过下标访问元素&a…...

零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?

一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...

rknn优化教程(二)

文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...

通过Wrangler CLI在worker中创建数据库和表

官方使用文档:Getting started Cloudflare D1 docs 创建数据库 在命令行中执行完成之后,会在本地和远程创建数据库: npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库: 现在,您的Cloudfla…...

vscode(仍待补充)

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用 侧边栏 vscode还能连接ssh? debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路

进入2025年以来,尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断,但全球市场热度依然高涨,入局者持续增加。 以国内市场为例,天眼查专业版数据显示,截至5月底,我国现存在业、存续状态的机器人相关企…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要:设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP(Work-in-Progress)弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中,设立专门的紧急任务通道尤为重要,这能…...

Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...