当前位置: 首页 > article >正文

一天一个开源项目(第57篇):Unsloth - 2x 更快、70% 更省显存的 LLM 微调库

引言“Train gpt-oss, DeepSeek, Gemma, Qwen Llama 2x faster with 70% less VRAM!”这是「一天一个开源项目」系列的第 57 篇文章。今天介绍的项目是UnslothGitHub。想在自己的 GPU 上微调大模型却苦于显存不足、训练太慢Unsloth是开源的LLM 微调与强化学习库训练速度约 2x、显存节省约 70%、0% 精度损失。支持 gpt-oss、DeepSeek、Qwen、Llama、Gemma、TTS 等提供 Colab 免费 Notebook、Docker 镜像兼容 Hugging Face transformers 与 TRL。你将学到什么Unsloth 的核心能力与定位微调与强化学习GRPO、GSPO 等支持支持的模型与训练范式快速开始pip、Docker、Colab与 Hugging Face FA2 的对比前置知识对 LLM 微调有基本了解了解 LoRA、QLoRA 等概念更佳可选项目背景项目简介Unsloth是开源的大语言模型微调与强化学习库基于 PyTorch 与 Triton 内核通过内存优化与高效算子实现训练速度约 2x、显存节省约 70%。支持全参数微调、预训练、4-bit、16-bit、FP8支持 TTS、多模态、Embedding 等各类模型强化学习GRPO、GSPO、DAPO 等显存节省约 80%。团队团队Unsloth AIunsloth.ai理念高效、易用、0% 精度损失、支持所有主流模型项目数据⭐GitHub Stars: 54.1kForks: 4.5kLicense: Apache-2.0 / AGPL-3.0官网: unsloth.ai文档: unsloth.ai/docs社区: r/unsloth、Twitter主要功能核心能力能力说明高效微调2x 速度、70% 显存节省0% 精度损失全范式支持全参数微调、预训练、4-bit、16-bit、FP8模型覆盖LLM、TTS、多模态、Embedding兼容 transformers强化学习GRPO、GSPO、DrGRPO、DAPO、PPO 等80% 显存节省导出部署GGUF、vLLM、SGLang、Hugging Face硬件支持NVIDIA、AMD、Intel GPULinux/WSL/Windows使用场景个人/小团队微调在消费级 GPU 上微调 7B、8B 模型强化学习GRPO、GSPO 等推理链/对齐训练长上下文支持更长上下文微调如 Llama 3.1 8B 在 80GB 上可达 342K免费 Colab无 GPU 用户可用 Colab Notebook 免费训练快速开始Linux / WSLpipinstallunslothWindows需先安装 PyTorch详见 Windows 指南。Dockerdockerrun-d-eJUPYTER_PASSWORDmypassword\-p8888:8888-p2222:22\-v$(pwd)/work:/workspace/work\--gpusall\unsloth/unsloth访问http://localhost:8888使用 Jupyter Lab。Colab 免费训练在 Unsloth Notebooks 中按模型选择对应 Notebook如 Qwen3.5、gpt-oss、Llama 3.1 等一键运行。最小示例fromunslothimportFastLanguageModelimporttorch model,tokenizerFastLanguageModel.from_pretrained(model_nameunsloth/llama-3.1-8b-instruct,max_seq_length2048,load_in_4bitTrue,)modelFastLanguageModel.get_peft_model(model,r16,target_modules[q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj],lora_alpha16,lora_dropout0,biasnone,use_gradient_checkpointingunsloth,)# 使用 SFTTrainer 训练...支持的模型LLMLlama 3.1/3.2/3.3/4、Qwen2.5/Qwen3/Qwen3.5、DeepSeek、Gemma 2/3、gpt-oss、Mistral、Phi 等多模态Llama 3.2 Vision、Qwen2.5-VL、Pixtral、Gemma 3 Vision 等TTSOrpheus、sesame/csm-1b 等EmbeddingEmbeddingGemma 等项目优势对比项UnslothHugging Face FA2训练速度约 2x1x显存占用约 70% 更少基准长上下文如 Llama 3.1 8B 342K80GB28K精度0% 损失0% 损失RL 显存约 80% 更少基准项目详细剖析技术要点Triton 内核核心算子用 OpenAI Triton 编写手动反向传播引擎无近似不依赖近似方法全部精确计算RoPE MLPTriton 内核 Padding Free Packing约 3x 训练加速、30% 显存节省MoE 支持MoE 模型训练约 12x 加速、35% 显存节省性能基准示例模型GPUUnsloth 速度Unsloth 显存Unsloth 上下文HFFA2 上下文Llama 3.3 (70B)80GB2x75% 减少13x 更长1xLlama 3.1 (8B)80GB2x70% 减少12x 更长1x目录结构unsloth/ ├── unsloth/ # 核心库 ├── cli/ # CLI 工具 ├── studio/ # Studio 相关 ├── scripts/ # 脚本 ├── tests/ # 测试 └── cli.py # 入口项目地址与资源官方资源GitHub: https://github.com/unslothai/unsloth官网: unsloth.ai文档: unsloth.ai/docsNotebooks: unslothai/notebooksDocker: unsloth/unslothReddit: r/unslothIssues: GitHub Issues适用人群需要在有限 GPU 上微调 LLM 的开发者做强化学习、对齐、推理链训练的团队想用 Colab 免费体验微调的学习者使用 Llama、Qwen、DeepSeek、Gemma 等开源模型的用户欢迎来我中的个人主页找到更多有用的知识和有趣的产品

相关文章:

一天一个开源项目(第57篇):Unsloth - 2x 更快、70% 更省显存的 LLM 微调库

引言 “Train gpt-oss, DeepSeek, Gemma, Qwen & Llama 2x faster with 70% less VRAM!” 这是「一天一个开源项目」系列的第 57 篇文章。今天介绍的项目是 Unsloth(GitHub)。 想在自己的 GPU 上微调大模型,却苦于显存不足、训练太慢&am…...

Lingbot-Depth-Pretrain-Vitl-14 结合Transformer架构:深度估计模型优化实战

Lingbot-Depth-Pretrain-Vitl-14 结合Transformer架构:深度估计模型优化实战 深度估计,简单来说,就是让计算机从一张普通的2D图片里,“猜”出每个像素点距离相机的远近。这听起来有点像我们人眼在看世界时,能感知到的…...

Axure RP本地化全攻略:从界面优化到效率提升的开源工具本地化指南

Axure RP本地化全攻略:从界面优化到效率提升的开源工具本地化指南 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包,不定期更新。支持 Axure 9、Axure 10。 项目地址: https://gitcode.com/gh_mirrors/ax/axur…...

AlwaysOnTop:重新定义你的数字工作空间

AlwaysOnTop:重新定义你的数字工作空间 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 想象一下这样的场景:你正在为一个重要的项目编写报告,…...

5大实战技巧让你精通FDS火灾动力学模拟技术

5大实战技巧让你精通FDS火灾动力学模拟技术 【免费下载链接】fds Fire Dynamics Simulator 项目地址: https://gitcode.com/gh_mirrors/fd/fds 当一场突如其来的火灾发生时,传统的消防设计往往只能依靠经验估算,而FDS(Fire Dynamics S…...

遥感数字图像处理:从入门到精通——作物旱情遥感监测(完整版:基于TVDI插件和无插件)

一、实验要求根据实验数据提取实验区作物干旱指数(TVDI),生成实验区旱情等级分布图,并分析土壤旱情和降水量的关系。二、数据说明TVDI_main.sav:ENVI插件,主要功能为VI-LST的散点图生成、干湿边方程的拟合、TVDI影像的…...

深入解析SD卡CMD指令集:从寄存器操作到数据传输实战

1. SD卡基础寄存器全解析 当你把一张SD卡插入读卡器时,系统瞬间就能识别出容量和型号,这个过程背后其实是SD卡内部寄存器的功劳。这些寄存器就像SD卡的"身份证"和"体检报告",存储着所有关键信息。我刚开始接触嵌入式开发…...

从H5到uni-app:迁移‘滚动菜单高亮’功能时,我踩过的3个关键差异点

从H5到uni-app:迁移滚动菜单高亮功能的三大思维转换 第一次在uni-app里实现滚动菜单高亮效果时,我差点把键盘摔了——那些在H5里信手拈来的document.querySelector和window.scrollY突然全部失效。这就像习惯右手写字的人突然被要求用左手,明明…...

lingbot-depth-pretrain-vitl-14效果展示:多光照/反光表面深度补全自然边缘案例

lingbot-depth-pretrain-vitl-14效果展示:多光照/反光表面深度补全自然边缘案例 1. 引言:当深度图遇上“反光杀手” 你有没有遇到过这种情况?用深度相机扫描一个光滑的桌面,或者对着窗户拍一张照片,结果生成的深度图…...

3.28 学习笔记

3.28 学习笔记web金融项目实战1.对于需求分析仔细研读需求规格说明书,以及相关文档,理解项目的目标和流程2.对于编写测试点(1)进行界面检查(2)从正确的业务流程编写,执行,查看对应功…...

手把手教你用Gemini 3和MediaPipe,为你的网页添加“隔空操控”魔法(附完整代码)

从零构建手势操控3D粒子系统:MediaPipe与Three.js深度整合指南 当我们在科幻电影中看到主角挥挥手就能操控全息界面时,总会心生向往。如今,借助MediaPipe的手势识别能力和Three.js的3D渲染技术,开发者完全可以在网页中实现这种&qu…...

YimMenu终极指南:GTA5免费辅助工具完整使用教程

YimMenu终极指南:GTA5免费辅助工具完整使用教程 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …...

赣州琴行哪家最可靠

在赣州,选择一家可靠的琴行对于孩子的钢琴启蒙和成长至关重要。今天我们就来聊聊赣州的几家知名琴行,看看哪家最适合您的孩子。1. 可六琴行:专注儿童钢琴启蒙,天天练琴模式为什么选择可六琴行?1.1 专注儿童钢琴启蒙具体…...

ViGEmBus:Windows虚拟游戏手柄驱动终极指南

ViGEmBus:Windows虚拟游戏手柄驱动终极指南 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 项目概述与价值主张 ViGEmBus是一款革命性的Windows…...

UI-TARS-desktop作品集:从简单指令到复杂工作流,看AI如何帮你干活

UI-TARS-desktop作品集:从简单指令到复杂工作流,看AI如何帮你干活 1. 引言:当AI成为你的数字同事 想象一下,你每天上班要处理一堆重复性的电脑操作:打开邮箱、下载附件、整理数据、生成报告、发送邮件……这些工作繁…...

李慕婉-仙逆-造相Z-Turbo跨平台GUI开发:使用Qt构建模型调参与预览桌面应用

李慕婉-仙逆-造相Z-Turbo跨平台GUI开发:使用Qt构建模型调参与预览桌面应用 每次看到那些功能强大的AI模型,你是不是也心动过?但一打开命令行,面对密密麻麻的参数和代码,瞬间就觉得头大,只想关掉窗口。对于…...

Seafile社区版12.0部署实战:从Docker Compose到企业级定制

1. 为什么选择Seafile社区版12.0? 如果你正在寻找一个开源的、可私有化部署的企业级文件同步与共享解决方案,Seafile社区版12.0绝对值得考虑。作为一个长期使用各种云存储解决方案的运维工程师,我发现Seafile在性能、稳定性和功能完整性方面都…...

倒立摆背后的控制哲学:为什么LQR能稳住这根‘杆’?用日常现象解析最优控制

倒立摆背后的控制哲学:为什么LQR能稳住这根‘杆’?用日常现象解析最优控制 想象一下骑自行车时微调把手保持平衡的瞬间,或是用手指顶住铅笔不让它倒下的场景。这些看似简单的动作背后,隐藏着与火箭姿态控制、机器人行走相同的数学…...

Three.js可视化开发:用辅助类打造交互式3D教学演示

Three.js可视化开发:用辅助类打造交互式3D教学演示 在数字化教育蓬勃发展的今天,3D可视化技术正在彻底改变传统教学模式。想象一下,当学生能够亲手旋转分子结构、观察物理碰撞的实时模拟,或是探索历史建筑的立体空间关系时&#x…...

WIFI UDP广播数据实时发送的可靠性困境与底层协议探析

1. WIFI UDP广播为何总在关键时刻掉链子? 上周调试智能家居设备时,我遇到了一个典型场景:AP需要向20多个终端同时发送控制指令。最初直接使用UDP广播,结果总有设备"装聋作哑"。换成单播后问题消失,但CPU占用…...

5步解决Windows Defender被移除后的系统防护重建难题

5步解决Windows Defender被移除后的系统防护重建难题 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirrors/wi/windows-defe…...

别再让地图‘飘’了!深入浅出解析Cesium中GCJ-02、BD-09坐标偏移原理与DVGIS库实战

解密国内地图坐标系:从原理到实战解决Cesium中的“飘移”问题 你是否曾在Cesium中加载不同来源的地图数据时,发现明明标注的是同一个位置,却出现了明显的偏移?这种“飘移”现象背后,隐藏着国内地图坐标系复杂的加密体系…...

手把手玩转Bagging分类——用Matlab实现工业故障检测

Bagging分类 Matlab代码 可用于故障检测等 基于集成算法Bagging的数据分类预测(可以更换为单、多变量时序预测/回归,前私我),Matlab代码,可直接运行,适合小白新手 [憨笑]程序已经调试好,无需更改代码替换数据集即可运行…...

软开关电路设计:从原理到实战,打造智能电源管理方案

1. 软开关电路设计基础 第一次接触软开关电路是在一个电池供电的智能门锁项目里。当时产品经理提了个需求:用户按下按键后设备要立即唤醒,但待机功耗必须控制在10μA以下。传统机械开关方案要么漏电流大,要么响应慢,直到我发现软开…...

面试官:什么是最左前缀匹配?为什么要遵守?(修订版)

在线 Java 面试刷题(持续更新):https://www.quanxiaoha.com/java-interview面试考察点原理理解:面试官不仅仅想知道你会背 "最左前缀原则",更想考察你是否理解联合索引的 B 树存储结构,能否从数据…...

解锁Dify工作流新潜能:四种并行模式实战解析

1. 为什么需要工作流并行化? 第一次用Dify构建工作流时,我就被它的可视化编排能力惊艳到了。但实际跑了几次发现,当处理复杂任务时,串行执行就像在高速公路上开拖拉机——明明有八车道却只开放一条。比如做新闻情感分析时&#xf…...

幻境·流金惊艳效果:微观世界视角——细胞结构、晶体生长、电路板纹路超清生成

幻境流金惊艳效果:微观世界视角——细胞结构、晶体生长、电路板纹路超清生成 “流光瞬息,影画幻成。” 想象一下,你正透过一台超级显微镜,观察一个我们肉眼无法触及的微观世界。在那里,细胞壁的纹理如同精密的蜂巢&…...

手把手教你搭建mPLUG图片问答工具:全本地运行,无需联网

手把手教你搭建mPLUG图片问答工具:全本地运行,无需联网 1. 项目介绍与核心价值 想象一下,你有一张照片但不确定里面有什么,或者需要快速了解图片中的细节信息。传统方法可能需要你手动描述、上网搜索,或者将图片上传…...

AI皮衣设计新体验:The Leather Archive时尚杂志风界面实测

AI皮衣设计新体验:The Leather Archive时尚杂志风界面实测 1. 引言:当AI遇见时尚杂志 走进任何一家高端时尚杂志的编辑部,你会看到精心设计的版面、充满艺术感的排版和令人惊艳的视觉呈现。现在,这种专业级的时尚杂志体验被带入…...

为什么说程序 = 算法 + 数据结构

什么是程序?理解了算法和数据结构是什么,我们就能更清晰地定义程序:程序是算法和数据结构在特定编程语言中的具体实现。它是一系列指令的集合,这些指令精确地描述了如何操作(算法)特定组织的数据&#xff0…...