当前位置: 首页 > article >正文

3块钱,2小时,他用一张显卡从零训练了一个大模型

3块钱能干什么一杯蜜雪冰城都不够。但有人用3块钱的电费加2个小时从零训练出了一个能聊天的AI大模型。这不是段子。是一个在 GitHub 上拿到 41.9k Star 的开源项目叫 MiniMind。大模型自由来了过去两年所有人都在聊大模型。ChatGPT、Claude、DeepSeek……这些名字你肯定听过。但你有没有想过这些模型到底怎么训练出来的教科书说得很吓人海量算力、TB级数据、顶级团队、烧几百万美元。没说错。但 MiniMind 的作者 Jingyao Gong 证明了这件事的门槛可以低到什么程度。单张 30902小时3块钱电费2600万参数。GPT-2 是 1.5 亿参数MiniMind 只有它的六分之一。但该有的全有。从 Tokenizer 到 RLHF没有藏着掖着很多开源项目叫开源核心代码一看一堆封装。MiniMind 把大模型训练从头到尾的代码全摊开了Tokenizer 训练把中文切成模型认识的 token预训练Pretrain让模型学会语言规律监督微调SFT教会模型正确回答强化学习RLHF/DPO/PPO让回答更对人类胃口模型蒸馏把大模型的知识塞进小模型全部基于 PyTorch 原生实现没有调包调库的魔法。你可以一行一行看一行一行改。调用 API 和理解原理完全是两回事。MiniMind 选的是后者。26M 参数够用吗说句大实话2600万参数肯定打不过 GPT-4。但在 C-Eval、CMMLU、A-CLUE 这些中文评测上MiniMind2 跑赢了同体量的 GPT2-medium 和 TinyLlama。项目给了三个规格模型参数量特点MiniMind2-Small26M极致轻量2小时能训完MiniMind2104M性能和效率的平衡点MiniMind2-MoE145M混合专家架构参考了 DeepSeek-V2另外还有个多模态版本 MiniMind-V能看图。学 AI 的人应该看看这个做 AI 方向的学生或转行从业者大概都有过这种体验想搞懂 Transformer 的原理教程翻了几十篇要么太浅要么太飘。想动手跑一遍训练流程光配环境就放弃了。MiniMind 的代码量不大但每一块都是干净的从零实现。RoPE 位置编码怎么写、SwiGLU 激活函数长什么样、MoE 的专家路由逻辑在哪几行翻代码就能看到。训练完的模型还能直接转成 llama.cpp、ollama、vllm 格式部署不用额外折腾。社区已经玩出花了9k Star 背后是实打实的使用量。医疗问答、法律文本生成、联邦学习……各领域的开发者拿 MiniMind 做二次开发。小模型这个方向确实有真实需求。不是每个场景都需要 GPT-4 级别的回答手机端跑的、本地部署的轻量模型很多情况下反而更合适。谁适合折腾这个AI 学习者想搞懂大模型原理但找不到好路径的。MiniMind 的代码比大多数教程讲得清楚。独立开发者需要在端侧跑轻量模型的。2小时训一个定制模型成本可控。研究者想快速验证想法又不想租贵集群的。一张 3090 的事。写在最后大模型这波浪潮不会停但参与的方式不止跟 ChatGPT 聊天这一种。打开 MiniMind 的代码跑一遍训练流程看一个 Transformer 怎么从零搭起来。从用到懂这件事的成本已经低到不需要犹豫了。项目地址https://github.com/jingyaogong/minimind这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

相关文章:

3块钱,2小时,他用一张显卡从零训练了一个大模型

3块钱能干什么? 一杯蜜雪冰城都不够。 但有人用3块钱的电费加2个小时,从零训练出了一个能聊天的AI大模型。 这不是段子。是一个在 GitHub 上拿到 41.9k Star 的开源项目,叫 MiniMind。大模型自由,来了 过去两年,所有人…...

如何用tiny11builder打造轻量Windows 11系统:绕过硬件限制的完整指南

如何用tiny11builder打造轻量Windows 11系统:绕过硬件限制的完整指南 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 老旧电脑无法流畅运行Windows 11…...

避坑指南:uniapp调用支付宝授权时常见的5个错误及解决方案

Uniapp支付宝授权实战:5个高频错误与深度解决方案 移动应用开发中,第三方授权登录是提升用户体验的关键环节。作为国内主流支付平台,支付宝授权在电商、生活服务类App中应用广泛。但许多Uniapp开发者在实现支付宝授权功能时,总会遇…...

libmill内存管理机制:如何避免协程栈溢出问题的完整指南

libmill内存管理机制:如何避免协程栈溢出问题的完整指南 【免费下载链接】libmill Go-style concurrency in C 项目地址: https://gitcode.com/gh_mirrors/li/libmill libmill是一个为C语言引入Go风格并发编程的轻量级库,它通过协程(c…...

libtorrent会话管理终极指南:10个关键配置参数详解

libtorrent会话管理终极指南:10个关键配置参数详解 【免费下载链接】libtorrent an efficient feature complete C bittorrent implementation 项目地址: https://gitcode.com/gh_mirrors/li/libtorrent libtorrent是一个高效且功能完善的C BitTorrent实现&a…...

本地部署开源推送通知系统 ntfy 并实现外部访问

ntfy 是一款简单、轻量级且功能强大的开源推送通知系统,它的核心目标是让用户或开发者能够轻松地从任何设备、任何地方向自己的手机或桌面发送通知。本文将详细介绍如何在 Linux 系统局域网内部署 ntfy 并结合路由侠实现外网访问局域网内部署的 ntfy 。 第一步&…...

10个libxev实战技巧:从定时器到TCP服务器的完整实现

10个libxev实战技巧:从定时器到TCP服务器的完整实现 【免费下载链接】libxev libxev is a cross-platform, high-performance event loop that provides abstractions for non-blocking IO, timers, events, and more and works on Linux (io_uring or epoll), macO…...

VisualVM企业级部署指南:大规模Java应用监控最佳实践

VisualVM企业级部署指南:大规模Java应用监控最佳实践 【免费下载链接】visualvm VisualVM is an All-in-One Java Troubleshooting Tool 项目地址: https://gitcode.com/gh_mirrors/vi/visualvm VisualVM是一款功能强大的全合一Java故障排除工具,…...

终极指南:如何为MiniSearch编写自定义插件和扩展,打造专属搜索体验

终极指南:如何为MiniSearch编写自定义插件和扩展,打造专属搜索体验 【免费下载链接】minisearch Tiny and powerful JavaScript full-text search engine for browser and Node 项目地址: https://gitcode.com/gh_mirrors/mi/minisearch MiniSear…...

VisualVM安全监控指南:敏感数据保护与权限管理

VisualVM安全监控指南:敏感数据保护与权限管理 【免费下载链接】visualvm VisualVM is an All-in-One Java Troubleshooting Tool 项目地址: https://gitcode.com/gh_mirrors/vi/visualvm VisualVM作为一款强大的Java应用性能监控与故障诊断工具,…...

OpenClaw内容创作流水线:nanobot镜像从选题到发布的自动化

OpenClaw内容创作流水线:nanobot镜像从选题到发布的自动化 1. 为什么需要内容创作自动化 作为一名技术博主,我每天都要面对一个永恒难题:如何在有限时间内持续产出高质量内容。传统写作流程需要经历选题调研、大纲设计、初稿撰写、SEO优化、…...

FastAdmin二次开发指南:如何基于这套开源CMS源码定制你的专属内容模型?

FastAdmin二次开发实战:从零构建自定义内容模型 在开源CMS领域,FastAdmin以其基于ThinkPHP的优雅架构和丰富的功能模块,成为众多开发者快速构建后台管理系统的首选。但真正体现其价值的,往往是在面对个性化业务需求时的二次开发能…...

保姆级教程:用Davinci Configurator配置RH850F1KMS1双看门狗(AWO域与ISO域)

RH850F1KMS1双看门狗配置实战:从AWO域到ISO域的完整设计指南 在汽车电子开发领域,系统可靠性直接关系到行车安全。RH850F1KMS1作为瑞萨电子面向功能安全应用的高性能MCU,其独特的双看门狗架构(AWO域与ISO域)为系统提供…...

跨平台开源工具OptiScaler:释放显卡潜能的性能优化指南

跨平台开源工具OptiScaler:释放显卡潜能的性能优化指南 【免费下载链接】OptiScaler DLSS replacement for AMD/Intel/Nvidia cards with multiple upscalers (XeSS/FSR2/DLSS) 项目地址: https://gitcode.com/GitHub_Trending/op/OptiScaler 你是否曾因显卡…...

如何高效定制Steam界面:实用美化插件开发指南

如何高效定制Steam界面:实用美化插件开发指南 【免费下载链接】millennium-steam-patcher Apply themes/customize Steam after the 2023-04-27 Chromium UI update https://discord.gg/MXMWEQKgJF 项目地址: https://gitcode.com/gh_mirrors/mi/millennium-steam…...

【实战指南】彻底解决conda环境变量配置错误:从报错分析到.bashrc修复

1. 遇到conda环境变量报错怎么办? 刚装完Anaconda/Miniconda,满心欢喜准备大展身手,结果终端里输入conda却蹦出一行刺眼的红色报错:"bash: /opt/conda/bin/conda: No such file or directory"。这种场景我见过太多次了&…...

Alexa Skills Kit SDK SMAPI 集成:自动化技能管理和部署的完整流程

Alexa Skills Kit SDK SMAPI 集成:自动化技能管理和部署的完整流程 【免费下载链接】alexa-skills-kit-sdk-for-nodejs The Alexa Skills Kit SDK for Node.js helps you get a skill up and running quickly, letting you focus on skill logic instead of boilerp…...

Opyrator UI设计技巧:5个Streamlit自动生成界面教程

Opyrator UI设计技巧:5个Streamlit自动生成界面教程 【免费下载链接】opyrator 🪄 Turns your machine learning code into microservices with web API, interactive GUI, and more. 项目地址: https://gitcode.com/gh_mirrors/op/opyrator Opyr…...

Windows主题自由革命:SecureUxTheme安全启动兼容的内存补丁终极指南

Windows主题自由革命:SecureUxTheme安全启动兼容的内存补丁终极指南 【免费下载链接】SecureUxTheme 🎨 A secure boot compatible in-memory UxTheme patcher 项目地址: https://gitcode.com/gh_mirrors/se/SecureUxTheme 厌倦了Windows千篇一律…...

Z-Image-Turbo_Sugar脸部Lora模型轻量化:基于.NET框架的推理引擎封装

Z-Image-Turbo_Sugar脸部Lora模型轻量化:基于.NET框架的推理引擎封装 最近在做一个C#的桌面工具,需要集成一个AI换脸功能。网上找了一圈,发现Z-Image-Turbo_Sugar这个脸部Lora模型效果不错,但官方只提供了Python的推理脚本。对于…...

大麦抢票自动化终极指南:5分钟快速上手教程

大麦抢票自动化终极指南:5分钟快速上手教程 【免费下载链接】ticket-purchase 大麦自动抢票,支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 您是否曾因热门演唱会门票秒光而遗憾&#x…...

PVC绑定背后的秘密:图解K8s存储卷匹配规则与优先级机制

PVC绑定背后的秘密:图解K8s存储卷匹配规则与优先级机制 当你在Kubernetes集群中部署一个有状态应用时,最令人头疼的问题之一就是存储资源的管理。为什么有些PVC(PersistentVolumeClaim)能快速绑定到合适的PV(Persisten…...

【实战】VSCode插件离线安装全攻略:从下载到部署

1. 为什么需要离线安装VSCode插件 作为一名在开发一线摸爬滚打多年的老码农,我遇到过太多因为网络问题导致插件安装失败的场景。比如去年在某大型制造企业的工厂MES系统升级项目中,开发环境完全隔离外网,但团队又急需使用GitLens和Python插件…...

Git GUI里那些小箭头和蓝点到底是啥?一份给新手的保姆级图解指南

Git GUI可视化指南:解码提交历史中的符号与分支拓扑 第一次打开Git GUI的提交历史视图时,那些彩色线条、小蓝点和神秘箭头就像天书般令人困惑。作为从SVN过渡到Git的开发者,我曾盯着这些符号发呆半小时——直到发现它们其实是项目历史的可视化…...

FastbootEnhance:Windows平台上最直观的Android刷机工具箱

FastbootEnhance:Windows平台上最直观的Android刷机工具箱 【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance 如果你是一位Android发烧友…...

Play With Docker 安全最佳实践:证书管理与权限控制完全指南

Play With Docker 安全最佳实践:证书管理与权限控制完全指南 【免费下载链接】play-with-docker You know it, you use it, now its time to improve it. PWD!. 项目地址: https://gitcode.com/gh_mirrors/pl/play-with-docker Play With Docker(…...

探索SillyTavern角色卡片系统:从数据封装到沉浸式互动的技术解析

探索SillyTavern角色卡片系统:从数据封装到沉浸式互动的技术解析 【免费下载链接】SillyTavern LLM Frontend for Power Users. 项目地址: https://gitcode.com/GitHub_Trending/si/SillyTavern 核心价值:重新定义AI角色的数字存在形式 当我们与…...

卷积神经网络文本分类终极指南:3,4,5多尺寸滤波器配置详解

卷积神经网络文本分类终极指南:3,4,5多尺寸滤波器配置详解 【免费下载链接】cnn-text-classification-tf Convolutional Neural Network for Text Classification in Tensorflow 项目地址: https://gitcode.com/gh_mirrors/cn/cnn-text-classification-tf 在…...

5个高效管理技巧:用Ice实现macOS菜单栏清爽体验

5个高效管理技巧:用Ice实现macOS菜单栏清爽体验 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice macOS菜单栏作为日常操作的核心区域,常常因应用图标过多而变得杂乱无章&#…...

跨平台OCR新利器:PP-OCRv5模型转ONNX实战指南,轻松应对多语言识别挑战

1. 为什么需要跨平台OCR解决方案 在日常工作和生活中,我们经常会遇到需要处理多语言文档的场景。比如收到一份包含中文、英文和日文的合同,或者需要从产品包装上识别不同语言的说明文字。传统OCR方案往往需要针对不同语言训练多个模型,不仅部…...