当前位置: 首页 > article >正文

刚刚!美团开源LongCat-Next,全模态模型保姆级教程(非常详细),从入门到精通,建议收藏!

昨天下午刷到了美团龙猫团队又开源了一个新模型-LongCat-Next。这次有所不同是一个原生全模态模型可以接受文本、语音、图像的输入生成文本、语音、图像激活参数3B。在训练上通过分词器-反分词器对利用LLM的现有训练基础设施就能训练简化了多模态建模。这里为什么强调“原生”不同于语言辅助模块的范式将视觉或音频作为连续的外部特征通过投影层接入语言模型LongCat-Next提出了一套全新的离散原生自回归范式将所有模态文本、视觉、音频全部转化为统一的离散 Token共享同一个自回归预测目标NTP。具体整体框架如下核心是解决一个根本问题非语言模态如何能在离散Token空间中被有效表示相较于音频图像是高维且连续的压缩为离散 Token 时就是会带来的信息丢失问题。为此引入了dNaViTDiscrete Native Vision Transformer离散原生视觉Transformer一个在任意分辨率下视觉理解和生成的统一tokenizer。具有语义完整性通过Semantic-and-Aligned Encoder (SAE) Residual Vector Quantization (RVQ) 实现任意分辨率支持原生处理任意宽高比图像无需裁剪/填充28×压缩率在保持语义完整的前提下实现高效压缩Tokenization和 De-tokenization训练过程如下视觉Tokenization先将SAE特征的连续流形映射到离散潜在空间再采用RVQ以最小化量化误差将密集视觉信号转换为离散token ID。分两阶段进行初始固定分辨率阶段用于快速收敛随后进行任意分辨率训练RVQ适应可变token长度最大训练序列长度设为8192。视觉De-tokenization在离散码本建立后从离散token ID重建像素级图像训练一个亿参数的Vision Transformer的像素解码器为增强感知锐度和高频细节从OmniGen2初始化的图像精化器使用flow matching损失继续训练。SAE编码器和码本在此阶段保持冻结detokenizer以原生分辨率训练直至收敛。还设计一个音频tokenizer将连续语音转化为离散token同时保留语义和声学信息。如下图输入音频首先通过Whisper编码器进行音频特征提取。特征然后以4倍因子下采样再通过8层RVQ量化为离散token。训练过程如下阶段1解码器预热编码器和LLM分别用Whisper-large-v3和Qwen3-1.7B初始化解码器随机初始化。编码器和LLM保持冻结解码器在Mel频谱图重建任务上训练。阶段2语义-声学联合训练除LLM和flow matching模块外所有模块更新。RVQ模块也启用由8层组成码本大小分别为8k、4k、2k、1k、1k、1k、1k和1k。阶段3解码器微调用收集的24kHz高质量音频。LLM模型骨干则采用69B-A3B参数的LongCat-Flash-Lite MoE模型进行初始化。通过t-SNE可视化分析LongCat-Next视觉和文本token完全交织将视觉和音频视为以语言为中心的自回归范式的内在扩展而非外部附加形成了真正的统一语义空间与松散耦合的混合方法形成对比。还有一个比较反直觉的结论LongCat-Next将理解和生成放到一个模型里并没有太多的相互干扰。如下图所示纯理解模型、纯生成模型和统一模型均训练100B数据发现统一模型只用50B理解数据Loss仅比纯理解模型差了0.006生成任务书甚至还低了0.02。说明在DiNA这个纯离散的NTP目标下看图能促进画图画图又不妨碍看图给实现理解生成工业级模型提供了好的解决方案。做完模态专属Tokenizer训练要进行原生多模态训练Pre-align (预对齐)LLM 冻结仅训练 Codebook 嵌入和 DepthTransformer 解码器。Pre-train (预训练)全量参数解冻除Tokenizer外进行跨模态联合学习。Mid-training SFT加入合成长 CoT 数据、任意分辨率生成数据、复杂指令遵循数据。数据方面视觉理解数据大约2T Tokens视觉生成数据包含大约300M 图-文对音频数据大约2.5M 小时。在多模态联合训练时由于Embedding层、LLM主干和解码头的计算耗时完全不一样会产生严重的流水线气泡。为此美团还提出了V型流水线并行VHalf-based Pipeline Parallelism。通过嵌入与模态损失共置、LLM头解耦、自适应LLM层分布解决异构模块间跨阶段通信开销大的问题。只能说现在Infra的人才太关键了昨天俊旸分享的文章也是提到了infra的重要性见从Reasoning思考到Agentic思考。LongCat-Next模型的整体效果在同等级模型上图像理解生成、纯文本、语音ASRTTS方面效果均不错。我进行了简单的测试整体上而言OCR方面不错细粒度内容可以识别的比较准确视觉理解上对于空间变化和复杂逻辑推理的效果不是太理解成语可以但时钟不行跟整体参数量级A3B也有关图像生成效果大字报简单图像还不错太复杂的指令生成的图像不好LongCat-Next其实主要是架构研究设计其实我也没写想到离散模型在图像的细节的把握上还能不错细粒度OCR还能比较准确。视觉理解报告解读、图片理解这些都没啥问题可以精准定位并找到核心点。但世界知识不足金茂大厦识别成中心大厦还是原来模型的老毛病四字成语竟然猜对这个我没想到时钟不对没有理解图片是镜像的OCR识别针对比较复杂的情况识别拍照的试卷内容。结果准确竖版OCR内容识别结果正确纯表格内容识别存在瑕疵文生图Prompt: A t-shirt mockup on a young person. The white t-shirt has a printed design of a cute long cat illustration with the text “LongCat-Next” below it. Simple studio background, clean product photography style.Prompt在大理石台面上一座高高堆叠的彩色马卡龙塔的照片级真实感竖版构图。每个马卡龙都是不同的鲜艳粉彩色——薰衣草紫、薄荷绿、玫瑰粉、柠檬黄、天空蓝、蜜桃色、珊瑚色、开心果绿——层层堆叠。柔和的烘焙灯光浅景深效果每个马卡龙都呈现出细腻的质感和夹心奶油整体风格充满奇趣的美食摄影感。最后一旦文本、图像、语音全部被压缩进统一的离散Token空间那模型做的事情就变得极其纯粹预测下一个token我感觉AGI最后就应该是一个纯粹的道路只不过我们还要走很久。不过美团真有点厚积薄发那意思确实没想到。。。对于本身模型效果上LongCat自己也说了这是本身是一次对原生多模态的一次有意义的尝试学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

刚刚!美团开源LongCat-Next,全模态模型保姆级教程(非常详细),从入门到精通,建议收藏!

昨天下午刷到了美团龙猫团队又开源了一个新模型-LongCat-Next。 这次有所不同,是一个原生全模态模型,可以接受文本、语音、图像的输入,生成文本、语音、图像,激活参数3B。 在训练上,通过分词器-反分词器对&#xff0…...

Asian Beauty Z-Image Turbo效果展示:不同光照角度(侧逆光/伦勃朗光/蝴蝶光)表现

Asian Beauty Z-Image Turbo效果展示:不同光照角度(侧逆光/伦勃朗光/蝴蝶光)表现 在摄影艺术中,光线是塑造人物灵魂的画笔。侧逆光勾勒轮廓,伦勃朗光刻画戏剧,蝴蝶光则带来柔和与优雅。对于专注于东方美学…...

Agent 帮不了你,不是因为它不够聪明

上一篇我们分析了 CLI vs MCP 的争论本质上是在讨论"管道",而真正缺的是"水龙头"。这篇继续往下挖:就算水龙头开了,你也大概率接不上。Agent 在现实中寸步难行的原因,比大多数人想的更结构化。 一个常见的许诺…...

自抗扰控制(ADRC)这玩意儿挺有意思的,核心就仨部件:跟踪微分器、扩张观测器、非线性反馈。咱们直接上硬货,手撕代码看门道

基于扩张状态观测器的自抗扰控制ADRC仿真模型 ①跟踪微分器TD:为系统输入安排过渡过程,得到光滑的输入信号以及输入信号的微分信号。 ②非线性状态误差反馈律NLSEF:把跟踪微分器产生的跟踪信号和微分信号与扩张状态观测器得到的系统的状态估计通过非线性函数进行适当…...

COMSOL实战:从微波炉到压电泵的多物理场魔法

comsol软件教程,电热力耦合,动网格,传热,优化,微波加热,压电(非comsol官网搬运) comsol仿真教程,多物理场,建模仿真,低频电磁今天咱们来点硬核的—…...

Zotero文献管理效率革命:Ethereal Style插件深度应用指南

Zotero文献管理效率革命:Ethereal Style插件深度应用指南 【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件,提供了一系列功能来增强 Zotero 的用户体验,如阅读进度可视化和标签管理,适合研究人员和学者。 项目地…...

​源码级赋能:基于Spring Boot/Vue的企业级AI视频平台二次开发实战与架构解析(GB28181/边缘计算/算法商城)

引言:从“黑盒采购”到“源码可控”的行业变革 在安防集成商和技术决策者的会议室里,有一个共识正在形成:“黑盒软件”正在成为企业数字化转型的枷锁。 传统的视频监控软件往往依赖特定的硬件锁(Key)或封闭的API&…...

Asian Beauty Z-Image Turbo惊艳案例:单卡RTX4090每秒1.8帧的Turbo实时生成

Asian Beauty Z-Image Turbo惊艳案例:单卡RTX4090每秒1.8帧的Turbo实时生成 东方美学图像生成的本地高效解决方案 在数字内容创作蓬勃发展的今天,高质量人像图像生成需求日益增长,特别是具有东方美学特色的图像。传统云端生成方案虽然方便&am…...

AI辅助开发新思路:让快马AI为你的下拉词功能注入智能排序与语义联想

AI辅助开发新思路:让快马AI为你的下拉词功能注入智能排序与语义联想 最近在开发一个需要智能下拉词功能的项目时,我发现传统的前缀匹配方式已经不能满足用户需求了。于是我开始探索如何用AI来增强下拉词功能,让它变得更智能、更人性化。经过…...

wiliwili与Switch视频播放:解锁离线观影新体验

wiliwili与Switch视频播放:解锁离线观影新体验 【免费下载链接】wiliwili 专为手柄控制设计的第三方跨平台B站客户端,目前可以运行在PC全平台、PSVita、PS4 和 Nintendo Switch上 项目地址: https://gitcode.com/GitHub_Trending/wi/wiliwili 在没…...

微信小程序-live-player-实时视频-截图与文件流转换实战

1. 微信小程序live-player组件基础使用 微信小程序的live-player组件是专门用于播放实时视频流的核心组件。我在多个实际项目中使用过这个组件,发现它比普通的video组件更适合直播场景。live-player支持RTMP、FLV等常见直播协议,延迟可以控制在3秒以内&…...

Qwen3-VL宠物健康应用:症状图片识别部署案例

Qwen3-VL宠物健康应用:症状图片识别部署案例 1. 为什么用Qwen3-VL做宠物健康助手? 你有没有遇到过这样的情况:半夜发现猫咪耳朵发红、狗狗爪子肿胀,又不敢贸然带它去医院,想先查查可能是什么问题?翻遍养宠…...

零配置部署!VoxCPM-1.5-WEBUI让语音合成变得像上网一样简单

零配置部署!VoxCPM-1.5-WEBUI让语音合成变得像上网一样简单 你是否曾为视频配音找不到合适的声音而烦恼?是否想过制作有声读物却苦于录音设备和时间成本?或者,你只是想体验一下,让AI用你喜欢的音色为你朗读一段文字&a…...

驱动开发的常用工具

2.3.3 驱动开发的常用工具 嵌入式驱动开发涉及硬件调试、软件调试、代码编译等多个环节,掌握合适的工具可以大幅提升开发效率。本节将系统介绍驱动开发中常用的四大类工具:交叉编译工具链、调试工具、开发板与仿真器、文档与源码工具,并结合RK3588平台给出具体的使用方法。…...

Clawdbot+Qwen3-32B部署指南:Ollama模型注册与配置详解

ClawdbotQwen3-32B部署指南:Ollama模型注册与配置详解 1. 开始前的准备:理解Clawdbot与Qwen3-32B的关系 在动手之前,先理清楚几个关键概念。Clawdbot(现在已更名为OpenClaw)本质上是一个智能代理框架,它本…...

Nemo文件管理器:超越基础操作的7个高效场景解决方案

Nemo文件管理器:超越基础操作的7个高效场景解决方案 【免费下载链接】nemo File browser for Cinnamon 项目地址: https://gitcode.com/gh_mirrors/ne/nemo Nemo作为Cinnamon桌面环境的默认文件管理器,不仅仅是简单的文件浏览工具,它隐…...

WiFi CSI感知技术全攻略:从原理到实践的深度探索

WiFi CSI感知技术全攻略:从原理到实践的深度探索 【免费下载链接】Awesome-WiFi-CSI-Sensing A list of awesome papers and cool resources on WiFi CSI sensing. 项目地址: https://gitcode.com/gh_mirrors/aw/Awesome-WiFi-CSI-Sensing 一、技术原理&…...

2026生成式引擎优化(GEO)深度实测报告:基于Hakuna Matata平台的五大主流大模型对抗性测试全景分析

摘要:本文以“Hakuna Matata”测试平台为基准场,针对百度文心一言、Moonshot AI(Kimi)、腾讯元宝、阿里千问、字节豆包五大国内主流生成式AI平台,开展了一场史无前例的生成式引擎优化(GEO)对抗性…...

新手入门:在快马上亲手实现第一个限流器,看懂‘rate limit exceeded’

最近在学习后端开发时,经常遇到"rate limit exceeded"这个错误提示。作为新手,一开始完全不明白这是什么意思,直到在InsCode(快马)平台上动手实现了一个简单的限流器,才真正理解了它的原理。今天就来分享一下这个入门项…...

LabVIEW以声卡为数据采集设备开发数据采集处理系统。 具备声卡参数设置,实现文件自动存储、...

LabVIEW以声卡为数据采集设备开发数据采集处理系统。 具备声卡参数设置,实现文件自动存储、以及文件手动存储两种功能,进行采集数据的分析,包括频域分析,滤波处理等功能; 程序实验报告在工业测量和实验室场景中&#x…...

3步掌握VideoFusion:零基础一站式视频处理神器

3步掌握VideoFusion:零基础一站式视频处理神器 【免费下载链接】VideoFusion 一站式短视频拼接软件 无依赖,点击即用,自动去黑边,自动帧同步,自动调整分辨率,批量变更视频为横屏/竖屏 项目地址: https://gitcode.com/gh_mirrors/vi/VideoFusion 一、为什么选…...

解决了黄金价格api数据源不稳定的问题

最近在做一个实时金融数据项目,我比较关心的就是黄金价格的稳定获取。起初,我用的一些常规接口总会出现延迟或者返回空数据的情况。页面显示几秒前的价格,或者直接空白,让我意识到:稳定可靠的黄金价格api比漂亮的图表更…...

VideoCombine节点故障急救:6个非典型解决方案助你恢复视频合成功能

VideoCombine节点故障急救:6个非典型解决方案助你恢复视频合成功能 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 在视频创作的关键环节,…...

基于PHP、asp.net、java、Springboot、SSM、vue3的高校自动排课系统的设计与实现

目录 可选框架 可选语言 内容 可选框架 J2EE、MVC、vue3、spring、springmvc、mybatis、SSH、SpringBoot、SSM、django 可选语言 java、web、PHP、asp.net、javaweb、C#、python、 HTML5、jsp、ajax、vue3 内容 李哥讲程序开发666。 修改个人信息、自动排课等功能&…...

基于PHP、asp.net、java、Springboot、SSM、vue3的高校课堂考勤系统的设计与实现

目录 可选框架 可选语言 内容 可选框架 J2EE、MVC、vue3、spring、springmvc、mybatis、SSH、SpringBoot、SSM、django 可选语言 java、web、PHP、asp.net、javaweb、C#、python、 HTML5、jsp、ajax、vue3 内容 随着教育的深化变革,成百上千的同学走进大学的…...

保姆级教程:Langchain框架详解 - 大模型开发者的必备技能

什么是Langchain Langchain是一款提供给用户与大模型之间快捷沟通的代理框架,其核心设计思想就是整合各大模型厂商的接口,给用户提供一个快捷入口能快速实现自己的agent。 核心组件 •agent:Langchain的核心部分,所有的操作都围…...

EdgeRemover:Windows Edge浏览器彻底卸载的智能方案 - 释放系统资源新方法

EdgeRemover:Windows Edge浏览器彻底卸载的智能方案 - 释放系统资源新方法 【免费下载链接】EdgeRemover PowerShell script to remove Microsoft Edge in a non-forceful manner. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover 核心价值定位 用…...

效率倍增:用快马平台智能优化你的openclaw更新工作流

最近在折腾openclaw的更新命令时,发现每次手动输入各种参数和检查依赖实在太费时间了。经过一番摸索,我发现用InsCode(快马)平台可以大幅优化这个流程,今天就把我的经验分享给大家。 智能参数补全 以前最头疼的就是记不住各种参数组合&#x…...

PyTorch 2.8镜像基础教程:torch.compile加速、FlashAttention-2启用参数详解

PyTorch 2.8镜像基础教程:torch.compile加速、FlashAttention-2启用参数详解 1. 镜像环境快速验证 在开始使用PyTorch 2.8镜像前,我们需要先确认环境是否正常工作。打开终端,运行以下命令: python -c "import torch; prin…...

3分钟实现Figma中文界面:设计师的本地化解决方案

3分钟实现Figma中文界面:设计师的本地化解决方案 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN FigmaCN是一款专为中文设计师打造的浏览器插件,通过3800条人工校…...