当前位置: 首页 > article >正文

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!

Penguin-VL团队 投稿量子位 | 公众号 QbitAI打破多模态视觉语言拼接套路腾讯开源Penguin-VL直接用纯文本LLM训视觉编码器。这项研究跳出了先有传统视觉 backbone再接语言模型的常规路径直接从text-only LLM初始化vision encoder。并在2B/8B紧凑参数规模下的文档理解、长视频时序定位等复杂任务中表现出极强竞争力。从LLM出发的视觉编码器重构如果把这两年的多模态模型拆开看一个很有意思的现象是大家在语言模型上卷得很凶但到了vision encoder这一层路线却出奇一致。很多VLM最后都会回到那套熟悉配方先拿CLIP、SigLIP这类通过对比学习训出来的视觉模型做encoder再接上LLM往下训。这条路线当然强也足够成熟。但Penguin-VL团队想问的不是“这条路能不能走”而是“它是不是复杂视觉理解最合适的起点”。因为对比学习最擅长的本来就是判别、检索和图文匹配。它会主动把图像压进一个更适合分类和对齐的语义空间里。可一旦任务变成文档阅读、图表理解、细粒度描述、多图关系判断甚至长视频里的时间定位模型真正需要保住的恰恰是那些不该太早被抹平的局部结构、空间关系和时序细节。换句话说Penguin-VL重新盯上的不是VLM里最显眼的LLM而是那个最容易被默认的vision encoder。上图中对比了三种vision encoder训练范式。主流contrastive路线先把视觉模型和文本模型分别训好再在VLM中使用直接LLM supervision会把视觉特征硬对齐到冻结的LLMPenguin-Encoder则直接从text-only LLM初始化再通过视觉训练把它真正变成视觉编码器。Penguin-VL给出的答案有点反常识既然最终要和语言模型协同推理那vision encoder为什么不能直接从LLM出发于是论文里提出了Penguin-Encoder。它不再默认从传统视觉backbone初始化而是直接从text-only LLM起步。这里的关键不只是“借一套参数”。Penguin-Encoder继承的是一整套更适合序列建模的能力和架构基础。它和下游LLM的表示空间更近视觉和语言之间不必再跨一道特别大的鸿沟还复用了attention、FFN、GQA、RMSNorm等已经训练成熟的模块不需要从零再学一遍“上下文怎么组织、顺序怎么建模”更重要的是语言模型已经学会的顺序建模和因果逻辑能力也给视觉理解提供了一个更强的起点。对Penguin-VL来说这意味着vision encoder学的不再只是“把图像压缩成向量”而是“怎么把视觉概念接到一条已经成熟的语言推理链路上”。当然LLM不能直接原封不动拿来当vision encoder。Penguin-VL做了两处关键改造。一是把原本服务文本生成的causal attention改成更适合视觉建模的bidirectional attention二是引入2D-RoPE让模型能更自然地处理图像和视频里的二维位置信息。也因此Penguin-Encoder不是简单把LLM“拼”进视觉模块而是以LLM为初始化起点再通过面向视觉的训练把它真正训成一个vision encoder。上图展示了Penguin-VL的整体架构。由LLM初始化的Penguin-Encoder、MLP projector与语言模型组成。视觉侧引入2D-RoPE和bidirectional attention并通过统一token流处理图像与视频在长视频场景中再配合TRA策略优先保留关键帧信息。三阶训练与性能验证训练部分也不是一步到位硬推而是拆成了三阶段。Stage 1先训练Penguin-Encoder本身走一条低分辨率预训练到高分辨率fine-tuning的路线让模型先稳住视觉表征再逐步把细节拉起来。论文里专门引入reconstruction和relation loss核心目的很明确——别让图表、文档这类结构化视觉信息太早丢掉。Stage 2是VLM pre-training让encoder、projector和LLM 一起进入完整的多模态知识学习。Stage 3则是supervised fine-tuning把能力真正对齐到用户任务。视频部分还有一个很实用的设计TRA也就是Temporal Redundancy-Aware token compression。它不是把所有视频帧一股脑塞进同样的token预算里而是优先把预算留给关键帧尽量少在冗余中间帧上浪费上下文。说白了Penguin-VL想做的不是“看更多”而是“把真正重要的时序信息尽量留下来”。从上图可以看出在2B/8B这样相对紧凑的参数规模下Penguin-VL在文档理解、图表理解、视觉知识和长视频理解上都拿出了很有竞争力的表现。比如2B模型在 InfoVQA、ChartQA、DocVQA、V-star、LongVideoBench、NextQA、Perception Test等任务上都很亮眼。它想传达的信息不是“模型再做大一点就行”而是vision encoder的起点如果选对了小得多的模型也能把关键视觉信息保下来。如果说2B更像是在有限参数规模下证明这条路线可行那么8B就是在更完整的模型配置下把同样的趋势继续拉清楚。8B版本在InfoVQA、ChartQA、DocVQA、AI2D、RealWorldQA、V-star、LongVideoBench、NextQA、CharadesSTA、Perception Test等任务上继续保持很强的表现。尤其在文档理解、视觉知识和长视频理解上优势模式更加稳定。8B版本延续了Penguin-VL在文档理解、视觉知识和长视频理解上的整体优势。这说明围绕vision encoder重设计的路线并不是只在小模型上偶然奏效。不过真正把这篇工作钉住的还是encoder实验。论文里的ablation很直接在同样的轻量流程下随机初始化的Penguin-Encoder平均分是31.3换成LLM初始化并加入完整训练配方后平均分提升到34.6。进一步在encoder integration comparison中Penguin-Encoder做到49.3平均分而且只用了约2.4亿Stage 1样本就超过了多种依赖更大规模对比学习预训练的视觉编码方案。换句话说这篇工作真正想证明的不只是Penguin-VL这个模型“做出来了”而是LLM-init vision encoder这条路本身就是成立的。从这个角度看Penguin-VL 的意义其实不只是一组benchmark分数。它更像是在提醒大家过去那条“先有传统视觉backbone再去接语言模型”的路径当然依然有效但它未必是唯一答案。未来的 vision encoder也许不一定非得来自传统视觉模型也可以从更通用的语言模型出发。某种程度上这也与近期DeepSeek-OCR2等工作呈现出的趋势有些相通。大家似乎都在慢慢跳出那条已经非常熟悉的多模态拼接路线开始探索一种更原生、更统一的建模方式。项目相关代码、模型和交互式体验现已开放。感兴趣的朋友可戳链接了解更多内容GitHub地址https://github.com/tencent-ailab/Penguin-VL论文地址https://arxiv.org/abs/2603.065692B模型https://huggingface.co/tencent/Penguin-VL-2B8B 模型https://huggingface.co/tencent/Penguin-VL-8BPenguin-Encoderhttps://huggingface.co/tencent/Penguin-EncoderHugging Face Space试玩https://huggingface.co/spaces/tencent/Penguin-VL

相关文章:

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!

Penguin-VL团队 投稿量子位 | 公众号 QbitAI打破多模态视觉语言拼接套路!腾讯开源Penguin-VL,直接用纯文本LLM训视觉编码器。这项研究跳出了先有传统视觉 backbone,再接语言模型的常规路径,直接从text-only LLM初始化vision encod…...

Java并发编程终极指南:RedSpider社区concurrent项目深度解析 [特殊字符]

Java并发编程终极指南:RedSpider社区concurrent项目深度解析 🚀 【免费下载链接】concurrent 这是RedSpider社区成员原创与维护的Java多线程系列文章。 项目地址: https://gitcode.com/gh_mirrors/co/concurrent 想要掌握Java并发编程的核心原理吗…...

优质学术论文平台推荐:六大权威站点提供智能降重与自然语言处理功能,有效规避查重标红问题

开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具,我从处理速度、降重效果和核心优势三个维度,对比了6款热门网站,数据基于实际使用案例: 工具名称 处理速度 降…...

龙虾的应用商店挂牌了!北大开源MagicSkills,让Agent Skill可自由安装组合同步

Narwhal-lab 投稿量子位 | 公众号 QbitAIAI Agent世界的npm来了!最近,北京大学Narwhal-Lab的开源项目MagicSkills,通过把AI Agent所需的技能(Skill)统一管理、安装、组合和同步,实现了“写一次、到处用”的…...

探索 Awesome GPT Agents:解锁AI助手在网络安全领域的无限可能

探索 Awesome GPT Agents:解锁AI助手在网络安全领域的无限可能 【免费下载链接】Awesome-GPT-Agents A curated list of GPT agents for cybersecurity 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-GPT-Agents Awesome GPT Agents 是一个精心…...

如何快速突破微信网页版限制:wechat-need-web完整解决方案指南

如何快速突破微信网页版限制:wechat-need-web完整解决方案指南 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 在远程办公和跨平台协作日益…...

稳定扩散WebUI本地化中文版安装与使用教程

稳定扩散WebUI本地化中文版安装与使用教程 【免费下载链接】stable-diffusion-webui-localization-zh_CN Simplified Chinese translation extension for AUTOMATIC1111s stable diffusion webui 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-locali…...

【亲测免费】 smartParsePro 项目快速入门教程

smartParsePro 项目快速入门教程 【免费下载链接】smartParsePro 地址智能识别Pro(支持省市区街道/电话/邮编/姓名/身份证号识别) 项目地址: https://gitcode.com/gh_mirrors/smar/smartParsePro 1. 项目目录结构及介绍 smartParsePro/ ├── s…...

StructBERT语义相似度工具5分钟部署:一键解决中文句子匹配难题

StructBERT语义相似度工具5分钟部署:一键解决中文句子匹配难题 1. 项目简介:你的中文句子“找不同”神器 想象一下这个场景:你正在审核用户提交的客服对话记录,需要快速判断“我的订单怎么还没发货?”和“请问我的包…...

测试 Elasticsearch,现在变得更简单了

作者:来自 Elastic Piotr Przybyl 解释由于 Elasticsearch 9.x、现代 Java 客户端以及 Testcontainers 2.x 的改进,Elasticsearch 集成测试如何变得更加简单。 上手体验 Elasticsearch:深入了解我们在 Elasticsearch Labs 仓库中的示例 noteb…...

30-seconds-of-python 项目教程:掌握Python高效编程的终极秘籍

30-seconds-of-python 项目教程:掌握Python高效编程的终极秘籍 【免费下载链接】30-seconds-of-python 项目地址: https://gitcode.com/gh_mirrors/30s/30-seconds-of-python 30-seconds-of-python 是一个专为Python开发者打造的实用代码片段库,…...

计算机毕业设计springboot基于的洗衣店服务管理系统 SpringBoot驱动的智能洗衣服务平台设计与实现 基于Java微服务架构的衣物洗护订单管理系统

计算机毕业设计springboot基于的洗衣店服务管理系统0oc89212 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着都市生活节奏的不断加快,人们对便捷服务的需求日益…...

华为:智慧交管感知解决方案及产品手册 2023

这份华为 2023 年智慧交管感知解决方案及产品手册,聚焦城市道路交通管理中的各类痛点,依托云计算、大模型、AI、机器视觉等技术,推出全场景的智慧交管感知产品与解决方案,通过环保化、高清化、智能化的技术升级,解决交…...

采购订单增强避坑指南:二代增强MM06E005 vs 三代增强ME_GUI_PO_CUST如何选?

采购订单增强技术选型实战:二代增强与三代增强深度对比 在SAP系统实施过程中,采购订单(Purchase Order)作为企业采购流程的核心单据,其定制化需求层出不穷。当标准功能无法满足业务需求时,增强(Enhancement)便成为开发人员的首选方…...

uboot之do_bootm_linux启动内核函数源码解析

当配置了CONFIG_PPC时将调用common/cmd_bootm.c中的do_bootm_linux。本处是调用libarm/armlinux.c中的。 u-boot.h中 static struct tag params; typedef struct bd_info { int bi_baudrate; / serial console baudrate /波特率 unsigned long bi_ip_addr; / IP Address /即服务…...

头歌平台实战:如何通过预防性维护避免斐波那契数列计算的性能陷阱

头歌平台实战:斐波那契数列计算的性能优化与预防性维护 在编程学习与算法实践中,斐波那契数列计算是一个经典案例。它不仅帮助我们理解递归与迭代的区别,更是性能优化和代码维护的绝佳教材。本文将从头歌平台的实际任务出发,深入探…...

**开源项目教程:探索`awesome-campus-expert`**

开源项目教程:探索awesome-campus-expert 【免费下载链接】awesome-campus-expert 🕶 An awesome list of resources for campus experts! 🕶 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-campus-expert 1. 项目目录结构及介…...

Invest模型年产水量计算:从数据获取到结果导出的全流程实战

1. Invest模型年产水量计算入门指南 刚接触Invest模型的朋友们可能对这个强大的生态系统服务评估工具既好奇又困惑。作为一款由斯坦福大学自然资本项目组开发的免费开源工具,Invest模型能够帮助我们量化生态系统的各项服务价值,其中年产水量计算是最基础…...

GitHub_Trending/we/WeChatMsg常见错误排查:导出失败解决方案

GitHub_Trending/we/WeChatMsg常见错误排查:导出失败解决方案 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/w…...

明道云Webhook与ERP双向同步:手把手教你实现发货状态实时更新

明道云与ERP系统深度集成:Webhook双向同步实战指南 在数字化转型浪潮中,企业系统间的数据孤岛问题日益凸显。明道云作为国内领先的低代码平台,与ERP系统的无缝对接成为众多企业提升运营效率的关键需求。本文将聚焦发货状态实时同步这一典型场…...

PC-DMIS最佳拟合坐标系实战:四种算法选择与避坑指南

PC-DMIS最佳拟合坐标系实战:四种算法选择与避坑指南 在精密制造领域,三坐标测量机(CMM)的测量精度直接影响产品质量控制的有效性。而坐标系作为测量的基准框架,其建立的准确性更是重中之重。当面对复杂零件或存在装配关系的特征组时&#xff…...

运用长尾关键词提升SEO效果与关键词优化策略解析

本文将深入探讨长尾关键词在提升SEO效果和关键词优化策略中的重要性。长尾关键词不仅帮助网站更好地匹配用户的搜索意图,还能在竞争激烈的市场中脱颖而出。我们会分析当前最佳实践,让您了解到如何高效地挖掘与应用这些关键词,从而提升您的内容…...

uboot网络配置避坑指南:为什么你的tftpserver总是ping不通?

U-Boot网络配置深度解析:从Ping不通到高效TFTP传输的终极指南 在嵌入式开发的世界里,U-Boot作为系统启动的"第一道门",其网络配置的稳定性直接影响着开发效率。当你在深夜加班调试,准备通过TFTP快速加载内核镜像时&…...

K3s容器健康检查配置:确保应用高可用性的完整指南 [特殊字符]

K3s容器健康检查配置:确保应用高可用性的完整指南 🚀 【免费下载链接】k3s K3s 是一个轻量级的 Kubernetes 发行版,用于在资源受限的环境和物联网设备上部署 Kubernetes 群集。 * 轻量级的 Kubernetes 发行版、在资源受限的环境和物联网设备上…...

【Autosar Can Sample】第二章之Ecuc模块配置实战:从PDU管理到硬件交互

1. Ecuc模块配置的核心逻辑 第一次接触Autosar的Ecuc模块时,我完全被它复杂的配置项搞懵了。直到在实际项目中踩过几次坑才明白,Ecuc本质上就是个"交通警察",负责协调各个模块间的数据流动。举个例子,就像城市交通系统中…...

终极Lorri教程:如何简化Nix Shell管理并提升开发效率

终极Lorri教程:如何简化Nix Shell管理并提升开发效率 【免费下载链接】lorri Your projects nix-env 项目地址: https://gitcode.com/gh_mirrors/lo/lorri Lorri是一款强大的Nix Shell管理工具,专为项目开发设计,能够替代传统的nix-sh…...

H3C三层链路聚合实战:路由场景下的高可用配置与故障恢复

1. 为什么需要三层链路聚合? 在企业网络的核心层或数据中心互联场景中,单条物理链路的带宽和可靠性往往无法满足业务需求。想象一下高速公路上的单车道突然封闭,所有车辆只能原地等待——这就是传统单链路网络的痛点。H3C的Route-Aggregation…...

为什么老项目必须升级Apache Commons Collections?从CC1链看第三方库的安全风险

为什么企业级Java项目必须紧急升级Apache Commons Collections? 当技术团队还在为业务需求疲于奔命时,一个潜伏在老旧组件中的"定时炸弹"可能随时引爆——Apache Commons Collections反序列化漏洞(CVE-2015-7501)至今仍…...

探秘UI宝盒:18个顶级UI片段让你的前端开发效率提升300%

探秘UI宝盒:18个顶级UI片段让你的前端开发效率提升300% 【免费下载链接】ui-snippets A collection of UI Snippets. 项目地址: https://gitcode.com/gh_mirrors/ui/ui-snippets 你还在为重复编写按钮动画、加载效果而浪费时间吗?还在为UI交互细节…...

Navicat Premium连接Oracle 11g保姆级教程(附instantclient配置避坑指南)

Navicat Premium连接Oracle 11g全流程指南与疑难解析 作为一名长期与Oracle数据库打交道的开发者,我深知Navicat Premium作为一款强大的数据库管理工具,在连接Oracle 11g时可能会遇到的各种"坑"。特别是instantclient配置和oci.dll问题&#…...