当前位置: 首页 > article >正文

腾讯开源 | 蒸馏结合可学习缓存:腾讯混元视频生成加速新探索

来自腾讯混元的全新AIGC视频生成加速方案--(Distillation-CompatibleLearnableFeatureCaching)DisCa正式开源作为学界和业界首次对基于可学习的特征缓存技术进一步加速蒸馏后少步模型的这一方向的尝试该工作现已被CVPR2026接收。TL;DR速览:DisCa主要聚焦于两大方向的讨论1.DisCa首次提出在蒸馏后的少步模型上通过引入可学习的轻量神经网络预测器进一步利用特征缓存高度压缩推理成本在保证质量前提下将加速边界拓展至11.8倍。2.MeanFlow蒸馏方案简单实用的进一步改进。这一点上与麻省理工(MIT)[1]谷歌(Google)[2]等团队同期工作的探索不谋而合互相印证相较之下我们的工作在更复杂的高质量视频生成任务上开展更具实践指导意义。DisCa现已正式开源其代码和模型权重公开可用欢迎大家使用和进一步探索。Githubhttps://github.com/Tencent-Hunyuan/DisCaHugging Facehttps://huggingface.co/tencent/DisCaArXiv论文https://arxiv.org/abs/2602.05449DisCa:蒸馏兼容的可学习缓存在扩散模型进行多步生成的过程左中传统的特征缓存方案直接将以往特征缓存然后在接下来推理步中直接复用或简单地进行预测就能达到不错的加速效果。但在已经进行少步蒸馏的模型右中直接地运用特征缓存方案会导致过大的缓存误差进而导致严重崩坏。DisCa首次提出通过引入轻量神经网络预测器通过神经网络以更好地捕获高维特征的演化轨迹从利用以往推理步中的特征更精准地预测后续特征演化实现推理加速。基于生成-判别对抗的预测器训练对于轻量级神经网络预测器Predictor(P)我们将上图所示的对抗学习方案引入其训练过程。简单来说在这个过程中神经网络预测器P的目标是使其生成结果尽量接近同输入下大模型M的输出而判别器D的目标则是精准分别出预测器P和大模型M的输出。通过神经网络预测器P和判别器D的交替学习进化的博弈过程轻量神经网络预测器P能很好地习得如何基于缓存来预测接下来的特征。引入预测器后的推理模式完成预测器训练后主模型M和预测器P组装起来按所示模式进行推理R-MeanFlow: 剪除激进场景的MeanFlow训练来自麻省理工的何恺明团队提出的MeanFlow引入“预测平均速度场”的观点在ImageNet图像生成任务的加速上取得了显著成功。我们的研究中注意到在更复杂多样要求更高的视频生成任务上这样“一步生成”的目标过于激进而以“一步生成”为目标的激进训练样本甚至会对模型训练产生明显的负面影响。其相应的改进方案简单而实用既然暂时不打算做“一步生成”就剪除这些激进的训练场景使得左图中本来模型每一步步长可能在0到1之间任取的训练被约束为右图中步长受限在0到rr1)的RestrictedMeanFlow(R-MeanFlow)模式。这与麻省理工团队和谷歌团队的同期研究结论相互印证并作为更复杂任务更大规模的实践证据。相关研究成果也被用于当前最佳开源视频生成模型 HunyuanVideo-1.5的步数蒸馏实践中。实验结果展示R-MeanFlow在多项指标上显著优于简单MeanFlow方案可视化结果MeanFlow出现明显畸形和抖动R-MeanFlow方案则能显著解决此问题在HunyuanVideo-1.0文生视频上开展的量化指标对比实验对比方法在超高加速比下出现明显乏力而DisCa和R-MeanFlow仍能保证优秀性能在HunyuanVideo-1.5图生视频上我们加速比进一步提升并开展用户偏好调研4步生成上DisCa明显优于其它参评方案R-MeanFlow8步蒸馏模型性能可与50步无加速模型相比。可视化结果蒸馏缓存结合的方案DisCa在避免畸形和高分辨率细节等能力上展现出明显优势。同期工作[1] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models. arXiv preprint arXiv:2512.02012.[2] Kim, J. Y., et al. (2025). Understanding, Accelerating, and Improving MeanFlow Training. arXiv preprint arXiv:2511.19065.关注腾讯开源公众号获取更多最新腾讯官方开源信息

相关文章:

腾讯开源 | 蒸馏结合可学习缓存:腾讯混元视频生成加速新探索

来自腾讯混元的全新AIGC视频生成加速方案--(Distillation-CompatibleLearnableFeatureCaching)DisCa正式开源,作为学界和业界首次对基于可学习的特征缓存技术进一步加速蒸馏后少步模型的这一方向的尝试,该工作现已被CVPR2026接收。TL;DR速览:DisCa主要聚…...

杭州师范大学生命科学学院2026考研复试资料包(电子版)|真齐全+高频考点全覆盖

温馨提示:文末有联系方式 杭师大生命科学学院2026考研复试专属资料包 本资料包专为报考杭州师范大学生命科学学院2026级硕士研究生的考生精心整理,全程电子化,内容系统全面,直击复试核心环节。 2025年杭师大生科院复试笔试真&am…...

重庆科技大学安全工程考研复试专用资料|涵盖安全系统工程、风险工程学等核心科目

温馨提示:文末有联系方式一、权威覆盖:重庆科技大学安全工程复试核心课程资料 本套资料深度聚焦重庆科技大学安全工程专业研究生复试要求,系统整合《安全系统工程》《风险工程学》等关键专业课内容,紧扣近年复试命趋势与学科重点&…...

【Java】类与对象的本质:从底层逻辑到面试实战

【Java】类与对象的本质:从底层逻辑到面试实战类与对象的本质——语言根基(三)一、从内存视角看“类”和“对象”1.1 类:一段只读的蓝图代码1.2 对象:一块可写的堆内存二、底层机制2.1 方法调用如何完成2.2 this 指针的…...

别等客户投诉才升级!2026奇点大会AI客服机器人5级成熟度模型来了:你的系统卡在L2还是已突破L4自治阈值?

第一章:2026奇点智能技术大会:AI客服机器人 2026奇点智能技术大会(https://ml-summit.org) 本届大会首次将AI客服机器人列为“可部署级智能体”核心示范场景,聚焦多模态意图理解、实时语义纠偏与跨平台服务编排三大突破。现场演示的OpenSer…...

直播预告 | 密歇根州立大学刘思佳教授:从机器遗忘到更广泛的模型调控

PaperWeekly 星弧 STARC 科研觉醒AI前沿讲座 直播主题 从机器遗忘到更广泛的模型调控 直播嘉宾 刘思佳密歇根州立大学杰出副教授MIT-IBM Watson AI Lab客座教授 直播时间 2026年4月18日(周六)10:00-11:00 参会方式 腾讯会议/VooV ID: 721-062-543 报告介…...

AI逆向|使用AI反编译反混淆练习平台第18题jsvmp

关注它,不迷路。本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负,如有侵权,请联系作者立即删除!一.题目地址https://match.yuanrenxue.cn/match/18二.抓包分析先打开控制台&…...

3DGS项目复现:从COLMAP稀疏重建到高斯模型训练全流程拆解

1. 3DGS项目复现概述 3D Gaussian Splatting(3DGS)是近年来计算机视觉领域的一项突破性技术,它通过将3D场景表示为大量可学习的高斯分布来实现高质量的视图合成。与传统的NeRF方法相比,3DGS在渲染速度、内存效率和场景细节保留方面…...

网易股权曝光:丁磊持股45.5% 身价2228亿 一年获股息超50亿

雷递网 雷建平 4月15日网易今日发布20-F文件,文件显示,网易董事、CEO为丁磊,独立董事分别为郑玉芬、唐徽、唐子期、陈觉忠、梁民杰,总法律顾问为Paul W. Boltz, Jr,财务副总裁为莫斌。截至2026年2月28日,丁…...

从零构建ROS机器人行为树:Groot可视化调试实战指南

1. 为什么需要行为树与Groot? 想象一下你在指挥一支机器人小队执行巡逻任务。如果只用传统代码写逻辑,可能会变成一堆复杂的if-else嵌套,就像用文字描述"如果看到敌人就攻击,否则检查A点,如果距离A点小于0.5米就…...

前端测试体系

前端测试体系:构建高质量Web应用的基石 在当今快速迭代的Web开发领域,前端测试已成为保障产品质量的关键环节。随着单页应用(SPA)和复杂交互场景的普及,前端代码的逻辑复杂度显著提升,仅靠人工测试已难以覆…...

手把手教你用SiameseAOE:中文文本情感抽取实战

手把手教你用SiameseAOE:中文文本情感抽取实战 1. 认识SiameseAOE模型 1.1 什么是属性观点抽取 想象一下,你面前有1000条用户对某款手机的评论,如何快速找出用户对"摄像头"、"电池"、"屏幕"等各个方面的评价…...

浦语灵笔2.5-7B开源可部署:魔搭社区ModelScope模型一键拉取

浦语灵笔2.5-7B开源可部署:魔搭社区ModelScope模型一键拉取 1. 模型概述与核心价值 浦语灵笔2.5-7B是上海人工智能实验室开发的多模态视觉语言大模型,基于InternLM2-7B架构,融合了CLIP ViT-L/14视觉编码器。这个模型能够同时理解图片和文字…...

Unity机械臂控制实战:两种运动方式对比与DOTween动画实现

Unity机械臂控制实战:两种运动方式对比与DOTween动画实现 机械臂控制在工业仿真、游戏开发等领域有着广泛应用。Unity作为一款强大的跨平台引擎,为机械臂控制提供了灵活的实现方案。本文将深入探讨两种主流运动方式——顺序运动与同步运动,并…...

CefFlashBrowser终极指南:如何让消失的Flash游戏和网页重现生机

CefFlashBrowser终极指南:如何让消失的Flash游戏和网页重现生机 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 你是否还在为无法玩经典的Flash游戏而烦恼?当主流浏…...

Pixel Fashion Atelier保姆级教程:从INSERT COIN按钮物理反馈到图像生成原理

Pixel Fashion Atelier保姆级教程:从INSERT COIN按钮物理反馈到图像生成原理 1. 认识像素时装锻造坊 像素时装锻造坊是一款基于Stable Diffusion与Anything-v5的图像生成工具,它将复古日系RPG的视觉风格与AI图像生成技术完美结合。与传统AI工具不同&am…...

从社交网络到推荐系统:用PyTorch Geometric快速上手你的第一个GNN实战项目

从社交网络到推荐系统:用PyTorch Geometric快速上手你的第一个GNN实战项目 在人工智能领域,图神经网络(GNN)正以惊人的速度改变着我们处理关系型数据的方式。想象一下,当社交网络中的用户关系、电商平台的购买记录或是学术论文的引用网络都能…...

从LAMMPS数据到二维温度云图:命令解析与可视化实战

1. LAMMPS温度数据解析基础 做分子动力学模拟的朋友都知道,LAMMPS输出的原始数据就像是一本天书,特别是当我们需要分析特定区域的温度分布时。今天我就来分享下如何把这些晦涩的数据变成直观的温度云图,这个技能在分析摩擦界面、热传导等问题…...

【独家首发】2024生成式AI基准测试白皮书(含12家头部厂商实测数据+3种负载建模范式),限时开放下载72小时

第一章:生成式AI应用性能基准测试 2026奇点智能技术大会(https://ml-summit.org) 生成式AI应用的性能表现不仅取决于模型参数量与推理框架优化,更受实际部署场景中延迟、吞吐量、内存驻留及长尾请求响应稳定性等多维指标制约。脱离真实负载模式的合成基…...

全球首份AI法律咨询责任划分指南发布(2026奇点大会闭门文件):律师、算法商、客户三方权责的7个临界点

第一章:全球首份AI法律咨询责任划分指南发布(2026奇点大会闭门文件)概述 2026奇点智能技术大会(https://ml-summit.org) 该指南由联合国人工智能治理联盟(UN-AIGA)联合国际律师协会(IBA)及欧盟…...

租户隔离失效=AI服务停摆,92%企业踩坑在第4层:详解Token绑定、Prompt沙箱、Embedding命名空间三重熔断机制

第一章:租户隔离失效的系统性风险与AI服务停摆根源 2026奇点智能技术大会(https://ml-summit.org) 租户隔离不仅是多租户云原生架构的核心安全契约,更是AI服务持续可用性的底层基石。当隔离机制因配置缺陷、运行时逃逸或控制平面漏洞被绕过时&#xff0…...

飞书文档批量导出工具:一键备份团队知识资产

飞书文档批量导出工具:一键备份团队知识资产 【免费下载链接】feishu-doc-export 飞书文档导出服务 项目地址: https://gitcode.com/gh_mirrors/fe/feishu-doc-export 在数字化办公时代,团队知识库已成为企业核心资产。然而,当面临协作…...

SeqGPT-560M在卷积神经网络中的应用:图像文本联合分析

SeqGPT-560M在卷积神经网络中的应用:图像文本联合分析 1. 引言 想象一下这样的场景:电商平台每天需要处理数百万张商品图片和用户评论,人工审核团队需要同时理解图像内容和文字描述,工作量大且容易出错。或者医疗影像系统中&…...

CAM++声纹识别系统案例分享:会议录音自动归档实战

CAM声纹识别系统案例分享:会议录音自动归档实战 1. 项目背景与需求 在日常工作中,会议录音的整理归档一直是个耗时费力的工作。传统方式需要人工反复听取录音内容,手动标注发言人信息,效率低下且容易出错。我们团队每月产生超过…...

3个神奇技巧:打破网易云音乐NCM格式的数字锁链

3个神奇技巧:打破网易云音乐NCM格式的数字锁链 【免费下载链接】ncmdump ncmdump - 网易云音乐NCM转换 项目地址: https://gitcode.com/gh_mirrors/ncmdu/ncmdump 痛点洞察:当音乐被平台"囚禁"的尴尬时刻 想象一下这个场景&#xff1a…...

ERNIE-4.5-0.3B-PT在电商推荐系统的实战应用

ERNIE-4.5-0.3B-PT在电商推荐系统的实战应用 1. 引言 电商平台每天面临着一个共同的挑战:如何让海量商品精准触达潜在买家。传统的推荐系统往往依赖于用户历史行为和商品标签,但这种方式在面对新品上架或用户兴趣变化时,往往显得力不从心。…...

武汉二手中央空调公司

在武汉这座繁华的城市里,无论是商业场所还是家庭,对于中央空调的需求都日益增长。而二手中央空调以其经济实惠的特点,成为了很多人的选择。今天就为大家介绍一家值得信赖的武汉二手中央空调公司——武汉恒弘商贸有限公司,并分享一…...

工业和信息化部等六部门办公厅关于公布2025年数字适老助残产品和服务典型案例的通知

发文机关:工业和信息化部办公厅 民政部办公厅 交通运输部办公厅 文化和旅游部办公厅 金融监管总局办公厅 中国残联办公厅标  题:工业和信息化部等六部门办公厅关于公布2025年数字适老助残产品和服务典型案例的通知发文字号:工信厅联信管函〔…...

微信小程序开发-媒体 API学习笔记

微信小程序媒体 API 案例讲解零基础吃透微信小程序媒体 API,涵盖图片、录音、音频、视频、相机五大核心模块,每个知识点都以案例进行讲解。笔记中的案例资源已放在顶部,大家可自行下载学习。本章核心概述:图片管理:选择…...

如何在5分钟内解决中文文献管理三大痛点:Jasminum插件终极完整指南

如何在5分钟内解决中文文献管理三大痛点:Jasminum插件终极完整指南 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 你…...