当前位置：首页 > article >正文

腾讯开源 | 蒸馏结合可学习缓存：腾讯混元视频生成加速新探索

article 2026/4/17 8:16:08

来自腾讯混元的全新AIGC视频生成加速方案--(Distillation-CompatibleLearnableFeatureCaching)DisCa正式开源作为学界和业界首次对基于可学习的特征缓存技术进一步加速蒸馏后少步模型的这一方向的尝试该工作现已被CVPR2026接收。TL;DR速览:DisCa主要聚焦于两大方向的讨论1.DisCa首次提出在蒸馏后的少步模型上通过引入可学习的轻量神经网络预测器进一步利用特征缓存高度压缩推理成本在保证质量前提下将加速边界拓展至11.8倍。2.MeanFlow蒸馏方案简单实用的进一步改进。这一点上与麻省理工(MIT)[1]谷歌(Google)[2]等团队同期工作的探索不谋而合互相印证相较之下我们的工作在更复杂的高质量视频生成任务上开展更具实践指导意义。DisCa现已正式开源其代码和模型权重公开可用欢迎大家使用和进一步探索。Githubhttps://github.com/Tencent-Hunyuan/DisCaHugging Facehttps://huggingface.co/tencent/DisCaArXiv论文https://arxiv.org/abs/2602.05449DisCa:蒸馏兼容的可学习缓存在扩散模型进行多步生成的过程左中传统的特征缓存方案直接将以往特征缓存然后在接下来推理步中直接复用或简单地进行预测就能达到不错的加速效果。但在已经进行少步蒸馏的模型右中直接地运用特征缓存方案会导致过大的缓存误差进而导致严重崩坏。DisCa首次提出通过引入轻量神经网络预测器通过神经网络以更好地捕获高维特征的演化轨迹从利用以往推理步中的特征更精准地预测后续特征演化实现推理加速。基于生成-判别对抗的预测器训练对于轻量级神经网络预测器Predictor(P)我们将上图所示的对抗学习方案引入其训练过程。简单来说在这个过程中神经网络预测器P的目标是使其生成结果尽量接近同输入下大模型M的输出而判别器D的目标则是精准分别出预测器P和大模型M的输出。通过神经网络预测器P和判别器D的交替学习进化的博弈过程轻量神经网络预测器P能很好地习得如何基于缓存来预测接下来的特征。引入预测器后的推理模式完成预测器训练后主模型M和预测器P组装起来按所示模式进行推理R-MeanFlow: 剪除激进场景的MeanFlow训练来自麻省理工的何恺明团队提出的MeanFlow引入“预测平均速度场”的观点在ImageNet图像生成任务的加速上取得了显著成功。我们的研究中注意到在更复杂多样要求更高的视频生成任务上这样“一步生成”的目标过于激进而以“一步生成”为目标的激进训练样本甚至会对模型训练产生明显的负面影响。其相应的改进方案简单而实用既然暂时不打算做“一步生成”就剪除这些激进的训练场景使得左图中本来模型每一步步长可能在0到1之间任取的训练被约束为右图中步长受限在0到rr1)的RestrictedMeanFlow(R-MeanFlow)模式。这与麻省理工团队和谷歌团队的同期研究结论相互印证并作为更复杂任务更大规模的实践证据。相关研究成果也被用于当前最佳开源视频生成模型 HunyuanVideo-1.5的步数蒸馏实践中。实验结果展示R-MeanFlow在多项指标上显著优于简单MeanFlow方案可视化结果MeanFlow出现明显畸形和抖动R-MeanFlow方案则能显著解决此问题在HunyuanVideo-1.0文生视频上开展的量化指标对比实验对比方法在超高加速比下出现明显乏力而DisCa和R-MeanFlow仍能保证优秀性能在HunyuanVideo-1.5图生视频上我们加速比进一步提升并开展用户偏好调研4步生成上DisCa明显优于其它参评方案R-MeanFlow8步蒸馏模型性能可与50步无加速模型相比。可视化结果蒸馏缓存结合的方案DisCa在避免畸形和高分辨率细节等能力上展现出明显优势。同期工作[1] Geng, Z., et al. (2025). Improved Mean Flows: On the Challenges of Fastforward Generative Models. arXiv preprint arXiv:2512.02012.[2] Kim, J. Y., et al. (2025). Understanding, Accelerating, and Improving MeanFlow Training. arXiv preprint arXiv:2511.19065.关注腾讯开源公众号获取更多最新腾讯官方开源信息

腾讯开源 | 蒸馏结合可学习缓存：腾讯混元视频生成加速新探索

相关文章：

腾讯开源 | 蒸馏结合可学习缓存：腾讯混元视频生成加速新探索

杭州师范大学生命科学学院2026考研复试资料包（电子版）｜真齐全+高频考点全覆盖

重庆科技大学安全工程考研复试专用资料｜涵盖安全系统工程、风险工程学等核心科目

【Java】类与对象的本质：从底层逻辑到面试实战

别等客户投诉才升级！2026奇点大会AI客服机器人5级成熟度模型来了：你的系统卡在L2还是已突破L4自治阈值？

直播预告 | 密歇根州立大学刘思佳教授：从机器遗忘到更广泛的模型调控

AI逆向|使用AI反编译反混淆练习平台第18题jsvmp

3DGS项目复现：从COLMAP稀疏重建到高斯模型训练全流程拆解

网易股权曝光：丁磊持股45.5% 身价2228亿一年获股息超50亿

从零构建ROS机器人行为树：Groot可视化调试实战指南

前端测试体系

手把手教你用SiameseAOE：中文文本情感抽取实战

浦语灵笔2.5-7B开源可部署：魔搭社区ModelScope模型一键拉取

Unity机械臂控制实战：两种运动方式对比与DOTween动画实现

CefFlashBrowser终极指南：如何让消失的Flash游戏和网页重现生机

Pixel Fashion Atelier保姆级教程：从INSERT COIN按钮物理反馈到图像生成原理

从社交网络到推荐系统：用PyTorch Geometric快速上手你的第一个GNN实战项目

从LAMMPS数据到二维温度云图：命令解析与可视化实战

【独家首发】2024生成式AI基准测试白皮书（含12家头部厂商实测数据+3种负载建模范式），限时开放下载72小时

全球首份AI法律咨询责任划分指南发布（2026奇点大会闭门文件）：律师、算法商、客户三方权责的7个临界点

租户隔离失效=AI服务停摆，92%企业踩坑在第4层：详解Token绑定、Prompt沙箱、Embedding命名空间三重熔断机制

飞书文档批量导出工具：一键备份团队知识资产

SeqGPT-560M在卷积神经网络中的应用：图像文本联合分析

CAM++声纹识别系统案例分享：会议录音自动归档实战

3个神奇技巧：打破网易云音乐NCM格式的数字锁链

ERNIE-4.5-0.3B-PT在电商推荐系统的实战应用

武汉二手中央空调公司

工业和信息化部等六部门办公厅关于公布2025年数字适老助残产品和服务典型案例的通知

微信小程序开发-媒体 API学习笔记

如何在5分钟内解决中文文献管理三大痛点：Jasminum插件终极完整指南