当前位置: 首页 > article >正文

AI 首次实现电影级多镜头长视频生成!快手港中文开源ShotStream,可实现单NVIDIA GPU上可达16 FPS 互式故事讲述和高效即时帧生成。

在 AI 视频生成领域我们长期被困在“单镜头”的牢笼里生成的视频往往只有几秒到十几秒且缺乏场景切换和叙事逻辑。想要生成一个有起承转合、有多角度运镜的完整故事片段通常需要生成几十个独立视频再手动剪辑不仅效率低角色和场景的一致性也难以保证。快手可灵团队提出了一种全新的多镜头长视频生成框架ShotStream它不再是简单地延长视频时间而是让 AI 真正学会了“导演思维”自动规划分镜、智能控制运镜、无缝处理场景切换。ShotStream 能够根据一个故事脚本直接生成包含多个镜头、多种景别、流畅转场的完整视频序列且角色与场景在不同镜头间保持高度一致。这标志着 AI 视频生成从“玩具”正式迈向了“电影制作”的门槛ShotStream 是一种新颖的因果多镜头架构可实现交互式故事讲述和高效的即时帧生成在单个 NVIDIA GPU 上可达到16 FPS 。相关链接论文https://arxiv.org/pdf/2603.25746项目https://luo0207.github.io/ShotStream源码https://github.com/KlingAIResearch/ShotStream论文介绍多镜头视频生成对于长篇叙事至关重要但当前的双向架构存在交互性有限和延迟高的问题。论文提出了一种新型的因果多镜头架构——ShotStream它支持交互式叙事和高效的即时帧生成。通过将任务重新定义为基于历史上下文的下一镜头生成ShotStream 允许用户通过流式提示动态地指导正在进行的叙事。首先将文本到视频模型微调为双向下一镜头生成器然后通过分布式匹配蒸馏将其提炼为因果学生模型。为了克服自回归生成中固有的镜头间一致性和误差累积问题引入了两项关键创新。首先双缓存机制保持视觉连贯性全局上下文缓存保留条件帧以确保镜头间一致性而局部上下文缓存保存当前镜头内生成的帧以确保镜头内一致性。此外还采用了 RoPE 不连续性指示器来明确区分两个缓存从而消除歧义。其次为了减少误差累积提出了一种两阶段蒸馏策略。该策略首先基于真实历史镜头进行镜头内自强化然后逐步扩展到使用自生成历史的镜头间自强化从而有效地弥合训练集和测试集之间的差距。大量实验表明ShotStream 能够以亚秒级的延迟生成连贯的多镜头视频在单个 GPU 上即可达到 16 FPS 的帧率。它的性能与速度较慢的双向模型相当甚至更优为实时交互式故事讲述铺平了道路。方法概述ShotStream 工作流程概述该工作流程能够根据流媒体提示实时生成长视频、多镜头视频。双向下一镜头教师模型架构。为了实现 ShotStream首先将文本到视频模型微调为双向下一镜头模型该模型根据先前镜头的稀疏上下文帧生成后续镜头。这些条件上下文帧通过 3D VAE 编码为潜在变量并通过沿时间维度将它们与噪声潜在变量连接起来注入。在微调过程中仅优化 DiT 模块中的 3D 时空注意力层。因果架构和两阶段蒸馏流程。将缓慢的多步骤双向教师模型蒸馏为高效的少步骤因果生成器。为了保持视觉一致性我们提出了一种新颖的双缓存机制全局上下文缓存存储条件帧以确保镜头间的一致性而局部上下文缓存则保留目标镜头内生成的帧以保证镜头内的一致性。为了防止误差累积我们采用了一种渐进式的两阶段蒸馏策略。在第一阶段镜头内自驱动蒸馏步骤 2.1模型以真实历史镜头为条件逐帧生成当前镜头。在第二阶段镜头间自驱动蒸馏步骤 2.2模型以自身先前生成的镜头为条件逐帧播放视频同时迭代地逐帧生成每个镜头的帧。可以总结为如下三点因果多镜头架构提出了一种全新的因果多镜头架构支持实时互动和超低延迟的视频生成。两步蒸馏法通过双向下一镜头教师模型和因果学生模型的蒸馏实现了高效、连贯的多镜头视频生成。实时流式生成在单张NVIDIA GPU上实现了16 FPS的实时视频生成为交互式叙事提供了可能。实验定量结果ShotStream在各项评估指标上均优于或等同于基线模型特别是在视觉一致性和提示跟随方面表现突出。定性结果通过用户研究发现ShotStream生成的视频在视觉一致性、整体视觉质量和提示跟随方面均受到用户的高度偏好。ShotStream在单张NVIDIA H200 GPU上实现了16 FPS的实时生成速度显著优于双向模型。结论ShotStream的诞生不仅标志着视频生成技术的一次重大突破更为交互式叙事开辟了无限可能。其独特的因果多镜头架构和两步蒸馏法使得实时、连贯、无限长的视频生成成为现实。从AI驱动的游戏到教育短片生成再到与AI进行实时的视觉故事共创ShotStream正在将视频AI从“工具”向“伙伴”推进一大步。技术的开源是创新浪潮的真正起点。ShotStream已经搭好了舞台接下来就看开发者、创作者们如何用它来演绎属于这个时代的视觉叙事革命了。

相关文章:

AI 首次实现电影级多镜头长视频生成!快手港中文开源ShotStream,可实现单NVIDIA GPU上可达16 FPS 互式故事讲述和高效即时帧生成。

在 AI 视频生成领域,我们长期被困在“单镜头”的牢笼里:生成的视频往往只有几秒到十几秒,且缺乏场景切换和叙事逻辑。想要生成一个有起承转合、有多角度运镜的完整故事片段,通常需要生成几十个独立视频再手动剪辑,不仅…...

突破60帧限制:EldenRingFPSUnlockAndMore让你的《艾尔登法环》焕然新生

突破60帧限制:EldenRingFPSUnlockAndMore让你的《艾尔登法环》焕然新生 【免费下载链接】EldenRingFpsUnlockAndMore A small utility to remove frame rate limit, change FOV, add widescreen support and more for Elden Ring 项目地址: https://gitcode.com/g…...

Ostrakon-VL-8B实战:利用LSTM时序模型增强视频片段内容理解

Ostrakon-VL-8B实战:利用LSTM时序模型增强视频片段内容理解 你有没有遇到过这样的场景?面对一段几分钟的监控录像,需要快速知道里面发生了什么;或者刷到一个短视频,想让它自动生成一段文字描述。单纯靠人眼去看、人脑…...

WarcraftHelper终极指南:5分钟让魔兽争霸3完美适配现代电脑

WarcraftHelper终极指南:5分钟让魔兽争霸3完美适配现代电脑 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代系统上的…...

Folcolor:告别视觉疲劳!14种色彩让你的Windows文件夹管理效率提升3倍

Folcolor:告别视觉疲劳!14种色彩让你的Windows文件夹管理效率提升3倍 【免费下载链接】Folcolor Windows explorer folder coloring utility 项目地址: https://gitcode.com/gh_mirrors/fo/Folcolor 你是否曾在成百上千个黄色文件夹中迷失方向&am…...

终极ECAPA-TDNN说话人识别系统:从零到工业级部署的完整指南

终极ECAPA-TDNN说话人识别系统:从零到工业级部署的完整指南 【免费下载链接】ECAPA-TDNN Unofficial reimplementation of ECAPA-TDNN for speaker recognition (EER0.86 for Vox1_O when train only in Vox2) 项目地址: https://gitcode.com/gh_mirrors/ec/ECAPA…...

labview解析can报文,DBC解析Can报文,支持asc、csv、txt格式文件离线解析...

labview解析can报文,DBC解析Can报文,支持asc、csv、txt格式文件离线解析,可通过设置移位,逗号数,空格数等特征索引ID和报文数据,解析报文,可将解析结果存储为本地txt文本,可设置循环…...

Loop:3个简单步骤彻底告别macOS窗口管理混乱的终极解决方案

Loop:3个简单步骤彻底告别macOS窗口管理混乱的终极解决方案 【免费下载链接】Loop Window management made elegant. 项目地址: https://gitcode.com/GitHub_Trending/lo/Loop 你是否曾在多任务处理时被杂乱的窗口拖慢了工作效率?作为一名每天需要…...

【Windows10实战】PyTorch版DeepLabV3+:从零构建自定义数据集训练全流程

1. 环境准备与工具安装 在Windows10系统上搭建PyTorch开发环境其实比想象中简单。我推荐使用PyCharm作为IDE,它的项目管理功能对深度学习项目特别友好。首先需要安装Python3.7或更高版本(实测3.8也能完美兼容),建议通过Anaconda来…...

从零到一:用prompt_toolkit打造你的专属交互式CLI

1. 为什么你需要prompt_toolkit? 如果你经常和命令行打交道,肯定遇到过这样的场景:输入命令时总得反复敲相同的指令,想给常用命令加个自动补全却无从下手,或者看着单调的黑白终端界面感到审美疲劳。这时候就该prompt_t…...

33种语言自由翻译:Hunyuan-MT 7B镜像部署与使用全指南

33种语言自由翻译:Hunyuan-MT 7B镜像部署与使用全指南 1. 为什么选择本地化翻译工具 1.1 在线翻译服务的局限性 在全球化协作日益频繁的今天,我们经常面临多语言沟通的挑战。传统在线翻译工具虽然方便,但存在几个关键问题: 隐…...

CSS如何制作卡片翻开呈现另一面的翻牌动画

最小可行结构需父容器设 perspective,卡片容器设 transform-style: preserve-3d,前后两面均设 backface-visibility: hidden 且初始 rotateY 分别为 0deg 和 180deg。用 transform: rotateY() 实现卡片翻转的最小可行结构翻牌动画本质是让前后两个面共享…...

Linux环境下TensorRT安装与配置全攻略

1. 环境准备与版本检查 在Linux系统上部署TensorRT之前,最关键的是确保基础环境兼容性。我遇到过不少开发者直接跳过版本检查导致后续各种报错,这里分享几个实用命令和避坑经验。 首先用nvidia-smi查看显卡驱动支持的CUDA最高版本。注意这里显示的是驱动…...

如何为企业级AI应用构建高效数据管道:实战解决方案提升80%内容处理效率

如何为企业级AI应用构建高效数据管道:实战解决方案提升80%内容处理效率 【免费下载链接】reader Convert any URL to an LLM-friendly input with a simple prefix https://r.jina.ai/ 项目地址: https://gitcode.com/GitHub_Trending/rea/reader Jina Reade…...

传统物流专员效率瓶颈明显,AI物流调度师正在替代

路线规划、车辆调度、在途跟踪、异常处理……传统物流专员的大量工作时间被这些重复性、高耗时的事务占据。随着运力成本上升和时效要求提高,人工调度的效率瓶颈日益突出:经验依赖强、响应速度慢、难以同时处理多变量优化。与此同时,“AI物流…...

CSS如何优化CSS加载性能_通过代码分割与压缩减少体积

关键不是压缩CSS体积,而是让浏览器尽快获取首屏所需CSS;需用media属性条件加载、动态导入非首屏样式、避免import、合理分割CSS、删除冗余选择器、谨慎内联并控制体积在2KB内。怎么让CSS不阻塞页面渲染关键不是“压缩体积”,而是让浏览器尽快…...

三分钟解决内存焦虑:Mem Reduct实时内存管理工具深度解析

三分钟解决内存焦虑:Mem Reduct实时内存管理工具深度解析 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memreduct …...

字节跳动(ByteDance)2026 OA 面经|高频题型拆解 + 速通攻略

最近刚刷完字节跳动(ByteDance / TikTok)2026 OA,一句话总结:题量稳定、难度中等偏上,但时间压力大 变体题多。字节 OA 通常在 CodeSignal 或 HackerRank 平台,标准配置是 3-4 题,70-120 分钟&…...

SGLang测试策略深度解析:构建企业级LLM应用的终极质量保障体系

SGLang测试策略深度解析:构建企业级LLM应用的终极质量保障体系 【免费下载链接】sglang SGLang is a high-performance serving framework for large language models and multimodal models. 项目地址: https://gitcode.com/GitHub_Trending/sg/sglang 在大…...

OpCore Simplify终极指南:5步轻松搞定Hackintosh配置,新手也能快速上手

OpCore Simplify终极指南:5步轻松搞定Hackintosh配置,新手也能快速上手 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为…...

PostgreSQL之Timescale-超表实战:从创建到优化的全流程指南

1. TimescaleDB超表入门:从零开始认识时序数据利器 第一次接触TimescaleDB时,我被它处理时间序列数据的能力惊艳到了。作为PostgreSQL的扩展,TimescaleDB最大的亮点就是**超表(Hypertable)**这个概念。简单来说,超表就像是一个智能…...

别让PCB变成‘电磁炸弹’:从布局到布线,一份给硬件工程师的EMI实战避坑清单

别让PCB变成‘电磁炸弹’:从布局到布线,一份给硬件工程师的EMI实战避坑清单 刚入行的硬件工程师小张最近遇到了一个棘手问题——他设计的工控主板在测试时频繁触发EMC检测设备的报警。更糟的是,产线反馈首批500块板子中有30%出现无线模块通信…...

Helpy Docker容器化部署最佳实践:快速稳定的生产环境搭建

Helpy Docker容器化部署最佳实践:快速稳定的生产环境搭建 【免费下载链接】helpy Helpy is a modern, open source helpdesk customer support application. Features include knowledgebase, community discussions and support tickets integrated with email. …...

探索AI世界:PaddleHub深度学习框架详解

探索AI世界:PaddleHub深度学习框架详解 【免费下载链接】PaddleFormers PaddleFormers is an easy-to-use library of pre-trained large language model zoo based on PaddlePaddle. 项目地址: https://gitcode.com/gh_mirrors/pa/PaddleFormers PaddleHub是…...

Nginx-UI:现代化Nginx集群管理平台的技术架构与实践指南

Nginx-UI:现代化Nginx集群管理平台的技术架构与实践指南 【免费下载链接】nginx-ui Yet another WebUI for Nginx 项目地址: https://gitcode.com/gh_mirrors/ngi/nginx-ui 项目定位与技术架构 Nginx-UI是一个基于Go和Vue构建的现代化Nginx管理平台&#xf…...

Kandinsky-5.0-I2V-Lite-5s多场景落地:电商商品动图、社交头像视频、PPT动态封面

Kandinsky-5.0-I2V-Lite-5s多场景落地:电商商品动图、社交头像视频、PPT动态封面 1. 开箱即用的视频创作神器 Kandinsky-5.0-I2V-Lite-5s是一款让静态图片"活起来"的轻量级工具。只需要上传一张图片,加上简单的动作描述,就能在5秒…...

终极Pingvin Share配置优化指南:从基础设置到高级安全防护

终极Pingvin Share配置优化指南:从基础设置到高级安全防护 【免费下载链接】pingvin-share A self-hosted file sharing platform that combines lightness and beauty, perfect for seamless and efficient file sharing. 项目地址: https://gitcode.com/gh_mirr…...

如何按优先级控制 Flex 容器中子元素的截断顺序

本文详解如何通过 flex-shrink 属性实现多列 Flex 布局中子元素的渐进式、有优先级的截断行为——即让指定元素(如按钮)先收缩至最小宽度,之后其他元素才开始截断,避免所有项同时被裁剪。 本文详解如何通过 flex-shrink 属性…...

NCM解密终极指南:3步解锁网易云音乐加密音频的完整方案

NCM解密终极指南:3步解锁网易云音乐加密音频的完整方案 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM加密文件无法在其他播放器播放而烦恼吗?这款高效专业的ncmdump工具让你轻松突…...

如何高效使用Real-ESRGAN:5分钟掌握AI图像增强魔法

如何高效使用Real-ESRGAN:5分钟掌握AI图像增强魔法 【免费下载链接】Real-ESRGAN Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration. 项目地址: https://gitcode.com/gh_mirrors/re/Real-ESRGAN Real-ESRGAN是由腾…...