【论文精读】2024 CVPR--Upscale-A-Video现实世界视频超分辨率(RealWorld VSR)
文章目录
- 一、摘要
- 二、挑战
- 三、Method
- 3.1 前置知识
- 3.1.1 预训练SD ×4 Upscaler
- 3.1.2 Inflated 2D Convolution 扩展2D卷积
- 3.2 Local Consistency within Video Segments 视频片段中的一致性
- 3.2.1 微调时序U-Net
- 3.2.2 微调时序VAE-Decoder
- 3.3 跨片段的全局一致性 Global Consistency cross Video Segments
- 3.3.1 无训练的递归隐码传播 Training-Free Recurrent Latent Propagation
- 3.4 Inference with Additional Conditions
- 四、实验设置
- 4.1 数据集
- 贡献总结
论文全称:
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution
代码路径:
https://github.com/sczhou/Upscale-A-Video
更多RealWolrd VSR整理在
https://github.com/qianx77/Video_Super_Resolution_Ref
一、摘要
基于文本的扩散模型在生成和编辑方面表现出了显著的成功,显示出利用其生成先验增强视觉内容的巨大潜力。然而,由于对输出逼真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,而这一点又因扩散模型固有的随机性而变得更加复杂。我们的研究引入了Upscale-A-Video,一种用于视频上采样的文本引导的潜在扩散方法。该框架通过两个关键机制确保时间一致性:局部上,它将时间层集成到U-Net和VAE-解码器中,保持短序列内的一致性;全局上,在不进行训练的情况下,引入了一个流引导的递归潜在传播模块,通过在整个序列中传播和融合潜在信息来增强整体视频的稳定性。得益于扩散范式,我们的模型还提供了更大的灵活性,允许文本提示引导纹理生成,并通过可调节的噪声水平平衡修复与生成,从而实现逼真度与生成质量之间的权衡。大量实验表明,Upscale-A-Video在合成和现实世界基准测试中,以及在人工智能生成的视频中,都超过了现有的方法,展现出令人印象深刻的视觉真实感和一致性。
二、挑战
扩散去噪过程由于其固有的随机特性,在应用于视频任务时面临重大挑战。这些挑战包括时间不稳定性和闪烁伪影的出现,这在涉及较长视频序列的VSR任务中尤为明显。这些任务的复杂性不仅在于实现局部片段内的一致性,还在于在整个视频中保持连贯性。
三、Method
3.1 前置知识
3.1.1 预训练SD ×4 Upscaler
使用预训练SD ×4 Upscaler,扩散的优化目标,UNet预测噪声
3.1.2 Inflated 2D Convolution 扩展2D卷积
要将2D扩散模型用在视频任务上,需要将2D卷积扩展到3D卷积,增加额外的时间层(temporal layers),目标是继承单帧图像生成能力,增加时序连续性。
3.2 Local Consistency within Video Segments 视频片段中的一致性
其他方法:3D convolutions、temporal attention、cross-frame attention保证时序一致性
3.2.1 微调时序U-Net
如图2所示,
1、增加基于3D卷积的3D residual blocks作为时序层,插入预训练空间层中
2、时间注意力层沿时间维度执行自注意力,并关注所有局部帧。
3、加入了旋转位置嵌入(RoPE)[60],以便为模型提供时间的位置信息。
4、训练时候冻结2D结构的参数,保证单帧的生成效果
3.2.2 微调时序VAE-Decoder
如图2所示
1、同样加入3D residual blocks保证低级尺度的一致性
2、从输入通过Spatial Feature Transform (SFT)模块引入到VAE-Decoder第一层
3、同样只训练新添加的时序3D结构
4、损失函数用到L1 loss、 LPIPS perceptual loss 、 adversarial loss
3.3 跨片段的全局一致性 Global Consistency cross Video Segments
片段内一致性可以满足了,但是跨片段的一致性还是个问题,需要引入其他方式
3.3.1 无训练的递归隐码传播 Training-Free Recurrent Latent Propagation
1、RAFT计算光流optical flow
还需要计算有效区域,误差函数
示意图如下
通过光流来更新掩码
M是有效区域,β是光流信息的利用程度,通过选择默认值0.5
在推断过程中,并不需要在每个扩散步骤中应用此模块。相反,我们可以选择 T ∗ 步骤进行潜在传播和聚合。在处理轻微的视频抖动时,可以选择在扩散去噪过程中较早整合此模块,而对于严重的视频抖动,例如 AIGC 视频,最好在去噪过程的后期执行此模块。(为什么?)
3.4 Inference with Additional Conditions
调整文本提示和噪声水平的附加条件,以影响去噪扩散过程。
四、实验设置
4.1 数据集
1、subset of WebVid10M 335k 分辨率336×596
2、YouHQ dataset
3、额外增加的高质量数据集 large-scale high-definition (1080 × 1920) dataset from YouTube, containing around 37K video clips
LQ采用RealBasicVSR
贡献总结
1、局部一致性和全局一致性
相关文章:

【论文精读】2024 CVPR--Upscale-A-Video现实世界视频超分辨率(RealWorld VSR)
文章目录 一、摘要二、挑战三、Method3.1 前置知识3.1.1 预训练SD 4 Upscaler3.1.2 Inflated 2D Convolution 扩展2D卷积 3.2 Local Consistency within Video Segments 视频片段中的一致性3.2.1 微调时序U-Net3.2.2 微调时序VAE-Decoder 3.3 跨片段的全局一致性 Global Consis…...

学术合作交流
想找志同道合的科研小伙伴!研究方向包括:计算机视觉(CV)、人工智能(AI)、目标检测、行人重识别、行人搜索、虹膜识别等。欢迎具备扎实基础的本科、硕士及博士生加入,共同致力于高质量 SCI 期刊和…...
【线上故障排查】Redis缓存与数据库中数据不一致问题的排查与同步策略优化
一、高频面试题 Redis缓存与数据库数据不一致的原因有哪些? 更新顺序问题:在读写并发场景下,若先更新缓存后更新数据库,此时其他读请求获取到的是旧的缓存数据;若先更新数据库后更新缓存,在更新缓存前其他读请求获取到的是旧数据,都可能导致数据不一致。缓存失效异常:缓…...
【Git命令】
基础命令 #初始化项目 git init #码云复制的路径,将本地仓库和码 云上的仓库关联起来 git remote add origin https://gitee.com/xx/xx.git#使用令牌 git remote set-url origin https://your-username:your-tokengithub.com/your-username/your-repository.gitgi…...

【LUT技术专题】图像自适应3DLUT
3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time(2020 TPAMI ) 专题介绍一、研究背景二、图像自适应3DLUT方法2.1 前置知识2.2 整体流程2.3 损失函数的设计 三、实验结果四、局限五、总结…...
德拜温度热容推导
目录 一、背景与基本假设 一、态密度的定义 二、从波矢空间出发 三、振动模式数与波矢体积关系 四、模式总数计算 五、态密度求导 六、德拜频率确定与归一化条件 二、内能表达式的推导 三、态密度代入与变量替换 四、求比热容 五、低温时() …...
扫一扫的时候会经历哪些事
“扫一扫”功能(通常指扫描二维码或条形码)是一个看似简单但背后涉及多个步骤的过程。具体会做的事情取决于你使用的APP和扫描的码的类型(二维码最常见),但核心流程通常包括以下步骤: 启动摄像头并获取图像…...
Typescript学习教程,从入门到精通,TypeScript 泛型与类型操作详解(二)(17)
TypeScript 泛型与类型操作详解(二) 本文将详细介绍 TypeScript 中的一些高级类型特性,包括条件类型、分布式条件类型、infer 关键字、内置工具类型、类型查询、类型断言、类型细化和类型守卫等。 1. 条件类型(Conditional Type…...

【iOS】源码阅读(五)——类类的结构分析
文章目录 前言类的分析类的本质objc_class 、objc_object和NSObjectobjc_object:所有对象的基类型objc_class:类的底层结构NSObject:面向用户的根类 小结 指针内存偏移普通指针----值拷贝对象----指针拷贝或引用拷贝用数组指针引出----内存偏…...

基于CangjieMagic的RAG技术赋能智能问答系统
目录 引言 示例程序分析 代码结构剖析 导入模块解读 智能体配置详情 提示词模板说明 主程序功能解析 异步聊天功能实现 检索信息展示 技术要点总结 ollama 本地部署nomic-embed-text 运行测试 结语 引言 这段时间一直在学习CangjieMagic。前几天完成了在CangjieMa…...

算力租赁革命:弹性模式如何重构数字时代的创新门槛
一、算力革命:第四次工业革命的核心驱动力 在科技飞速发展的当下,我们正悄然迎来第四次工业革命。华为创始人任正非在一场程序设计竞赛中曾深刻指出,这场革命的基础便是大算力。随着 5G、人工智能、大数据、物联网等信息技术的迅猛发展&am…...

图论回溯
图论 200.岛屿数量DFS 给你一个由 ‘1’(陆地)和 ‘0’(水)组成的的二维网格,请你计算网格中岛屿的数量。岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。此外ÿ…...
使用arthas热替换在线运行的java class文件
如果我们在线的系统有问题,但又无法停机进行发版或者仅仅改了一个java文件需要验证一下功能是否正常,这时可以使用arthas的在线热替换功能来做class文件的在线变更。 1.运行java -jar arthas-boot.jar,启动arathas,并选择正在运行的java的进…...

RFID测温芯片助力新能源产业安全与能效提升
在“双碳”目标驱动下,新能源产业正经历爆发式增长。无论是电动汽车、储能电站还是风光发电场,设备安全与能效提升始终是行业核心命题。而温度,这个看似普通的物理参数,却成为破解这一命题的关键密码。RFID测温芯片(集…...

S32K3 工具篇9:如何在无源码情况下灵活调试elf文件
S32K3 工具篇9:如何在无源码情况下灵活调试elf文件 一,文档简介二, 功能实现2.1 代码工具准备2.2 elf修改功能实现:Fun2功能跳过2.2.1 PC越过Fun22.2.2 Fun2替换为nop 2.3 elf修改功能实现:Fun4替换Fun2入口2.3.1 link…...

Nacos 配置文件总结
Nacos 配置文件总结 文章目录 Nacos 配置文件总结1 、在 Nacos 服务端添加配置文件1. 启动Nacos Server。2. 新建配置文件。3. 发布配置集后,我们便可以在配置列表中查看相应的配置文件。4. 配置nacos数据库5. 运行 Nacos 容器6. 验证安装结果7. 配置验证 2 、在 Na…...

ASP.NET Web Forms框架识别
ASP.NET 支持三种不同的开发模式: Web Pages(Web 页面)、MVC(Model View Controller 模型-视图-控制器)、Web Forms(Web 窗体): Web Pages 单页面模式MVC 模型-视图-控制器Web Form…...
LG P4119 [Ynoi2018] 未来日记 Solution
Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1,a2,⋯,an),有 m m m 个操作分两种: replace ( l , r , x , y ) \operatorname{replace}(l,r,x,y) replace(l,r,x,y):将 a l ∼ a r a_l\sim a_r …...
流程引擎选型指南
流程引擎选型指南 流程引擎是企业实现业务流程自动化(BPM)的核心组件,选择合适的流程引擎对系统架构和未来发展至关重要。以下是主流流程引擎的综合对比和选型建议。 一、主流流程引擎对比 引擎名称开源/商业BPMN支持DMN支持CMMN支持云原生支持社区活跃度学习曲线…...
基于大模型预测带状疱疹(无并发症)诊疗方案的研究报告
目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、带状疱疹概述 2.1 病因与发病机制 2.2 流行病学特征 2.3 临床表现与诊断标准 三、大模型技术原理及应用于带状疱疹预测的可行性 3.1 大模型技术简介 3.2 应用可行性分析 四、大模型预测带状疱疹的具体方…...

哈工大计统大作业-程序人生
摘 要 本项目以“程序人生-Hellos P2P”为核心,通过编写、预处理、编译、汇编、链接及运行一个简单的Hello程序,系统探讨了计算机系统中程序从代码到进程的全生命周期。实验基于Ubuntu环境,使用GCC工具链完成代码转换,分析了预处…...

设计模式——装饰器设计模式(结构型)
摘要 文中主要介绍了装饰器设计模式,它是一种结构型设计模式,可在不改变原有类代码的情况下,动态为对象添加额外功能。文中详细阐述了装饰器模式的角色、结构、实现方式、适合场景以及实战示例等内容,还探讨了其与其他设计模式的…...

途景VR智拍APP:开启沉浸式VR拍摄体验
在数字化时代,VR技术以其沉浸式的体验逐渐走进了人们的日常生活。途景VR智拍APP作为一款集看图和拍照于一体的VR软件,为用户带来了全新的视觉体验和便捷的拍摄方式,无论是专业摄影师还是普通用户,都能轻松上手,拍出令人…...

Linux环境搭建MCU开发环境
操作系统版本: ubuntu 22.04 文本编辑器: vscode 开发板: stm32f103c8t6 调试器: st-link 前言 步骤一: 安装交叉编译工具链 步骤二: 创建工程目录结构 步骤三: 调试…...
Android高级开发第一篇 - JNI(初级入门篇)
文章目录 Android高级开发JNI开发第一篇(初级入门篇)🧠 一、什么是 JNI?✅ 为什么要用 JNI? ⚙️ 二、开发环境准备开发工具 🚀 三、创建一个支持 JNI 的 Android 项目第一步:创建新项目项目结构…...
Kubernetes RBAC权限控制:从入门到实战
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言:为什么需要RBAC? 在Kubernetes集群中,权限失控是导致安全漏洞的核心原因之一。试想以下场景: 开发…...
python实战项目71:基于Python的US News世界大学排名数据爬取
python实战项目71:基于Python的US News世界大学排名数据爬取 一、项目背景1.1 研究意义1.2 技术背景1.3 应用场景二、爬虫系统设计与实现2.1 分析页面、寻找数据真实接口2.2 发送请求,获取响应内容2.3 提取数据2.4 保存数据三、完整代码四、总结与展望一、项目背景 1.1 研究…...

【基础算法】高精度(加、减、乘、除)
文章目录 什么是高精度1. 高精度加法解题思路代码实现 2. 高精度减法解题思路代码实现 3. 高精度乘法解题思路代码实现 4. 高精度除法 (高精度 / 低精度)解题思路代码实现 什么是高精度 我们平时使用加减乘除的时候都是直接使用 - * / 这些符号,前提是进行运算的数…...
跨平台开发框架electron
桌面端开发框架有很多,比如C#的WPF和Winform,Dart的Flutter,JS的Electron,Rust的Tauri。 目前应用比较广的是Electron,比如我们常见的开发工具VsCode,就是基于Electron开发的。 所以这篇文章我们就来聊聊Electron。 简…...

Windows最快速打开各项系统设置大全
目录 一、应用背景 二、设置项打开方法 2.1 方法一界面查找(最慢) 2.2 方法二cmd命令(慢) 2.3 方法三快捷键(快) 2.4 方法四搜索栏(快) 2.5 方法五任务栏(最快&am…...