当前位置: 首页 > news >正文

ECCV 2024 | 融合跨模态先验与扩散模型,快手处理大模型让视频画面更清晰!

计算机视觉领域顶级会议 European Conference on Computer Vision(ECCV 2024)将于9月29日至10月4日在意大利米兰召开,快手音视频技术部联合清华大学所发表的题为《XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution》——基于扩散模型和跨模态先验信息的图像修复模型的最新研究成果被会议收录。

图片

ECCV是计算机视觉领域的顶级国际会议,与CVPR、ICCV共同被称为三大顶会。其收录的论文代表了计算机视觉和模式识别领域的创新技术与重大成果,是该领域学术研究与行业发展的风向标。ECCV 2024共收到8,585篇有效投稿,其中有2,395篇论文被接收,接收率为27.9%。

  • 论文链接:

    https://arxiv.org/pdf/2403.05049

  • 代码链接:

    https://github.com/qyp2000/XPSR

「 01 背景 」

视频技术在生活中各种场景的作用日益凸显,其相关服务在多领域发挥了重要作用,短视频、直播等新模式新业态快速涌现。围绕流媒体视频展开的相关技术,如视频增强、视频压缩、视频修复以及虚拟现实等,也成为了学术界和工业界共同的研究热点。

近年来,基于深度学习尤其是GAN-based(Generative Adversarial Network)的处理算法取得了较好的修复增强效果 [1,2],但是在细节纹理和主观画质上仍有较大提升空间。随着AIGC的发展,基于扩散模型 [3](Diffusion Model)的文生图和文生视频模型(如可图、可灵)在生成能力上取得了令人惊艳的效果。如何将这种生成能力与视频处理进行结合,增强视频细节纹理、修复低质损伤,进一步改善画质为用户提供更好的观看体验,是一个亟待解决的问题。

图1:引入生成能力进行处理的效果对比,左边为低质图,右边为处理后

「 02 方法 」

在这篇论文中,快手提出了一种基于扩散模型和跨模态先验信息的图像修复增强算法XPSR(Cross-modal Priors for Super Resolution),结合丰富且准确的语义信息,生成模型在处理任务上展现了巨大的潜力,生成了相较于原图具有较高保真度、细节纹理丰富的高分辨率图像。

算法的框架如图1所示,包含两个阶段:

(1)使用多模态大语言模型生成待修复图像的语义信息;

(2)将待修复低分辨率图像和语义信息输入到生成模型中进行修复增强。具体来说,低分辨率低质图像(Low Resolution,LR)首先经过图像编码送入ControNet [4] 分支,与第一阶段产生的语义描述作为状态信息送入生成模型的UNet结构中,经过多步迭代的特征经过VAE解码重建得到修复后的高分辨率高质图像(High Resolution,HR)。以下是具体的算法细节,包括语义描述的产生、扩散模型的状态信息融合、退化消除约束和训练优化目标。

图片

图2:XPSR的算法框架

语义描述的产生

图片

图3:不同类型语义信息对修复效果的影响

如图2所示,在使用文本到图像(Text2Image,T2I)的扩散模型作为基础模型进行修复任务时,文本状态信息对修复的效果产生了较大的影响:针对原始低分辨率图像,给定准确的内容描述有助于生成细节纹理更加丰富的物体,结合详细的画质信息描述有助于去除对应的低质损伤。

为此,我们引入了当前业界SOTA的多模态大语言模型LLaVA [5],如图3所示,通过这种方式产生的内容语义信息包含物体描述、位置关系、场景等其他相关信息;产生的画质语义信息包含整体的观感质量、清晰度、噪声、色彩等其他维度的信息,能够有效描述图片在拍摄或者编码阶段引入的退化损失。

图片

图4:针对待修复图像,使用多模态大语言模型产生的语义描述

扩散模型的状态信息融合

为了将不同语义信息与扩散模型进行结合,一种直观的做法是采用顺序的方式将Cross-Attention串联起来,计算形式如下:

图片

但是由于两类语义信息不同,串行处理会导致一部分信息被覆盖而获得次优解。因此我们设计了一种新的语义融合注意力机制(Semantic-Fusion Attention,SFA),它采用两个并行的Cross-Attention,然后从两个分支中分别获得QK和V特征进行融合,计算形式如下:

图片

通过这种方式,SFA可以在不同语义之间取得平衡,进行状态信息的自适应选择。

退化消除约束

现实世界中的图像可能会经历各种退化,例如噪声、块效应等,从而导致像素空间和隐空间中高频和低频信息的失真,为了减轻退化的影响从图像中提取稳健的信息,进而提升重建的保真度与画质,在训练过程中,我们提出了一种退化消除约束(Degradation-Free Constraint)。如图1所示,我们在像素空间与隐空间约束LR与HR在多尺度下的相似度:

图片

通过这种约束,LR特征表示更多关注于内容本身,避免了生成模型将低质与内容混淆。

优化目标

在训练过程中,XPSR依赖于LR图像x_{\textit{lr}},噪声隐空间特征z_{\textit{hr}}^t,内容语义特征c_h和画质语义特征c_l去预测第t步的噪声分布:

图片

结合退化消除约束,整体的优化目标可以表示为:

图片

在推理过程中,我们引入了Classifier-free Guidance策略,通过引入负面提示词来提升扩散模型的生成画质。在实践过程中,我们采用了“blurry, dotted, noise, unclear, low-res, over-smoothed”。

「 03 实验结果 」

我们选择了有参考(PSNR、SSIM、LPIPS、DISTS、FID)和无参考(MANIQA、CLIPIQA、MUSIQ)的评价指标来衡量修复的画质。如表1所示,在人工构建的测试场景下,XPSR在无参考质指标上超越了以往GAN-based和Diffusion-based的算法。

图片

表1:XPSR与GAN-based和Diffusion-based算法效果对比

如表2所示,在真实场景的数据下XPSR在主观指标和user study的被选择概率均能够胜出。

图片

图片

表2:基于真实场景的测试结果和User Study报告

如图4所示,在主观画质的提升、细节纹理的生成、主体信息的保持上也取得了优秀的效果。

图片

图5:XPSR与其他处理算法的主观画质对比

相较于GAN-based方法,Diffusion-based方法在有参考指标上存在一些差距,这表明Diffusion-based方法在保真度上仍有较大的提升空间。同时,如图5所示,这些指标也存在一些问题(更好的主观画质却更低的有参指标),希望未来有更多与主观一致的指标被探索和使用。

图片

图6:现有有参考指标的局限性

「 04 总结与展望 」

在本篇论文中,我们提出了一种基于扩散模型和跨模态先验信息的图像处理算法。通过引入基于多模态大语言模型的语义先验,设计适合扩散模型的状态信息融合机制,以及适合处理场景的退化消除约束,XPSR在主客观指标上取得了业界领先的效果,持续为快手视频处理体系(Kuaishou Enhancement Processing,KEP & Large Processing Model,LPM)提供算法支持。

目前,快手视频处理体系已经应用在内部多个业务场景,如快手视频清晰度提升、基于内容的自适应处理和编码、电商/商业化赋能等。未来,快手音视频技术团队将持续推动视频处理算法的提升,探索更为广泛的应用场景。

参考文献:

[1] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data, ICCV Workshop 2021.

[2] SwinIR: Image Restoration Using Swin Transformer, ICCV Workshop 2021.

[3] Denoising Diffusion Probabilistic Models, NeurIPS 2020.

[4] Adding Conditional Control to Text-to-image Diffusion Models, ICCV 2023.

[5] Visual Instruction Tuning, NeurIPS 2024.

相关文章:

ECCV 2024 | 融合跨模态先验与扩散模型,快手处理大模型让视频画面更清晰!

计算机视觉领域顶级会议 European Conference on Computer Vision(ECCV 2024)将于9月29日至10月4日在意大利米兰召开,快手音视频技术部联合清华大学所发表的题为《XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution》——…...

9--苍穹外卖-SpringBoot项目中Redis的介绍及其使用实例 详解

目录 Redis入门 Redis简介 Redis服务启动与停止 服务启动命令 Redis数据类型 5种常用数据类型介绍 各种数据类型的特点 Redis常用命令 字符串操作命令 哈希操作命令 列表操作命令 集合操作命令 有序集合操作命令 通用命令 在java中操作Redis Redis的Java客户端 …...

【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操作案例。

前言:哈喽,大家好,今天给大家分享一篇文章!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 【EXCEL数据处理】000014 案例 EXCEL分类汇总、定位和创建组。附多个操…...

Windows环境Apache httpd 2.4 web服务器加载PHP8:Hello,world!

Windows环境Apache httpd 2.4 web服务器加载PHP8:Hello,world! (1)首先需要安装apache httpd 2.4 web服务器: Windows安装启动apache httpd 2.4 web服务器-CSDN博客文章浏览阅读222次,点赞5次&…...

Spring框架使用Api接口实现AOP的切面编程、两种方式的程序示例以及Java各数据类型及基本数据类型的默认值/最大值/最小值列表

一、Spring框架使用Api接口-继承类实现AOP的切面编程示例 要使用Spring框架AOP&#xff0c;除了要导入spring框架包外&#xff0c;还需要导入一个织入的包org.aspectj&#xff0c;具体maven依赖如下&#xff1a; <dependency><groupId>org.springframework</gr…...

【达梦数据库】尽可能 disql 的使用效果与异构数据库一致

文章目录 前言disql 效果优化参数设置参数说明 mysql参数设置参数说明 db2参数设置参数说明 待补充 前言 让达梦的disql 使用起来更跟手&#xff0c;与其他优质数据库的命令行工具通过配置参数的方式尽可能一致&#xff0c;提高使用体验&#xff0c;长期整理中~~~ 测试版本&…...

【研1深度学习】《神经网络和深度学习》阅读笔记(记录中......

9.27 语义鸿沟&#xff1a; 是指输入数据的底层特征和高层语义信息之间的不一致性和查一下。如果可以有一个好的表示在某种程度上能够反映出数据的高层语义特征&#xff0c;那么我们就能相对容易的构建后续的机器学习模型。嵌入&#xff08;Embedding&#xff09;&#xff1a;…...

十一不停歇-学习ROS2第一天 (10.2 10:45)

话题通信 1.1 发布第一个节点&#xff1a; import rclpy #导入此类模块 rcl类型 from rclpy.node import Node #从这个子模块中导入这类函数 def main(): #定义这个函数 rclpy.init() #使用初始化函数 node Node(hello_python) 将类函数里面的内容调给…...

Java高效编程(14):考虑实现 `Comparable

解锁Python编程的无限可能&#xff1a;《奇妙的Python》带你漫游代码世界 与其他方法不同&#xff0c;compareTo 并非 Object 类中声明的&#xff0c;而是 Comparable 接口的唯一方法。compareTo 方法与 equals 类似&#xff0c;但它不仅支持相等性比较&#xff0c;还允许顺序…...

华为昇腾CANN训练营2024第二季--Ascend C算子开发能力认证(中级)题目和经验分享

大家好&#xff0c;我是刘明&#xff0c;明志科技创始人&#xff0c;华为昇思MindSpore布道师。 技术上主攻前端开发、鸿蒙开发和AI算法研究。 努力为大家带来持续的技术分享&#xff0c;如果你也喜欢我的文章&#xff0c;就点个关注吧 正文开始 华为昇腾CANN训练营2024第二季…...

实战OpenCV之形态学操作

基础入门 形态学操作是一种基于图像形状的处理方法,主要用于结构分析,比如:边缘检测、轮廓提取、噪声去除等。这些操作通常使用一个称为“结构元素”(Structuring Element)的核来进行,结构元素可以是任何形状,但最常见的有矩形和圆形。形态学操作的核心在于通过结构元素…...

矩阵的特征值和特征向量

矩阵的特征值和特征向量是线性代数中非常重要的概念&#xff0c;用于描述矩阵对向量的作用&#xff0c;特别是在矩阵对向量的线性变换中的表现。它们帮助我们理解矩阵在某些方向上的缩放或旋转效果。 1. 特征值和特征向量的定义&#xff1a; 给定一个 n n n \times n nn 的…...

(11)MATLAB莱斯(Rician)衰落信道仿真2

文章目录 前言一、莱斯衰落信道仿真模型二、仿真代码与结果1.仿真代码2.仿真结果画图 三、后续&#xff1a;四、参考文献&#xff1a; 前言 首先给出莱斯衰落信道仿真模型&#xff0c;该模型由直射路径分量和反射路径分量组成&#xff0c;其中反射路径分量由瑞利衰落信道模型构…...

ComfyUI局部重绘换衣讲解

一、下载插件 ComfyUI-Impact-Pack 下载地址 https://github.com/ltdrdata/ComfyUI-Impact-Pack 主要用到sam Detector去绘制衣服蒙版和高斯模糊蒙版&#xff0c;高斯模糊让蒙版边缘更加柔和 sams模型 放在E:\Comfyui\ComfyUI\models\sams二、换衣思路 文生图或直接上传…...

Android——添加联系人

概述 方式一&#xff1a;使用ContentResolver多次写入&#xff0c;每次写入一个字段 第一步 往手机联系人应用中的raw_contacts表添加一条记录 raw_contacts表 ContentValues values new ContentValues();// 往 raw_contacts 添加联系人记录&#xff0c;并获取添加后的联…...

高级 Java Redis 客户端 有哪些?

高级Java Redis客户端主要包括以下几种&#xff1a; 1. Redisson &#xff08;https://github.com/redisson/redisson&#xff09; 特点&#xff1a;Redisson是一个在Redis的基础上实现的Java驻留数据网格&#xff08;In-Memory Data Grid&#xff09;。它不仅是一个Redis的J…...

jenkins项目发布基础

随着软件开发需求及复杂度的不断提高,团队开发成员之间如何更好地协同工作以确保软件开发的质量已经慢慢成为开发过程中不可回避的问题。Jenkins 自动化部署可以解决集成、测试、部署等重复性的工作,工具集成的效率明显高于人工操作;并且持续集成可以更早的获取代码变更的信息,…...

前缀和算法详解

对于查询区间和的问题&#xff0c;可以预处理出来一个前缀和数组 dp&#xff0c;数组中存储的是从下标 0 的位置到当前位置的区间和&#xff0c;这样只需要通过前缀和数组就可以快速的求出指定区间的和了&#xff0c;例如求 l ~ r 区间的和&#xff0c;就可以之间使用 dp[l - 1…...

Android-Handle消息传递和线程通信

本文为作者学习笔记&#xff0c;如有误&#xff0c;请各位大佬指点 目录 一、同步异步 二、Java多线程通信 三、Handler是什么 四、Handler相关的类 五、Handler常用方法 1. 发送消息 2. 接收处理消息 3. 切换线程 六、使用Handler 使用Handler更新UI 使用Handler延…...

【Kubernetes】常见面试题汇总(四十七)

目录 106.考虑一种情况&#xff0c;公司希望通过保持最低成本来提高效率和技术运营速度。您如何看待公司将如何实现这一目标&#xff1f; 107.假设一家公司想要修改其部署方法&#xff0c;并希望构建一个可扩展性和响应性更高的平台。您如何看待这家公司能够实现这一目标以满足…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求&#xff0c;设计一个邮件发奖的小系统&#xff0c; 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其…...

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器 在Ubuntu上&#xff0c;你可以使用apt包管理器来安装NFS服务器。打开终端并运行&#xff1a; sudo apt update sudo apt install nfs-kernel-server创建共享目录 创建一个目录用于共享&#xff0c;例如/shared&#xff1a; sudo mkdir /shared sud…...

深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出&#xff1a;JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中&#xff0c;随机数的生成看似简单&#xff0c;却隐藏着许多玄机。无论是生成密码、加密密钥&#xff0c;还是创建安全令牌&#xff0c;随机数的质量直接关系到系统的安全性。Jav…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

剑指offer20_链表中环的入口节点

链表中环的入口节点 给定一个链表&#xff0c;若其中包含环&#xff0c;则输出环的入口节点。 若其中不包含环&#xff0c;则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

postgresql|数据库|只读用户的创建和删除(备忘)

CREATE USER read_only WITH PASSWORD 密码 -- 连接到xxx数据库 \c xxx -- 授予对xxx数据库的只读权限 GRANT CONNECT ON DATABASE xxx TO read_only; GRANT USAGE ON SCHEMA public TO read_only; GRANT SELECT ON ALL TABLES IN SCHEMA public TO read_only; GRANT EXECUTE O…...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

uniapp中使用aixos 报错

问题&#xff1a; 在uniapp中使用aixos&#xff0c;运行后报如下错误&#xff1a; AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

OpenLayers 分屏对比(地图联动)

注&#xff1a;当前使用的是 ol 5.3.0 版本&#xff0c;天地图使用的key请到天地图官网申请&#xff0c;并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能&#xff0c;和卷帘图层不一样的是&#xff0c;分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一&#xff0c;概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本&#xff1a;2014.07&#xff1b; Kernel版本&#xff1a;Linux-3.10&#xff1b; 二&#xff0c;Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01)&#xff0c;并让boo…...