当前位置: 首页 > news >正文

TKG-DM – 基于Latent Diffusion模型的“原生”色度提取生成具有透明通道的图像

概述

原文地址:https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/
论文地址:https://arxiv.org/pdf/2411.15580
尽管社区研究和投资者对图像生成人工智能充满热情,但此类系统的输出并不总是可以直接用于产品开发中;一个简单例子是,生成人工智能系统倾向于输出整个图像(或者是视频中的一系列图像),而不是目标孤立的元素,但这些通常是多媒体中的各种应用程序以及视觉效果从业者所必需的。

一个简单的例子是剪贴画被设计为“浮动”(透明背景)在用户选择的任何目标背景上:

浅灰色格子背景可能是 Photoshop 用户最熟悉的,它代表 alpha 通道或透明通道,即使在诸如库存图片之类的简单消费品中也是如此。

这种透明度已经普遍存在了三十多年;自 1990 世纪 XNUMX 年代初的数字革命以来,用户已经能够通过日益复杂的一系列工具集和技术从视频和图像中提取元素。

例如,如何从视频片段中“去除”蓝屏和绿屏背景,曾经是昂贵的 化学过程和光学打印机 (以及 手工制作的哑光) 将成为 Adob​​e After Effects 和 Photoshop 应用程序等系统(以及许多其他免费和专有程序和系统)中几分钟的工作。

一旦元素被分离出来, alpha通道 (实际上是遮挡任何不相关内容的遮罩)允许将视频中的任何元素毫不费力地叠加在新背景上,或与其他孤立元素合成在一起。

方法

在计算机视觉中,alpha 通道的创建属于 语义分割,以及 Meta 等开源项目Segment Anything 通过语义增强的对象识别,提供一种可通过文本提示来隔离/提取目标对象的方法。

Segment Anything 框架已广泛应用于各种视觉效果提取和隔离工作流程,例如 Alpha-CLIP 项目.


在 Alpha-CLIP 框架中使用 Segment Anything 进行提取的示例

有许多可供选择的语义分割方法可以适用于分配 alpha 通道的任务。然而,语义分割要依赖于训练的数据,这些数据可能不包含所有需要提取的对象类别。尽管在非常大的数据量上训练的模型可以使更广泛的对象被识别(有效地成为基础模型或世界模型) ,但它们仍然受到它们被训练最有效地识别的类的限制。

语义分割系统(例如 Segment Anything)可能难以识别某些对象或对象的某些部分,正如这里模糊提示的输出所示。

无论如何,语义分割同样是一个事后过程如同绿屏程序,并且必须隔离元素,而没有可以有效识别和去除的单一背景色带的优势。因此,研究者偶尔会想到可以生成图像和视频实际上包含绿屏背景可以通过常规方法立即去除。

不幸的是,流行的潜在扩散模型,如稳定扩散往往有一些困难,渲染一个真正生动的绿色屏幕。这是因为模型的训练数据通常不包含这种相当专业的场景的大量例子。即使系统成功了,由于概念的纠缠,“绿色”的概念也会以一种不受欢迎的方式传播到前景主题:

上图中,我们可以看到稳定扩散优先考虑了图像的真实性,而不是创建单一强度的绿色,有效地复制了传统绿屏场景中出现的真实问题。下图中,我们可以看到“绿色”概念污染了前景图像。提示越关注“绿色”概念,这个问题就越有可能变得严重。

尽管使用了先进的方法,女人的衣服和男人的领带(见上面的下图)都会随着绿色的背景而“退出”——这个问题可以追溯到20世纪70年代和80年代光化学乳剂去除染料的时代。

与以往一样,模型的缺点可以通过向问题投入特定数据并投入大量训练资源来克服。斯坦福大学 2024 年推出的系统 LayerDiffuse创建 微调能够生成带有 alpha 通道图像的模型:

斯坦福 LayerDiffuse 项目对一百万张恰当的图像进行了训练,能够为模型注入透明度功能。

不幸的是,除了这种方法需要大量的管理和训练资源外,LayerDiffuse 使用的数据集不公开,限制了在其上训练的模型的使用。即使不存在这个障碍,这种方法也很难针对特定用例进行定制或开发。

2024 年晚些时候,Adobe Research 与纽约州立大学石溪分校合作制作 MAGICK,一种针对定制扩散图像进行训练的 AI 提取方法。

来自 2024 年的论文,MAGICK 中细粒度 alpha 通道提取的一个示例

150,000 个提取的 AI 生成对象被用于训练 MAGICK,以便系统对提取产生直观的理解:

来自 MAGICK 训练数据集的样本

正如源论文所述,由于上述原因,该数据集非常难以生成——扩散方法难以创建稳定的可抠像色带。因此,必须手动选择生成的遮罩。这种后勤瓶颈再次导致系统无法轻松开发或定制,而必须在其最初训练的能力范围内使用。

TKG-DM – Latent Diffusion模型的“原生”色度提取

德国和日本研究人员之间的新合作提出了一种替代此类训练方法的方法,该论文指出,这种方法能够获得比上述方法更好的结果,而无需在专门策划的数据集上进行训练。


TKG-DM 改变了生成图像的随机噪声,使其能够更好地生成任意颜色的纯色、可抠像的背景

该方法通过优化潜在扩散模型(如稳定扩散模型)中产生图像的随机噪声,在生成层次上解决了该问题。
该方法建立在对稳定扩散分布色彩模式的研究基础上,与其他方法相比,能够产生任何类型的背景色,较少(或没有)关键背景色与前景内容的纠缠。

初始噪声由通道均值偏移决定,该偏移能够影响去噪过程的各个方面,而不会将颜色信号纠缠到前景内容中。

论文指出:
“我们的大量实验表明,TKG-DM 能够提高 FID 分数33.7% ,而掩膜 FID 分数提高35.9% 。”。
因此,我们的免训模式可以与微调模式相媲美,为各种需要精确前景和背景控制的视觉内容创建任务提供了高效和通用的解决方案。’
这篇新论文的题目是《 TKG-DM: 无需培训的色度关键内容生成扩散模型》 ,来自东京和凯撒斯劳滕皇家科学院法政大学研究所的7名研究人员。

实现方法

该方法扩展了稳定扩散的体系结构,通过信道均值漂移(CMS)调节初始高斯噪声,从而产生噪声模式,以鼓励所需的背景/前景分离生成的结果。

CMS 在保持去噪过程总体发展的同时,调整每个颜色通道的平均值。

作者解释道:

为了在色度键背景上生成前景对象,我们应用了一个初始噪声选择策略,使用一个2D 高斯[掩模]有选择性地结合初始[噪声]和初始颜色[噪声]。这个掩模通过保留前景区域的原始噪声并将色移噪声应用到背景区域来创建一个渐变过程。’

背景色度所需的颜色通道通过空文本提示来实例化,而实际的前景内容则是根据用户的文本指令在语义上创建的。

自我注意和交叉注意被用来分离图像的两个方面(色度背景和前景内容)。自我注意有助于前景对象的内部一致性,而交叉注意保持对文本提示的忠实性。本文指出,由于背景图像通常不那么详细和强调的世代,其较弱的影响是相对容易克服和替代的纯色样本。

色度风格生成过程中自我注意力和交叉注意力影响的可视化。

数据与测试

使用Stable Diffusion V1.5 和Stable Diffusion SDXL 测试 TKG-DM。分别在512x512px 和1024x1024px 产生图像。图像创建使用 DDIM 调度程序本机的稳定扩散,在7.5的指导尺度,与50个去噪步骤。目标背景颜色是绿色,现在占主导地位的辍学方法。新的方法是比较 DeepFloyd,在设置下使用的 MAGICK; 微调低等级扩散模型 GreenBack LoRA; 以及前面提到的分层漫射。

对于数据,使用了来自 MAGICK 数据集的3000幅图像。

来自 MAGICK 数据集的示例,从中挑选了 3000 张图像用于新系统的测试。

对于指标,作者使用 Fréchet 初始距离(FID)来评估前景质量。他们还开发了一个称为 m-FID 的项目特定指标,该指标使用 BiRefNet 系统来评估产生的掩模的质量。

BiRefNet 系统与之前方法的视觉比较

作者断言,结果(分别在上面和下面可视化,SD1.5和 SDXL)表明,TKG-DM 在没有及时工程或训练或微调模型的必要性的情况下获得优越的结果。

作者断言,结果(上图和下图分别为 SD1.5 和 SDXL)表明 TKG-DM 无需进行快速工程设计,也无需训练或微调模型即可获得优异的结果。

他们观察到,当需要在生成的结果中引入绿色背景时,Stable Diffusion 1.5 很难生成干净的背景,而 SDXL(虽然性能稍好一些)会产生不稳定的浅绿色色调,容易干扰色度过程中的分离。

他们进一步指出,虽然 LayerDiffuse 可以生成分离良好的背景,但偶尔会丢失细节,例如精确的数字或​​字母,作者将此归因于数据集的限制。他们补充说,蒙版生成有时也会失败,导致“未剪切”的图像。

对于定量测试,虽然 LayerDiffuse 在 SDXL 中对 FID 显然具有优势,但作者强调,这是专门数据集的结果,该数据集实际上构成了“烘焙”且不灵活的产品。如前所述,该数据集未涵盖或未充分涵盖的任何对象或类别可能表现不佳,而进一步微调以适应新类别会给用户带来管理和训练负担。

该论文指出:

“DeepFloyd 的高 FID、m-FID 和 CLIP-I 得分反映了它与基于 DeepFloyd 输出的地面实况的相似性。然而,这种对齐方式赋予了它固有的优势,使其不适合作为图像质量的公平基准。与其他模型相比,其较低的 CLIP-S 得分进一步表明文本对齐较弱。

总体而言,这些结果强调了我们的模型无需微调即可生成高质量、文本对齐前景的能力,从而提供了高效的色度键内容生成解决方案。

最后,研究人员进行了一项用户研究,以评估各种方法的及时遵守情况。要求 30 名参与者评判每种方法中的 XNUMX 个图像对,使用 BiRefNet 提取主题,并对所有示例进行手动细化。本研究首选作者的无训练方法。

TKG-DM 与流行的 控制网 第三方稳定扩散系统,作者认为它比 ControlNet 实现这种分离的本机能力产生更好的结果。

总结

这篇新论文最值得注意的一点可能是潜在扩散模型的纠缠程度,这与公众普遍认为的在生成新内容时可以毫不费力地分离图像和视频的各个方面形成了鲜明对比。

该研究进一步强调了研究和爱好者社区在多大程度上将微调作为事后修复模型的缺点——解决方案始终针对特定类别和类型的对象。在这种情况下,经过微调的模型要么在有限数量的类别上工作得很好,要么在有限数量的类别上工作得很好可以忍受根据训练集中的大量数据,可以很好地处理更多可能的类别和对象。

因此,看到至少有一个不依赖于这种费力且可能不诚实的解决方案是令人欣慰的。

相关文章:

TKG-DM – 基于Latent Diffusion模型的“原生”色度提取生成具有透明通道的图像

概述 原文地址:https://www.unite.ai/improving-green-screen-generation-for-stable-diffusion/ 论文地址:https://arxiv.org/pdf/2411.15580 尽管社区研究和投资者对图像生成人工智能充满热情,但此类系统的输出并不总是可以直接用于产品开…...

告别 Windows 迟缓!多维度优化策略开启流畅新体验

在日常使用 Windows 系统的过程中,随着时间推移和软件安装卸载,系统可能会出现运行缓慢、卡顿等问题。本文中简鹿办公将详细介绍一系列 Windows 系统优化方法,涵盖多个关键层面,助力您的电脑重焕生机。 一、磁盘清理与优化 磁盘…...

亚马逊国际站商品爬虫:Python实战指南

在数字化时代,数据的价值不言而喻。对于电商领域而言,获取竞争对手的商品信息、价格、评价等数据,对于市场分析和策略制定至关重要。本文将带你了解如何使用Python编写爬虫,以亚马逊国际站为例,按照关键字搜索并获取商…...

RabbitMQ基础篇之Java客户端快速入门

文章目录 需求 项目设置与依赖管理 配置RabbitMQ的连接信息创建队列与消息发送创建消费者(消息接收)环境准备与操作 需求 利用控制台创建队列 simple.queue在 publisher 服务中,利用 SpringAMQP 直接向 simple.queue 发送消息在 consumer 服…...

深度学习:基于MindSpore NLP的数据并行训练

什么是数据并行? 数据并行(Data Parallelism, DP)的核心思想是将大规模的数据集分割成若干个较小的数据子集,并将这些子集分配到不同的 NPU 计算节点上,每个节点运行相同的模型副本,但处理不同的数据子集。…...

Qt6之QML——枚举

在 QML 中,枚举 (Enumeration) 是一种用于定义一组固定值的功能。通过枚举,可以便捷地提供一组可选值,使用更加明确和精简。 一、枚举的特点 固定值定义: 枚举可以预先定义一组字面值,通常用于需要定义限制值范围的场景…...

ModiLeo交易平台:引领数字货币交易新未来

在当今数字化高速发展的时代,数字货币作为一种新兴的金融资产形式,正逐渐改变着全球金融格局。而此刻,由印度 ModiLeo 实验室联合全球顶级投行共同打造的全球领先的一站式数字货币交易平台——ModiLeo 即将上线,这无疑是数字货币领…...

[python SQLAlchemy数据库操作入门]-15.联合查询,跨表获取股票数据

哈喽,大家好,我是木头左! 在开始探讨如何利用SQLAlchemy实现复杂的联合查询之前,首先需要深入理解其核心组件——对象关系映射(ORM)。ORM允许开发者使用Python类来表示数据库中的表,从而以一种更直观、面向对象的方式来操作数据库。 SQLAlchemy中的JOIN操作详解 在SQLA…...

某网站手势验证码识别深入浅出(全流程)

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路 如有侵犯,请联系作者下架 本文识别已同步上线至OCR识别网站: http://yxlocr.nat300.top/ocr/other/20 本篇文章包含经验和教训总结,我采用了两种方法进行识别,两种方法都各有优劣,其中一…...

在虚幻引擎4(UE4)中使用蓝图的详细教程

在虚幻引擎4(UE4)中使用蓝图的详细教程 虚幻引擎4(Unreal Engine 4,简称UE4)是一款功能强大的游戏引擎,广泛应用于游戏开发、虚拟现实、建筑可视化等领域。UE4 提供了一个强大的可视化脚本工具——蓝图&am…...

Junit如何禁用指定测试类,及使用场景

在JUnit中禁用指定测试类可以通过多种方式实现,具体取决于使用的JUnit版本(JUnit 4 或 JUnit 5)。以下是针对两个版本的详细说明以及它们可能的使用场景: JUnit 4 禁用整个测试类 可以使用Ignore注解来忽略整个测试类。这将导致…...

ICLR2015 | FGSM | 解释并利用对抗样本

Explaining and Harnessing Adversarial Examples 摘要-Abstract相关工作-Related Work对抗样本的线性解释-The Linear Explanation of Adversarial Examples非线性模型的线性扰动-Linear Pertubation of Non-Linear Models线性模型与权重衰减的对抗训练-Adversarial Training …...

Python 迭代器与生成器

Python 中的迭代器和生成器是处理集合元素的重要工具,它们在处理大量数据时特别有用,因为它们不需要一次性将所有数据加载到内存中。 迭代器(Iterator) 迭代器是一个实现了迭代器协议的对象,这意味着它有两个方法&am…...

MySQL数据库——索引结构之B+树

本文先介绍数据结构中树的演化过程,之后介绍为什么MySQL数据库选择了B树作为索引结构。 文章目录 树的演化为什么其他树结构不行?为什么不使用二叉查找树(BST)?为什么不使用平衡二叉树(AVL树)&a…...

3_TCP/IP连接三次握手与断开四次挥手

TCP/IP 通信是网络通信的基础协议,分为以下主要步骤: 1、建立连接(三次握手) 目的:保证双方建立可靠的通信连接。 过程: 1>客户端发送 SYN:客户端向服务器发送一个 SYN(同步&…...

【LC】3159. 查询数组中元素的出现位置

题目描述: 给你一个整数数组 nums ,一个整数数组 queries 和一个整数 x 。 对于每个查询 queries[i] ,你需要找到 nums 中第 queries[i] 个 x 的位置,并返回它的下标。如果数组中 x 的出现次数少于 queries[i] ,该查…...

《机器学习》——KNN算法

文章目录 KNN算法简介KNN算法——sklearnsklearn是什么?sklearn 安装sklearn 用法 KNN算法 ——距离公式KNN算法——实例分类问题完整代码——分类问题 回归问题完整代码 ——回归问题 KNN算法简介 一、KNN介绍 全称是k-nearest neighbors,通过寻找k个距…...

GAMES101:现代计算机图形学入门-作业五

作业五 这次作业给了许多脚本,我们现在可以把每个脚本的代码逐行细细分析一下。 main.cpp #include "Scene.hpp" #include "Sphere.hpp" #include "Triangle.hpp" #include "Light.hpp" #include "Renderer.hpp&quo…...

GPU 进阶笔记(二):华为昇腾 910B GPU

大家读完觉得有意义记得关注和点赞!!! 1 术语 1.1 与 NVIDIA 术语对应关系1.2 缩写2 产品与机器 2.1 GPU 产品2.2 训练机器 底座 CPU功耗操作系统2.3 性能3 实探:鲲鹏底座 8*910B GPU 主机 3.1 CPU3.2 网卡和网络3.3 GPU 信息 3.3…...

Spring AOP:this 调用当前类方法无法被拦截

问题复现 假设我们正在开发一个宿舍管理系统,这个模块包含一个负责电费充值的类 ElectricService,它含有一个充电方法 charge(): Service public class ElectricService {public void charge() throws Exception {System.out.println("E…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘

美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...

【JVM】- 内存结构

引言 JVM:Java Virtual Machine 定义:Java虚拟机,Java二进制字节码的运行环境好处: 一次编写,到处运行自动内存管理,垃圾回收的功能数组下标越界检查(会抛异常,不会覆盖到其他代码…...

[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?

论文网址:pdf 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求,由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面: 🏛️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限,形成层级清晰的管理网络&#xf…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验

系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...

第 86 场周赛:矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有 从 1 到 9 的不同数字的 3 x 3 矩阵,其中每行,每列以及两条对角线上的各数之和都相等。 给定一个由整数组成的row x col 的 grid,其中有多少个 3 3 的 “幻方” 子矩阵&am…...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

C++:多态机制详解

目录 一. 多态的概念 1.静态多态(编译时多态) 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1).协变 2).析构函数的重写 5.override 和 final关键字 1&#…...

TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?

在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...