当前位置: 首页 > article >正文

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。

相关链接

  • 论文:http://arxiv.org/abs/2501.11325v1

  • 主页:https://github.com/Zheng-Chong/CatV2TON

论文介绍

虚拟试穿 (VTON) 技术因其通过实现图像和视频的逼真服装可视化来改变在线零售的潜力而备受关注。然而,大多数现有方法都难以在图像和视频试穿任务中获得高质量的结果,尤其是在长视频场景中。

CatV2TON是一种简单有效的基于视觉的虚拟试穿 (V2TON) 方法,它使用单个扩散变压器模型支持图像和视频试穿任务。通过在时间上连接服装和人员输入并在混合图像和视频数据集上进行训练,CatV2TON在静态和动态设置中实现了强大的试穿性能。

为了高效地生成长视频,论文还提出了一种基于重叠剪辑的推理策略,该策略使用顺序帧引导和自适应剪辑规范化 (AdaCN) 来保持时间一致性并减少资源需求。还介绍了 ViViD-S,这是一个经过精炼的视频试穿数据集,通过过滤背面帧并应用 3D 蒙版平滑来增强时间一致性。综合实验表明,CatV2TON 在图像和视频试穿任务中均优于现有方法,为跨不同场景的逼真虚拟试穿提供了多功能且可靠的解决方案。

方法

CatV2TON 架构概述。 CatV2TON 使用 DiT 作为主干,第一个 DiT 块被复制为Pose Encoder。人和服装条件在时间上连接为试穿条件。整个可训练部分仅由自注意力层和 Pose Encoder 组成,占总参数的不到 1/5。

基于重叠片段的推理策略说明。(a)一段长视频被分成 n 个重叠片段,每个片段由重复的帧组成。每个片段的最后 k 帧用作生成下一个片段的提示帧。(b)自适应片段归一化 (AdaCN) 用于根据提示帧特征和去噪提示帧的平均值和标准差对整个片段进行归一化,确保生成的视频中各个片段之间的平滑连续性。

结果

在 ViViD 数据集上对连衣裙进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的简称。

在 ViViD 数据集上进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。

对 ViViD 数据集进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。

关于 AdaCN 的消融视觉结果。当不使用 AdaCN 进行推理时,试穿结果中的服装部分将出现色差问题,并且通常会随着视频长度的增加而加剧。

结论

CatV2TON是一个简单而高效的扩散变换器框架,适用于图像和视频虚拟试穿任务。通过时间连接服装和人员输入并使用混合图像视频数据集进行训练,模型仅使用 20% 的主干参数作为可训练组件即可获得高质量的结果。为了支持长时间、时间一致的试穿视频生成,引入了一种基于重叠剪辑的推理策略和自适应剪辑规范化 (AdaCN),在保持时间连续性的同时减少了资源需求。

此外论文提出了一个精选的视频试穿数据集 ViViD-S,它是通过过滤后视帧并应用 3D 蒙版平滑来增强蒙版的时间一致性而创建的。大量实验表明,CatV2TON 在定量和定性评估方面均优于基线方法,标志着基于视觉的虚拟试穿研究统一模型向前迈出了重要一步。

相关文章:

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预…...

【Git】ssh如何配置gitlab+github

当我们工作项目在gitlab上,又希望同时能更新自己个人的github项目时,可能因为隐私问题,不能使用同一′密钥。就需要在本地电脑上分别配置两次ssh。 1、分别创建ssh key 在用户主目录下,查询是否存在“.ssh”文件: 如…...

全国路网矢量shp数据(分不同类型分省份)

科研练习数据 全国路网矢量shp数据(分不同类型分省份) 有需要的自取 数据格式:shp(线) 数据包含类型:城市主干道、城市次干道、城市快速路、城市支路、高速公路、内部道路、人行道、乡村道路、自行车道路…...

音频进阶学习十二——Z变换一(Z变换、收敛域、性质与定理)

文章目录 前言一、Z变换1.Z变换的作用2.Z变换公式3.Z的状态表示1&#xff09; r 1 r1 r12&#xff09; 0 < r < 1 0<r<1 0<r<13&#xff09; r > 1 r>1 r>1 4.关于Z的解释 二、收敛域1.收敛域的定义2.收敛域的表示方式3.ROC的分析1&#xff09;当 …...

使用Redis解决使用Session登录带来的共享问题

在学习项目的过程中遇到了使用Session实现登录功能所带来的共享问题&#xff0c;此问题可以使用Redis来解决&#xff0c;也即是加上一层来解决问题。 接下来介绍一些Session的相关内容并且采用Session实现登录功能&#xff08;并附上代码&#xff09;&#xff0c;进行分析其存在…...

STM32F1学习——USART串口通信

一、USART通用同步异步收发机 USART的全称是Universal Synchronous/Asynchronous Receiver Transmitter &#xff0c; 通用同步异步收发机&#xff0c;但由于他主要以异步通信为主&#xff0c;所以他也叫UART。它遵循TTL电平标准&#xff0c;是一种全双工异步通信标准&#xff…...

[概率论] 随机变量

Kolmogorov 定义的随机变量是基于测度论和实变函数的。这是因为随机变量的概念需要精确地定义其可能的取值、发生的概率以及这些事件之间的依赖关系。 测度论&#xff1a;在数学中&#xff0c;测度论是用来研究集合大小的理论&#xff0c;特别是无穷可数集和无界集的大小。对于…...

Docker 部署 MinIO | 国内阿里镜像

一、导读 Minio 是个基于 Golang 编写的开源对象存储套件&#xff0c;基于Apache License v2.0开源协议&#xff0c;虽然轻量&#xff0c;却拥有着不错的性能。它兼容亚马逊S3云存储服务接口。可以很简单的和其他应用结合使用&#xff0c;例如 NodeJS、Redis、MySQL等。 二、…...

探索Aviator:轻量级Java动态表达式求值引擎的使用指南

目录 一、快速介绍 &#xff08;一&#xff09;Aviator &#xff08;二&#xff09;Aviator、IKExpression、QLExpress比较和建议 二、基本应用使用手册 1.执行表达式 2.使用变量 3.exec 方法 4.调用函数 调用内置函数 调用字符串函数 调用自定义函数 5.编译表达式…...

编译加速工具ccache

1、什么是ccache ccache&#xff08;Compilation Cache&#xff09;是一个开源的编译缓存工具&#xff0c;最初为 C/C 设计&#xff0c;但也可以用于其他语言的编译过程&#xff08;如 Objective-C、CUDA 等&#xff09;。它的核心思想是通过缓存编译结果&#xff0c;避免重复…...

【R语言】相关系数

一、cor()函数 cor()函数是R语言中用于计算相关系数的函数&#xff0c;相关系数用于衡量两个变量之间的线性关系强度和方向。 常见的相关系数有皮尔逊相关系数&#xff08;Pearson correlation coefficient&#xff09;、斯皮尔曼秩相关系数&#xff08;Spearmans rank corre…...

排序合集(一)

以下是更完善和人性化的版本&#xff0c;增加了一些细节和解释&#xff0c;同时让内容更易读&#xff1a; 一、直接插入排序 (Insertion Sort) 基本思想 直接插入排序是一种简单直观的排序算法&#xff0c;就像我们打扑克牌时的操作&#xff1a;每次摸到一张牌&#xff0c;都…...

深入解析 FFmpeg 的 AAC 编解码过程

深入解析 FFmpeg 的 AAC 编解码过程 —— 技术详解与代码实现 AAC(Advanced Audio Coding) 是一种高效的有损音频压缩格式,因其高压缩效率和良好的音质而被广泛应用于流媒体、广播和音频存储等领域。FFmpeg 是一个强大的多媒体处理工具,支持 AAC 的编码和解码。本文将详细…...

DeepSeek-R1技术报告快速解读

相关论文链接如下&#xff1a; DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsDeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 文章目录 一、论文脑图二、论文解读2.1 研究背景2.2 研究方法2.3 …...

windows蓝牙驱动开发-蓝牙常见问题解答

Windows 可以支持多少个蓝牙无线电&#xff1f; Windows 中的蓝牙堆栈仅支持一个蓝牙无线电。 此无线电必须符合蓝牙规范和最新的 Windows 硬件认证计划要求。 蓝牙和 Wi-Fi 无线电如何有效共存&#xff1f; 蓝牙和 Wi-Fi 无线电都在 2.4 GHz 频率范围内运行&#xff0c;因此…...

基于SpringBoot+Vue实现航空票务管理系统

作者简介&#xff1a;Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验&#xff0c;被多个学校常年聘为校外企业导师&#xff0c;指导学生毕业设计并参与学生毕业答辩指导&#xff0c;…...

让文物“活”起来,以3D数字化技术传承文物历史文化!

文物&#xff0c;作为不可再生的宝贵资源&#xff0c;其任何毁损都是无法逆转的损失。然而&#xff0c;当前文物保护与修复领域仍大量依赖传统技术&#xff0c;同时&#xff0c;文物管理机构和专业团队的力量相对薄弱&#xff0c;亟需引入数字化管理手段以应对挑战。 积木易搭…...

java项目之美妆产品进销存管理系统的设计与开发源码(ssm+mysql)

项目简介 美妆产品进销存管理系统的设计与开发实现了以下功能&#xff1a; 美妆产品进销存管理系统的设计与开发的主要使用者分为管理员登录后修改个人的密码。产品分类管理中&#xff0c;对公司内的所有产品分类进行录入&#xff0c;也可以对产品分类进行修改和删除。产品管…...

UMLS初探

什么是UMLS UMLS&#xff08;Unified Medical Language System&#xff0c;统一医学语言系统&#xff09;&#xff0c;简单来说就是将不同的医学标准统一到一套体系的系统&#xff0c;主要为了医疗系统的统一而构建出的。 UMLS的主要组成部分 Metathesaurus&#xff1a;一个…...

保姆级教程Docker部署Zookeeper模式的Kafka镜像

目录 一、安装Docker及可视化工具 二、Docker部署Zookeeper 三、单节点部署 1、创建挂载目录 2、运行Kafka容器 3、Compose运行Kafka容器 4、查看Kafka运行状态 5、验证生产消费 四、部署可视化工具 1、创建挂载目录 2、Compose运行Kafka-eagle容器 3、查看Kafka-e…...

idea插件开发dom4j报错:SAXParser cannot be cast to class org.xml.sax.XMLReader

手打不易&#xff0c;如果转摘&#xff0c;请注明出处&#xff01; 注明原文&#xff1a;https://blog.csdn.net/q258523454/article/details/145512328 dom4j报错 idea插件使用到了dom4j依赖&#xff0c;但是报错&#xff1a; I will print the stack trace then carry on…...

【Go语言圣经】第八节:Goroutines和Channels

DeepSeek 说 Goroutines 和 Channels 最近非常流行询问DeepSeek某些相关概念或热点的解释&#xff0c;因此在开始系统性地学习《Go语言圣经》之前&#xff0c;我首先向DeepSeek进行了提问。具体的Prompt如下&#xff1a; 有关Golang当中的Goroutines和Channels&#xff0c;我现…...

第3章 使用 Vue 脚手架

第3章 使用 Vue 脚手架 3.1 初始化脚手架3.1.1 说明3.1.2. 具体步骤3.1.3 分析脚手架结构1 总结2 细节分析1 配置文件2 src文件1 文件结构分析2 例子 3 public文件4 最终效果 3.2 ref属性3.3 props配置项3.4 mixin混入3.5 插件3.6 scoped样式3.7 Todo-list 案例3.7.1 组件化编码…...

XILINX硬件设计-(1)LVDS接口总结

1.LVDS差分信号电路原理 LVDS指的是低压差分信号&#xff0c;是一种电平标准。 差分信号在串行通信中有着非常广泛的应用&#xff0c;典型应用有PCIE中的gen1&#xff0c;gen2&#xff0c;gen3&#xff0c;gen4&#xff0c;gen5&#xff0c;SATA接口&#xff0c;USB接口等。 …...

RestTemplate Https 证书访问错误

错误信息 resttemplate I/O error on GET request for “https://21.24.6.6:9443/authn-api/v5/oauth/token”: java.security.cert.CertificateException: No subject alternative names present; nested exception is javax.net.ssl.SSLHandshakeException: java.security.c…...

单张照片可生成写实3D头部模型!Adobe提出FaceLift,从单一的人脸图像中重建出360度的头部模型。

FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表…...

【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-Chapter7-迭代器与生成器

七、迭代器与生成器 ECMAScript 6 规范新增了两个高级特性&#xff1a;迭代器和生成器。使用这两个特性&#xff0c;能够更清晰、高效、方便地实现迭代。 理解迭代 循环是迭代机制的基础&#xff0c;这是因为它可以指定迭代的次数&#xff0c;以及每次迭代要执行什么操作。每次…...

每日一题——数组中出现次数超过一半的数字

数组中出现次数超过一半的数字 题目描述数据范围 输入描述输出描述示例示例1示例2示例3 题解解题思路摩尔投票算法步骤&#xff1a; 代码实现代码解析时间与空间复杂度 题目描述 给定一个长度为 n 的数组&#xff0c;数组中有一个数字出现的次数超过数组长度的一半&#xff0c…...

【AI】DeepSeek知识类任务和推理能力均表现优秀

2024 年 12 月 26 日&#xff0c;杭州深度求索&#xff08;DeepSeek AI&#xff09;发布 DeepSeek-V3 并同步开源&#xff0c;据介绍&#xff0c;DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型&#xff0c;并在性能上和世界顶尖的闭源模型 GPT…...

编程领域的IO模型(BIO,NIO,AIO)

目前对于市面上绝大多数的应用来说&#xff0c;不能实现的业务功能太少了。更多的是对底层细节&#xff0c;性能优化的追求。其中IO就是性能优化中很重要的一环。Redis快&#xff0c;mysql缓冲区存在的意义。都跟IO有着密切关系。IO其实我们都在用&#xff0c;输入输出流这块。…...