当前位置: 首页 > news >正文

FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

c1f477a254681a58d705f8283b7c53eb.gif

7ef69526e55b3c6830d389cef1f26743.png

简介

虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让同时具备了 B 和 C 的两个用户属性。随着 AIGC 的兴起,虚拟试衣也取得了一定的突破,FaceChain 近期重点更新了虚拟试衣功能 & 效果图如下所示:

cbf4d6198af9dc57cd83112ea75869ce.png

根据是否需要对衣服做变形生成来划分,虚拟试衣又可分为形变保 ID 与非形变保 ID。其中非形变保 ID(局部保 ID)部分已开源,可以在 FaceChain(https://github.com/modelscope/FaceChain)开源项目中体验到,另外形变保 ID 正在研发中,预计 11 月底开源初版。截止目前 FaceChain 已有 6.1K star,它旨在打造以人物为中心的 AIGC 工具箱,目前其人物写真功能在线体验形态与入口丰富。主要有如下:

a.)万相写真馆在线体验:

https://tongyi.aliyun.com/wanxiang/app/portrait-gallery

b.)魔搭人物写真在线体验:

https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary

c.)魔搭写真智能agent在线体验:

https://www.modelscope.cn/studios/CVstudio/FaceChain_agent_studio/summary

除以上体验入口外,该项目也可作为插件在 sdwebui 中集成,另外也在同步拓展 comfyui 的插件中。在功能层面,目前已有人物写真、虚拟试衣、sad talker 等功能,另有更多应用在拓展中。

5071dc45ecf32aeb60dc678e99e0fa4e.png

原理

虚拟试衣的基本模块为 sd、lora、controlnet、inpainting。除了相应基本模块外,还有一些特殊优化及超参设置,最后通过业务代码实现具象的功能。其详细架构图如下:

84e354cade0450cd5d2e8d915c211f70.png

另外 sd、lora、controlnet、inpainting 等基础模块原理如下:

a.)sd相应原理:

sd 是在 2022 年 diffusion 的技术上进行了 latent 低维特征域的加噪去噪技术迁移,大大加速了 diffusion 技术的相应生态发展。相应原理如下:sd 是一个基于 latent 的扩散模型,常规的扩散模型是基于 pixel 的生成模型,而 latent diffusion 是基于 latent 的生成模型,它先采用一个 autoencoder 将图像压缩到 latent 空间,然后基于文本引导用扩散模型对 latent 进行加噪与去噪过程,最后送入 autoencoder 的 decoder 模块就可以得到生成的图像。sd 模型的基本功能是文生图功能,输入一段文本或一系列提示词,输出对应的图像。

sd 模型的主体结构如下图所示,主要包括以下三部分:

  • autoencoder:encoder 将图像压缩到 latent 空间,而 decoder 将 latent 解码为图像;

  • CLIP text encoder:提取输入文本的 text embeddings,通过 cross attention 的方式送入扩散模型的 UNet 中;

  • UNet:扩散模型的主题,用于实现文本引导下的 latent 生成。

b6fc917d027501d32e562a65dd91bc91.png

▲ sd模型的基本结构示意图

b.)lora相应原理:

lora 是在 NLP 领域 LLM 大模型上提出的低秩权重矩阵 finetune 技术,此框架大大提升了大模型 finetune 的稳定性,目前其在 SD 上也有大规模的普及应用。相应原理如下:NLP 领域的一个重要范式是在通用域数据进行大规模预训练,然后在下游任务下 finetune。

前人研究表明,过参数化神经网络模型在训练后呈现低秩特性,因此原作者猜测,模型 finetune 过程中权重的变化同样具有低秩特性。因此 lora 通过将权重矩阵进行低秩分解间接训练神经网络的一些密集层,如下图所示。在 finetune 模型时固定原有参数,只训练低秩矩阵 A 与 B。

449c6330452bba6b4433b49c656207f5.png

▲ lora 的低秩分解示意图

通过引入 lora 在特定风格或人物的文生图任务中对 sd 模型进行 finetune,可以有效学习对应的风格或人物信息。相比于全参数微调(full-finetune),lora 更适用于基于少量数据的微调,因此也更适用于在人物写真中学习风格和人物信息。

c.)controlnet相应原理:

controlnet 是一种通过添加额外条件来控制扩散模型的神经网络结构,在 sd 中基于 controlnet 增加条件输入,如边缘映射、分割映射、pose 关键点等信息,可以使生成的图像在上述信息上更接近输入图像,从而增强 sd 图像生成结果的可控性。controlent 定义一组输入条件作为神经网络的额外输入,并通过零初始化的 1*1 卷积(zero convolution)以及原网络模块的可训练副本将其与原始输入进行交互,并将输出结果与原网络输出结果相加。

由于两个 zero convolution 的初始化为 0,因此训练第一步的输出结果与不添加 controlnet 的输出结果一致。该方法可以使得神经网络在特定任务中进行高效 finetune 以提高其性能。在 sd 模型中,controlnet 控制 UNet 的每个层级,使用与 sd 相同的 12 个编码 block 以及一个 middle block,并在输出部分增加 12 个 skip-connections 以及一个 middle block 至 UNet,具体结构如下图所示。

b23d3cecdfa5bc8bc9766e2a95ec889f.png

▲ 应用于 sd 模型的 controlnet 结构示意图

d.)inpainting相应原理:

在 sd 中,图像 inpainting 功能是文生图功能的一个扩展:给定模板图像、重绘区域和输入文本,即可根据输入文本的引导生成重绘区域的内容。不同于文生图功能,图像 inpainting 的初始 latent 不是一个随机噪音,而是由模板图像经过 autoencoder 编码之后的 latent 添加高斯噪音得到,其中高斯噪音的比例通过 strength 参数进行控制。

而后对上述初始 latent 进行去噪,为了保证只修改重绘区域以内的内容,在去噪过程的每一步,都将 sd 预测的 noisylatent 在重绘区域外的部分用模板图像相同加噪程度的 noisy latent 替换。这样既能保证重绘区域以外的部分不发生变化,又可以在每一步去噪过程中实现重绘区域内外 latent 的交互,从而保证生成结果的整体自然性。

2f26a9f8a057b757800ea53d639aef2d.png

规划

目前 FaceChain 的整体规划主要有四个维度:a.)真人写真风格,b.)虚拟写真风格,c.)应用拓展,d.)生态拓展。正在进行 comfyui 插件的研发中。

更多阅读

a340631cae12eadbba7abc63f3683905.png

9ec44ba1fe7c12e574ec2033e0ad4b0b.png

d3056e2612b8f05406e2ce4be4f40347.png

d935a34e2635ee3d859837f51a2550f9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

aff0a5ec2f7a63d3c90f6256879b1876.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

311f8a6f66772bf6fe14ff8b14776667.jpeg

相关文章:

FaceChain开源虚拟试衣功能,打造更便捷高效的试衣新体验

简介 虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让同时具备了 B 和 C 的两…...

java的几种对象: PO,VO,DAO,BO,POJO

概述 对象释意使用备注PO(persistant object)持久对象可以看成是与数据库中的表相映射的Java对象,最简单的PO就是对应数据库中某个表中的一条记录。PO中应该不包含任何对数据库的操作VO(view object)表现层对象主要对…...

【使用Python编写游戏辅助工具】第三篇:鼠标连击器的实现

前言 这里是【使用Python编写游戏辅助工具】的第三篇:鼠标连击器的实现。本文主要介绍使用Python来实现鼠标连击功能。 鼠标连击是指在很短的时间内多次点击鼠标按钮,通常是鼠标左键。当触发鼠标连击时,鼠标按钮会迅速按下和释放多次&#xf…...

C++二分查找算法的应用:最小好进制

本文涉及的基础知识点 二分查找 题目 以字符串的形式给出 n , 以字符串的形式返回 n 的最小 好进制 。 如果 n 的 k(k>2) 进制数的所有数位全为1,则称 k(k>2) 是 n 的一个 好进制 。 示例 1: 输入:n “13” 输出:“3” …...

2022年12月 Python(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

Python等级考试(1~6级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 列表L1中全是整数,小明想将其中所有奇数都增加1,偶数不变,于是编写了如下图所示的代…...

行业安卓主板-基于RK3568/3288/3588的AI视觉秤/云相框/点餐机/明厨亮灶行业解决方案(一)

AI视觉秤 单屏Al秤集成独立NPU,可达0.8Tops算力,令AI运算效率大幅提升,以实现生鲜商品快速准确识别,快速称重打印标签,降低生鲜门店运营成本,缓解高峰期称重排队拥堵的现象,提高称重效率&#…...

fo-dicom缺少DicomJpegLsLosslessCodec

VS2019,fo-dicom v4.0.8 using Dicom.Imaging.Codec; ... DicomJpegLsLosslessCodec //CS0103 当前上下文中不存在名称“DicomJpegLsLosslessCodec” 但官方文档的确存在该类的说明DicomJpegLsLosslessCodec 尝试:安装包fo-dicom.Codecs,注…...

跳跳狗小游戏

欢迎来到程序小院 跳跳狗 玩法:一直弹跳的狗狗,鼠标点击屏幕左右方向键进行弹跳,弹到不同物品会有不同的分数减扣,规定的时间3分钟内完成狗狗弹跳,快去跳跳狗吧^^。开始游戏https://www.ormcc.com/play/gameStart/198…...

CoDeSys系列-4、基于Ubuntu的codesys运行时扩展包搭建Profinet主从环境

CoDeSys系列-4、基于Ubuntu的codesys运行时扩展包搭建Profinet主从环境 文章目录 CoDeSys系列-4、基于Ubuntu的codesys运行时扩展包搭建Profinet主从环境一、前言二、资料收集三、Ubuntu18.04从安装到更换实时内核1、下载安装Ubuntu18.042、下载安装实时内核,解决编…...

shell_70.Linux调整谦让度

调整谦让度 1.nice 命令 (1)nice 命令允许在启动命令时设置其调度优先级。要想让命令以更低的优先级运行,只需用nice 命令的-n 选项指定新的优先级即可: $ nice -n 10 ./jobcontrol.sh > jobcontrol.out & [2] 16462 $ $ ps -p 16462 -o pid,…...

【jvm】虚拟机栈

目录 一、背景二、栈与堆三、声明周期四、作用五、特点(优点)六、可能出现的异常七、设置栈内存大小八、栈的存储单位九、栈运行原理十、栈帧的内部结构10.1 说明10.2 局部变量表10.3 操作数栈10.4 动态链接10.5 方法返回地址10.6 一些附加信息 十一、代…...

Flink SQL Over 聚合详解

Over 聚合定义(⽀持 Batch\Streaming):**特殊的滑动窗⼝聚合函数,拿 Over 聚合 与 窗⼝聚合 做对⽐。 窗⼝聚合:不在 group by 中的字段,不能直接在 select 中拿到 Over 聚合:能够保留原始字段…...

【鸿蒙软件开发】ArkUI之容器组件Counter(计数器组件)、Flex(弹性布局)

文章目录 前言一、Counter1.1 子组件1.2 接口1.3 属性1.4 事件 1.5 示例代码二、Flex弹性布局到底是什么意思? 2.1 权限列表2.2 子组件2.3 接口参数 2.4 示例代码示例代码1示例代码2 总结 前言 Counter容器组件:计数器组件,提供相应的增加或…...

PyTorch入门学习(十一):神经网络-线性层及其他层介绍

目录 一、简介 二、PyTorch 中的线性层 三、示例:使用线性层构建神经网络 四、常见的其他层 一、简介 神经网络是由多个层组成的,每一层都包含了一组权重和一个激活函数。每层的作用是将输入数据进行变换,从而最终生成输出。线性层是神经…...

农业水土环境与面源污染建模及对农业措施响应

目录 ​专题一 农业水土环境建模概述 专题二 ArcGIS入门 专题三 农业水土环境建模流程 专题四 DEM数据制备流程 专题五 土地利用数据制备流程 专题六 土壤数据制备流程 专题七 气象数据制备流程 专题八 农业措施数据制备流程 专题九 参数率定与结果验证 专题十 模型结…...

回归预测 | Matlab实现MPA-BP海洋捕食者算法优化BP神经网络多变量回归预测(多指标、多图)

回归预测 | Matlab实现MPA-BP海洋捕食者算法优化BP神经网络多变量回归预测(多指标、多图) 目录 回归预测 | Matlab实现MPA-BP海洋捕食者算法优化BP神经网络多变量回归预测(多指标、多图)效果一览基本介绍程序设计参考资料 效果一览…...

扫地机器人遇瓶颈?科沃斯、石头科技“突围”

曾经,扫地机器人行业也曾有过高光时刻,而如今,扫地机器人已然告别高增长阶段,增速开始放缓。据中怡康零售推总数据显示,2023年上半年,中国扫地机器人市场规模为63.6亿元人民币,同比下滑了0.6%&a…...

基于SSM的防疫信息登记系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…...

VBA将字典按照item的值大小排序key

方法:利用数组交换位置 sub 字典排序() s 0 Dim arr(dic1.keys)将字典key和value存入一个数组中 For Each ke In dic1.keysarr(s) Array(ke, dic1(ke))s s 1 Next进行排序 For i LBound(arr) To UBound(arr) - 1For j i 1 To UBound(arr)If arr(i)(1) >…...

MySQL第四讲·如何正确设置主键?

你好,我是安然无虞。 文章目录 主键:如何正确设置主键?业务字段做主键自增字段做主键手动赋值字段做主键 主键总结 主键:如何正确设置主键? 前面我们在讲解存储的时候,有提到过主键,它可以唯一…...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代,情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现,消费者对内容的“有感”程度,正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

2021-03-15 iview一些问题

1.iview 在使用tree组件时,发现没有set类的方法,只有get,那么要改变tree值,只能遍历treeData,递归修改treeData的checked,发现无法更改,原因在于check模式下,子元素的勾选状态跟父节…...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一,概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本:2014.07; Kernel版本:Linux-3.10; 二,Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01),并让boo…...

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...

Angular微前端架构:Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例,其中使用的是 Module Federation 和 npx-build-plus 实现了主应用(Shell)与子应用(Remote)的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境 系统:Ubuntu 24.04 LTS (WSL2)架构:x86_64 (GNU/Linux)Rust 版本:rustc 1.87.0 (2025-05-09)Cargo 版本:cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象: android studio报错: [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决: 不要动CMakeLists.…...

安卓基础(Java 和 Gradle 版本)

1. 设置项目的 JDK 版本 方法1:通过 Project Structure File → Project Structure... (或按 CtrlAltShiftS) 左侧选择 SDK Location 在 Gradle Settings 部分,设置 Gradle JDK 方法2:通过 Settings File → Settings... (或 CtrlAltS)…...

Ubuntu系统多网卡多相机IP设置方法

目录 1、硬件情况 2、如何设置网卡和相机IP 2.1 万兆网卡连接交换机,交换机再连相机 2.1.1 网卡设置 2.1.2 相机设置 2.3 万兆网卡直连相机 1、硬件情况 2个网卡n个相机 电脑系统信息,系统版本:Ubuntu22.04.5 LTS;内核版本…...