当前位置：首页 > news >正文

FaceChain开源虚拟试衣功能，打造更便捷高效的试衣新体验

news 2026/2/9 11:33:38

简介

虚拟试衣这个话题由来已久，电商行业兴起后，就有相关的研发讨论。由其所见即所得的属性，它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务，也可以为买家做上身体验服务，这让同时具备了 B 和 C 的两个用户属性。随着 AIGC 的兴起，虚拟试衣也取得了一定的突破，FaceChain 近期重点更新了虚拟试衣功能 & 效果图如下所示：

根据是否需要对衣服做变形生成来划分，虚拟试衣又可分为形变保 ID 与非形变保 ID。其中非形变保 ID（局部保 ID）部分已开源，可以在 FaceChain（https://github.com/modelscope/FaceChain）开源项目中体验到，另外形变保 ID 正在研发中，预计 11 月底开源初版。截止目前 FaceChain 已有 6.1K star，它旨在打造以人物为中心的 AIGC 工具箱，目前其人物写真功能在线体验形态与入口丰富。主要有如下：

a.）万相写真馆在线体验：

https://tongyi.aliyun.com/wanxiang/app/portrait-gallery

b.）魔搭人物写真在线体验：

https://www.modelscope.cn/studios/CVstudio/cv_human_portrait/summary

c.）魔搭写真智能agent在线体验：

https://www.modelscope.cn/studios/CVstudio/FaceChain_agent_studio/summary

除以上体验入口外，该项目也可作为插件在 sdwebui 中集成，另外也在同步拓展 comfyui 的插件中。在功能层面，目前已有人物写真、虚拟试衣、sad talker 等功能，另有更多应用在拓展中。

原理

虚拟试衣的基本模块为 sd、lora、controlnet、inpainting。除了相应基本模块外，还有一些特殊优化及超参设置，最后通过业务代码实现具象的功能。其详细架构图如下：

另外 sd、lora、controlnet、inpainting 等基础模块原理如下：

a.）sd相应原理：

sd 是在 2022 年 diffusion 的技术上进行了 latent 低维特征域的加噪去噪技术迁移，大大加速了 diffusion 技术的相应生态发展。相应原理如下：sd 是一个基于 latent 的扩散模型，常规的扩散模型是基于 pixel 的生成模型，而 latent diffusion 是基于 latent 的生成模型，它先采用一个 autoencoder 将图像压缩到 latent 空间，然后基于文本引导用扩散模型对 latent 进行加噪与去噪过程，最后送入 autoencoder 的 decoder 模块就可以得到生成的图像。sd 模型的基本功能是文生图功能，输入一段文本或一系列提示词，输出对应的图像。

sd 模型的主体结构如下图所示，主要包括以下三部分：

autoencoder：encoder 将图像压缩到 latent 空间，而 decoder 将 latent 解码为图像；
CLIP text encoder：提取输入文本的 text embeddings，通过 cross attention 的方式送入扩散模型的 UNet 中；
UNet：扩散模型的主题，用于实现文本引导下的 latent 生成。

▲ sd模型的基本结构示意图

b.）lora相应原理：

lora 是在 NLP 领域 LLM 大模型上提出的低秩权重矩阵 finetune 技术，此框架大大提升了大模型 finetune 的稳定性，目前其在 SD 上也有大规模的普及应用。相应原理如下：NLP 领域的一个重要范式是在通用域数据进行大规模预训练，然后在下游任务下 finetune。

前人研究表明，过参数化神经网络模型在训练后呈现低秩特性，因此原作者猜测，模型 finetune 过程中权重的变化同样具有低秩特性。因此 lora 通过将权重矩阵进行低秩分解间接训练神经网络的一些密集层，如下图所示。在 finetune 模型时固定原有参数，只训练低秩矩阵 A 与 B。

▲ lora 的低秩分解示意图

通过引入 lora 在特定风格或人物的文生图任务中对 sd 模型进行 finetune，可以有效学习对应的风格或人物信息。相比于全参数微调（full-finetune），lora 更适用于基于少量数据的微调，因此也更适用于在人物写真中学习风格和人物信息。

c.）controlnet相应原理：

controlnet 是一种通过添加额外条件来控制扩散模型的神经网络结构，在 sd 中基于 controlnet 增加条件输入，如边缘映射、分割映射、pose 关键点等信息，可以使生成的图像在上述信息上更接近输入图像，从而增强 sd 图像生成结果的可控性。controlent 定义一组输入条件作为神经网络的额外输入，并通过零初始化的 1*1 卷积（zero convolution）以及原网络模块的可训练副本将其与原始输入进行交互，并将输出结果与原网络输出结果相加。

由于两个 zero convolution 的初始化为 0，因此训练第一步的输出结果与不添加 controlnet 的输出结果一致。该方法可以使得神经网络在特定任务中进行高效 finetune 以提高其性能。在 sd 模型中，controlnet 控制 UNet 的每个层级，使用与 sd 相同的 12 个编码 block 以及一个 middle block，并在输出部分增加 12 个 skip-connections 以及一个 middle block 至 UNet，具体结构如下图所示。

▲ 应用于 sd 模型的 controlnet 结构示意图

d.）inpainting相应原理：

在 sd 中，图像 inpainting 功能是文生图功能的一个扩展：给定模板图像、重绘区域和输入文本，即可根据输入文本的引导生成重绘区域的内容。不同于文生图功能，图像 inpainting 的初始 latent 不是一个随机噪音，而是由模板图像经过 autoencoder 编码之后的 latent 添加高斯噪音得到，其中高斯噪音的比例通过 strength 参数进行控制。

而后对上述初始 latent 进行去噪，为了保证只修改重绘区域以内的内容，在去噪过程的每一步，都将 sd 预测的 noisylatent 在重绘区域外的部分用模板图像相同加噪程度的 noisy latent 替换。这样既能保证重绘区域以外的部分不发生变化，又可以在每一步去噪过程中实现重绘区域内外 latent 的交互，从而保证生成结果的整体自然性。

规划

目前 FaceChain 的整体规划主要有四个维度：a.）真人写真风格，b.）虚拟写真风格，c.）应用拓展，d.）生态拓展。正在进行 comfyui 插件的研发中。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

FaceChain开源虚拟试衣功能，打造更便捷高效的试衣新体验

相关文章：

FaceChain开源虚拟试衣功能，打造更便捷高效的试衣新体验

java的几种对象： PO,VO,DAO,BO,POJO

【使用Python编写游戏辅助工具】第三篇：鼠标连击器的实现

C++二分查找算法的应用：最小好进制

2022年12月 Python（三级）真题解析#中国电子学会#全国青少年软件编程等级考试

行业安卓主板-基于RK3568/3288/3588的AI视觉秤/云相框/点餐机/明厨亮灶行业解决方案（一）

fo-dicom缺少DicomJpegLsLosslessCodec

跳跳狗小游戏

CoDeSys系列-4、基于Ubuntu的codesys运行时扩展包搭建Profinet主从环境

shell_70.Linux调整谦让度

【jvm】虚拟机栈

Flink SQL Over 聚合详解

【鸿蒙软件开发】ArkUI之容器组件Counter(计数器组件)、Flex(弹性布局)

PyTorch入门学习（十一）：神经网络-线性层及其他层介绍

农业水土环境与面源污染建模及对农业措施响应

回归预测 | Matlab实现MPA-BP海洋捕食者算法优化BP神经网络多变量回归预测（多指标、多图）

扫地机器人遇瓶颈？科沃斯、石头科技“突围”

基于SSM的防疫信息登记系统设计与实现

VBA将字典按照item的值大小排序key

MySQL第四讲·如何正确设置主键？

uniapp 对接腾讯云IM群组成员管理（增删改查）

19c补丁后oracle属主变化，导致不能识别磁盘组

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

蓝桥杯 2024 15届国赛 A组儿童节快乐

剑指offer20_链表中环的入口节点

【2025年】解决Burpsuite抓不到https包的问题

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别