当前位置：首页 > news >正文

小红书新ID保持项目StoryMaker，面部特征、服装、发型和身体特征都能保持一致！（已开源）

news 2026/2/9 17:01:10

继之前和大家介绍的小红书在ID保持以及风格转换方面相关的优秀工作，感兴趣的小伙伴可以点击以下链接阅读~

近期，小红书又新开源了一款文生图身份保持项目：StoryMaker，是一种个性化解决方案，它不仅保留了面部的一致性，还保留了多个角色场景中的服装、发型和身体的一致性，从而有可能制作由一系列图像组成的故事。

StoryMaker通过其强大的特性，彻底改变了多角色叙事创作的方式。它不仅能帮助创作者快速生成高质量的连续图像，还能确保每个角色的特征始终保持一致，无需反复进行人工调整。

下图是由StoryMaker 生成的图像。前三行讲述了"上班族"一天的生活故事，后两行讲述了一部电影《爱在黎明破晓前》的故事。

论文阅读

StoryMaker：在文本到图像生成中实现一致的人物形象

摘要

无需调整的个性化图像生成方法在保持面部一致性（即身份）方面取得了重大成功，即使有多个角色也是如此。然而，在有多个角色的场景中缺乏整体一致性，阻碍了这些方法创建连贯叙事的能力。

本文介绍的StoryMaker是一种个性化解决方案，它不仅保留了面部一致性，还保留了服装、发型和身体一致性，从而通过一系列图像促进故事的创作。StoryMaker 结合了基于面部身份和裁剪角色图像的条件，包括服装、发型和身体。

具体来说，使用位置感知感知器重采样器 (PPR) 将面部身份信息与裁剪角色图像相结合，以获得不同的角色特征。为了防止多个角色和背景混合，使用带分割蒙版的 MSE 损失分别约束不同角色和背景的交叉注意力影响区域。此外训练以姿势为条件的生成网络以促进与姿势的解耦。还采用了 LoRA 来提高保真度和质量。实验证明了该方法的有效性。StoryMaker 支持众多应用程序，并与其他插件兼容

方法

StoryMaker 的模型架构。 面部图像和角色图像分别使用面部编码器和图像编码器进行嵌入，并通过提出的位置感知感知器重采样器模块进行细化。使用与 LoRA 解耦的交叉注意力将这些嵌入注入扩散模型。在底部用分割掩码说明了交叉注意力图上的注意力损失。右侧还描绘了 PPR 模块的核心。

给定一张包含一两个角色的参考图像，StoryMaker 会尝试生成一系列具有相同角色的新图像，这些新图像不仅保留相同的面孔（即身份），还保留他们的衣着、发型和身体。然后，可以根据文本提示通过改变背景、角色的姿势和风格来创建叙事。

具体来说，首先使用面部编码器提取角色的面部信息（即身份），并通过角色图像编码器提取其衣着、发型和身体的细节。然后使用所提出的位置感知感知器重采样器来细化这些信息。

为了控制主干生成网络，将细化的信息注入 IP-Adapter 提出的解耦交叉注意模块。
为了防止多个角色和背景交错，分别限制了不同角色和背景的交叉注意的影响区域。此外，还使用了 ID 损失来维护角色的身份。
为了将姿势信息与参考图像分离，以 ControlNet检测到的姿势为条件训练网络。
为了提高保真度和质量，还使用 LoRA 训练 U-Net。

训练完成后，可以丢弃整个 ControlNet 并通过文本提示控制角色的姿势，或者在推理过程中使用新姿势指导图像生成。

实验

两幅肖像合成

双字符图像生成的可视化。前两列显示两个不同的参考字符图像。中间的四列说明了StoryMaker实现现实合成的能力。最后四列展示了风格化合成的结果，其中字符嵌入被设置为零。

多样性应用

StoryMaker的各种应用。

单个字符条件生成的视觉对比。

结论

本文给大家介绍了 StoryMaker，这是一种新颖的个性化图像生成方法，它不仅在面部身份方面保持了一致性，而且在多个角色场景中的服装、发型和身体方面也保持了一致性。

该方法通过文本提示允许背景、姿势和风格变化，从而增强了叙事创作，实现了多样化和连贯的故事讲述。StoryMaker 利用位置感知感知器重采样器，通过融合从面部图像和裁剪的角色图像中提取的特征来获得不同的角色嵌入。为了防止多个角色和背景混合，使用 MSE 损失和分割蒙版分别限制不同角色和背景的交叉注意力影响区域。通过结合 ControlNet 的姿势解耦和 LoRA 的保真度增强，StoryMaker 可以持续生成具有匹配身份和视觉一致性的高质量图像。广泛的实验证明了 StoryMaker 在保持角色身份和一致性方面的卓越性能，尤其是在多角色场景中，优于现有的无调整模型。

该模型的多功能性通过各种应用得到进一步凸显，例如换装、角色插值以及与其他生成插件的集成。StoryMaker 为个性化图像生成做出了巨大贡献，并为数字故事讲述、漫画和其他领域的广泛应用开辟了可能性，在这些领域中，个性和叙事连贯性至关重要。

小红书新ID保持项目StoryMaker，面部特征、服装、发型和身体特征都能保持一致！（已开源）

相关链接

论文阅读

摘要

方法

实验

两幅肖像合成

多样性应用

结论

相关文章：

小红书新ID保持项目StoryMaker，面部特征、服装、发型和身体特征都能保持一致！（已开源）

Docker 环境下 GPU 监控实战：使用 Prometheus 实现 DCGM Exporter 部署与 GPU 性能监控

联想小新打印机M7328w如何解决卡纸，卡了一个小角在里面，然后再次打印的时候，直接卡住，不能动了。灯显示红色。

软件可靠性之MTTR、MTBF、MTTF、MTTD区别

Qt-QDockWidget浮动窗口相关操作(49)

图形用户界面-GUI的基本概念和组件之一

【MATLAB代码】基于RSSI原理的蓝牙定位程序（N个锚点、三维空间），源代码可直接复制

Pyenv 介绍和安装指南 - Ubuntu 24

zookeeper实现RMI服务，高可用，HA

通过Express + Vue3从零构建一个用户认证与授权系统（一）项目结构设计

JavaScript 第13章：Ajax 与异步请求

速卖通商品详情接口技术解析及Python代码示例

邻接表的有向网（C语言代码）

大模型生成PPT大纲优化方案：基于 nVidia NIM 平台的递归结构化生成

MRSO算法（JCR2区）

最新Spring Boot3框架入门教程，基础知识讲解（参考官方文档），同时基于MybatisPlus+MYSQL搭建后台管理系统基础流程（附源码）

导数的概念及在模型算法中的应用

获取首日涨停封盘后第二次交易日上涨/下跌的概率

shell $ 用法

如何用支付宝实现靠脸吃饭

使用VSCode开发Django指南

PHP和Node.js哪个更爽?

Python爬虫实战：研究feedparser库相关技术

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

【HTML-16】深入理解HTML中的块元素与行内元素

浅谈不同二分算法的查找情况

OPENCV形态学基础之二腐蚀

九天毕昇深度学习平台 | 如何安装库？

iOS性能调优实战：借助克魔(KeyMob)与常用工具深度洞察App瓶颈

免费PDF转图片工具