当前位置：首页 > news >正文

南开提出1Prompt1Story，无需训练，可通过单个连接提示实现一致的文本到图像生成。

news 2026/5/11 9:50:14

（1Prompt1Story）是一种无训练的文本到图像生成方法，通过整合多个提示为一个长句子，并结合奇异值重加权（SVR）和身份保持交叉注意力（IPCA）技术，解决了生成图像中身份不一致的问题，同时保持了文本描述的精准对齐。

论文介绍

论文出了一种无需训练的方法1Prompt1Story，通过单个连接提示实现一致的文本到图像生成。我们的方法可以应用于所有基于文本嵌入的文本到图像模型。此外，它还支持多字符生成、ControlNet 引导生成和个性化生成逼真的图像。

方法

(a)：1Prompt1Story 的整体流程。我们将身份提示和框架提示合并为一个提示，然后应用奇异值重加权 (SVR) 和身份保留交叉注意力 (IPCA) 来生成身份一致的图像。(b)：在SVR期间，我们首先增强表达集X_exp的语义信息（红色箭头），然后迭代地削弱抑制集X_sup的语义（蓝色箭头）。(c)：在IPCA中，我们将 K_tilde 与 K_bar 连接，将 V_tilde 与 V_bar 连接，以提高身份一致性。

（左）：1Prompt1Story 可以与 ControlNet 集成，以实现空间控制，从而实现一致的角色生成。（右）：此外，我们的方法还可以与其他方法（例如 PhotoMaker）结合使用，以实现真实图像个性化，同时提高身份一致性。

结果展示

现有方法（上）在 T2I 生成一致性方面面临挑战。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的图像之间经常表现出明显的身份不一致。尽管包括 IP-Adapter 和 ConsiStory 在内的最新方法已经提高了身份一致性，但它们失去了生成的图像与相应输入提示之间的一致性。我们方法的其他结果（下）展示了卓越的一致性，同时不损害文本和图像之间的一致性。

对帧提示顺序的鲁棒性。使用同一组帧提示但不同的顺序，我们的方法 1Prompt1Story 可以一致地生成具有统一标识的图像。

多主题故事生成。通过在身份提示中定义多个主题，我们的方法生成具有多个角色的图像，每个图像都保持良好的身份一致性。

种子变化。通过使用不同的种子，1Prompt1Story 可以生成具有不同背景的图像，同时保持一致的身份。

与不同的基础模型相结合。

南开提出1Prompt1Story，无需训练，可通过单个连接提示实现一致的文本到图像生成。

相关链接

论文介绍

方法

结果展示

相关文章：

南开提出1Prompt1Story，无需训练，可通过单个连接提示实现一致的文本到图像生成。

hooks useModule自定义hooks (二次封装AgGridReact ag-table)自定义表头，自定义表头搜索

Manus无需邀请码即可使用的平替方案-OpenManus实测

常用的gpt

【AI】【Unity】关于Unity接入DeepseekAPI遇到的坑

MAX232数据手册：搭建电平转换桥梁，助力串口稳定通信

vue2项目开启br压缩

jdk-21_linux-x64_bin.tar.gz Linux jdk21压缩包安装保姆级（详细安装教程）

DataWhale-三月学习任务-大语言模型初探(一、二、五章学习)

【设计模式】掌握建造者模式：如何优雅地解决复杂对象创建难题？

Nuxt.js 全栈开发指南：构建现代 Web 应用的终极解决方案

PPT内视频播放无法播放的原因及解决办法

关于ModbusTCP/RTU协议转Ethernet/IP(CIP)协议的方案

为什么要开源？

WPF在特定领域的应用：打造一款专业的图像编辑工具

从0开始的操作系统手搓教程43——实现一个简单的shell

‌Visual Studio Code（VS Code）支持的编程语言

探索AI对冲基金：开源自动化交易系统的革新之路

C语言每日一练——day_3（快速上手C语言）

vue3中接收props的两种写法

visionOS开发实战：从示例项目到空间应用构建全指南

绝巧弃利之后，ABAP 才回到可升级的常道

基于vDisk的IDV云桌面机房建设方案解析

Letta框架：全栈AI应用开发，从模型集成到部署上线的完整解决方案

企者不立，跨者不行，SAP UI5 开发里的克制、分寸与长久之道

《如果你还愿意等》的搜索理由：等待场景怎样被记住

CANN/asc-devkit向量最小值函数

【信息科学与工程学】【物理/化学科学和工程技术】知识体系018 第十八篇界面科学02 界面化学特征（1）

揭秘2026奇点大会“暗箱测试”结果：在10亿级多模态向量+实时增量更新场景下，仅2款数据库达成＜15ms P99延迟

【2026最硬核LLM加速框架】：仅用7行Triton内核重写Attention，吞吐翻3.2倍——SITS现场调试录屏首曝