新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。
今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描述输入到另一个模型中,生成出实际的服装图像。为了确保这些图像看起来好看且合适,研究人员还请了一些人来检查这些图像,确保它们符合时尚的标准。因此,该方法可以快速有效地创造出符合不同场合和风格需求的时尚图像。
相关链接
论文地址:http://arxiv.org/abs/2409.06442v1
项目地址:https://github.com/georgiarg/Prompt2Fashion
论文阅读
Prompt2Fashion:自动生成的时尚数据集
摘要
人工智能 (AI) 与时尚的结合正在通过增强创造力、个性化和效率来彻底改变行业。从设计服装到预测趋势,人工智能正成为时装设计师、零售商和营销人员不可或缺的工具。然而,将人工智能融入时尚面临着重大挑战,特别是在评估人工智能生成的内容方面,这通常需要领域专业知识来确保相关性、风格和吸引力。
在这项工作中,我们展示了一个自动生成的时尚图像数据集,专注于个性化。该数据集涵盖了各种要求,包括性别、体型、场合和风格,以及它们的组合。通过利用大型语言模型 (LLM) 的功能以及扩散模型,我们提供了一种可扩展的时尚图像生成解决方案。我们的方法消除了设计最终服装时需要人工干预甚至扩散模型的条件提示的需要。
LLM 和扩散模型促进了生产的可扩展性,确保可以高效生成各种时尚图像。语言生成中的 LLM 以及图像生成中的扩散模型提供的质量保证由人类评估员验证。此验证过程反映了潜在消费者如何看待这些 AI 生成的服装,确保内容不仅在技术上精湛,而且还与当前的时尚趋势和消费者偏好产生共鸣。
鉴于人工智能正在创意领域取得重大进展,人类监督对生成内容的监管至关重要。毕竟,时尚图像合成框架最终是为该领域的专家(例如时装设计师)设计的。这些人工智能生成的图像很可能是创意过程的初步步骤,而不是最终产品。因此,人工智能生成的时尚内容必须由具有领域专业知识的个人进行评估。为此,在这项工作中,我们不仅为创意人员和工程师提供了一个开放的、自动生成的数据集,而且还强调了让专家参与评估过程的重要性,这不仅基于上述概念,还基于实验结果。
方法
本研究采用了大型语言模型(LLMs)和扩散模型(Diffusion Model)相结合的方法,生成时尚图像。首先,通过构建包含“风格、场合、性别”或“风格、场合、类型”的变量三元组,形成定制的提示模板。然后,这些提示被输入到LLMs中,如Mistral-7B和Falcon-7B,生成对应的服装描述。这些描述随后被用作扩散模型的输入,以生成最终的时尚图像。在实验中,研究者们创建了2000个样本,每个样本包含LLM输出的描述、原始三元组以及扩散模型生成的图像。为了确保生成的图像质量,研究者们还通过人类评估者进行评审,确保生成的时尚内容不仅在技术上可行,同时符合当前时尚趋势。
实验
由Stable Diffusion生成的图像,用5种不同的方法生成描述
由 Stable Diffusion 生成的描述和图像,其中的描述由 2 个不同的 LLM 生成,用于零样本学习、小样本学习和思维链(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。
由 Stable Diffusion 生成的描述和图像,以及由 2 个不同的 LLM 为 RAG 生成的带有 PDF 的描述 并以 BLOG 作为来源(左栏为 Falcon-7B 模型,右栏为 Mistral-7B 模型)。
图像评价
描述评价
结论
本研究提出了一种生成由 2,000 张图像和描述组成的综合时尚数据集的新方法。通过利用 LLM 和扩散模型,我们创建了适合各种场合、风格和体型的多样化时尚内容集合。我们的评估表明,生成的图像和描述既相关又美观。虽然非专家的反馈证实了它们的吸引力,但专家评估对于确保高标准的时尚质量和适销性至关重要。因此,未来的工作将侧重于结合专家评级,以进一步完善数据集并增强其实用性。总体而言,该数据集代表了人工智能驱动的时装设计的重大进步,为行业进一步研究和应用提供了宝贵的资源。
未来工作
-
目前正在创建 Hugging Face 数据集,以便研究人员和开发人员更轻松地访问和使用 Prompt2Fashion 数据集。Hugging Face 上的数据集将包括图像、其相应的描述和元数据,从而实现与机器学习框架和工具的无缝集成。
-
为了进一步帮助用户浏览和使用 Prompt2Fashion 数据集,我们还将提供 Excel 指南。该指南将结合描述和图像,提供一种便捷的方式来探索数据集。Excel 文件中的每个条目将包括:
-
生成的图像。
-
相关描述。
-
元数据,例如使用的模型(Mistral 或 Falcon)、风格类别和评估分数(如适用)。
-
相关文章:

新个性化时尚解决方案!Prompt2Fashion:自动生成多风格、类型时尚图像数据集。
今天给大家介绍一种自动化生成时尚图像数据的方法Prompt2Fashion。 首先创建了一组描述,比如“适合婚礼的休闲风格服装”,然后用这些描述来指导计算机生成图像。具体来说,他们使用了大型语言模型来写出这些服装的描述,接着将这些描…...

软件设计师——计算机网络
📔个人主页📚:秋邱-CSDN博客☀️专属专栏✨:软考——软件设计师🏅往期回顾🏆:软件设计师——操作系统🌟其他专栏🌟:C语言_秋邱 一、OSI/ RM七层模型(⭐⭐⭐)…...
Python 实现电话号码和Email地址提取程序
Python 实现电话号码和Email地址提取程序 背景 在日常工作或学习中,我们经常需要从网页或文档中提取信息,比如电话号码和E-mail地址。手动查找和提取这些信息可能会耗费大量时间,而自动化工具可以帮助我们快速完成这个任务。 本篇博客将带…...

JavaGuide(3)
一、项目背景与简介 JavaGuide由GitHub用户Snailclimb开发并维护,是一个全面而深入的Java学习资源库。它旨在为Java初学者和有经验的开发者提供一个系统的学习路径和丰富的资源,帮助他们系统地学习和巩固Java及相关技术知识。 二、项目内容与特点 Jav…...
微信小程序15天
UniApp(Vue3组合式API)和微信小程序15天学习计划 第1天:开发环境配置和基础知识 UniApp和微信小程序概述及对比安装并配置HBuilderX(UniApp)和微信开发者工具创建第一个UniApp Vue3项目和微信小程序项目了解两个平台的项目结构差异配置外部浏览器和各种小程序模拟…...
用Python制作数据可视化仪表盘:使用Dash与Plotly构建实时交互式仪表盘
解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 在数据驱动的世界中,可视化是理解和解释复杂数据的关键工具。通过数据可视化,用户能够快速洞察数据趋势,做出明智决策。而仪表盘作为一种高度集成的可视化工具,能够将多种数据图表汇总到一个界面上,便于实时…...

干部管理系统:全面提升干部管理效能
数字化浪潮下,干部管理系统作为管理利器,日益凸显其核心价值。该系统全面实现干部信息的数据化,涵盖从基础档案到教育、工作、培训及考核等全方位细节,信息详尽且条理清晰。这不仅极大提升了干部信息查询与更新的效率,…...
Java之方法
方法(函数) Java中的方法必须定义在类或接口中。 package day2;import java.util.Scanner;public class way {public static void main(String[] args) {int arr[] new int[5];Scanner sc new Scanner(System.in);for (int i 0; i < arr.length;…...
MyBatis 数据表与实体映射的隐藏陷阱
这两天在处理一个线上问题时,发现Mybatis数据表和实体映射的时候会埋一个坑。这个问题看似微小,但却可能在关键时刻给我们带来不小的困扰。接下来,让我们深入剖析这个问题,并探究其发生的根源。 一、问题描述 我们在使用 Mybati…...
leetcode-239. 滑动窗口最大值
题目描述 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1: 输入:nums [1,3,-1,-3,5,3,6,…...

springboot项目中开启mybatis的sql日志
在 application.yml 文件中 添加 mybatis-plus 配置,再重启项目,这里用到了mybatis-plus的自带sql日志打印 # application-jdbc.yml mybatis-plus:configuration:log-impl: org.apache.ibatis.logging.stdout.StdOutImpl如果只是用的mybatis的话&#x…...

卷积的计算——nn.Conv2d(Torch.nn里的Convolution Layers模块里的Conv2d类)
**前置知识: 1、张量和通道 张量:多维数组,用来表示数据(图像、视频等) 通道:图像数据的一部分,表示不同的颜色或特征层 通道只是张量的其中一个维度 以一张RGB图像为例, 该图像…...

确保接口安全:六大方案有效解决幂等性问题
文章目录 六大方案解决接口幂等问题什么是接口幂等?天然幂等不做幂等会怎么样? 解决方案1)insert前先select2)使用唯一索引3)去重表加悲观锁4)加乐观锁之版本号机制5)使用 Redisson 分布式锁6&a…...
代码随想录算法训练营第二十九天| 93. 复原 IP 地址,78. 子集, 90. 子集 II
93. 复原 IP 地址,78. 子集, 90. 子集 II 93. 复原 IP 地址78. 子集90. 子集 II 93. 复原 IP 地址 有效 IP 地址 正好由四个整数(每个整数位于 0 0 0 到 255 255 255之间组成,且不能含有前导 0 0 0),整…...

【WebGis开发 - Cesium】三维可视化项目教程---初始化场景
系列文章目录 【WebGis开发 - Cesium】三维可视化项目教程—图层管理基础【WebGis开发 - Cesium】三维可视化项目教程—视点管理 目录 系列文章目录引言一、Cesium引入项目1.1 下载资源1.2 项目引入Cesium 二、初始化地球2.1 创建基础文件2.1.1 创建Cesium工具方法文件2.1.2 创…...

点云中ICP算法的详解
ICP(Iterative Closest Point)算法是一种用于刚性点云配准的经典算法。其核心思想是通过迭代地寻找两个点云之间的最近点对,并计算最优的刚性变换(包括旋转和平移),使得源点云在目标点云的坐标系下对齐。IC…...

抽象类Abstart Class
抽象类其实就是一种不完全的设计图 必须用abstract修饰 模板方法:建议使用final修饰,不能被重写。...

Redis:通用命令 数据类型
Redis:通用命令 & 数据类型 通用命令SETGETKEYSEXISTSDELEXPIRETTLTYPEFLUSHALL 数据类型 Redis的客户端提供了很多命令用于操控Redis,在Redis中,key的类型都是字符串,而value有多种类型,每种类型都有自己的操作命…...
【Python高级编程】探索Python库:创建引人入胜的交互界面
1.制作交互界面常用到的库 在 Python 中,有多个库可以用于创建交互界面(GUI)。 以下是一些常用的 Python GUI 库: Tkinter: Python 的标准 GUI 库,通常随 Python 一起安装。简单易用,适合快速开发小型应用…...

OpenCV Canny()函数
OpenCV Canny()函数被用来检测图像物体的边缘。其算法原理如下: 高斯滤波:使用高斯滤波器平滑图像以减少噪声。高斯滤波器是一种线性滤波器,可以消除图像中的高频噪声,同时保留边缘信息。计算梯度强度和方向:使用Sobe…...
uniapp 对接腾讯云IM群组成员管理(增删改查)
UniApp 实战:腾讯云IM群组成员管理(增删改查) 一、前言 在社交类App开发中,群组成员管理是核心功能之一。本文将基于UniApp框架,结合腾讯云IM SDK,详细讲解如何实现群组成员的增删改查全流程。 权限校验…...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)
题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...

如何在看板中体现优先级变化
在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...
【git】把本地更改提交远程新分支feature_g
创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

ios苹果系统,js 滑动屏幕、锚定无效
现象:window.addEventListener监听touch无效,划不动屏幕,但是代码逻辑都有执行到。 scrollIntoView也无效。 原因:这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作,从而会影响…...
重启Eureka集群中的节点,对已经注册的服务有什么影响
先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...
PostgreSQL——环境搭建
一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在࿰…...

c++第七天 继承与派生2
这一篇文章主要内容是 派生类构造函数与析构函数 在派生类中重写基类成员 以及多继承 第一部分:派生类构造函数与析构函数 当创建一个派生类对象时,基类成员是如何初始化的? 1.当派生类对象创建的时候,基类成员的初始化顺序 …...

windows系统MySQL安装文档
概览:本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容,为学习者提供全面的操作指导。关键要点包括: 解压 :下载完成后解压压缩包,得到MySQL 8.…...