使用黑森林实验室发布的Flux.1 文生图模型进行 UI 创作以及 PS 操作

我们前期介绍了黑森林实验室发布的 Flux.1 文生图大模型,其模型是一个扩散模型。扩散模型通过迭代细化噪声图像来生成最终图像。这种去噪过程使扩散模型能够创建更连贯、更逼真的图像,因为扩散是一个多步骤过程,这与 GAN(生成对抗网络)或 VAE(变分自动编码器)等以前的生成模型不同。Flux AI 图像生成模型通过引入流匹配和时间戳采样等概念,对这种方法进行了重大改进,提供了一组独特的功能,可提高图像质量和生成速度。

FLUX.1 发布了多个版本:Flux 1.1 Pro Ultra,FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]以及应用于图片编辑的FLUX.1 Fill,FLUX.1 Depth,FLUX.1 Canny,FLUX.1 Redux。
Flux 1.1 Pro Ultra: Flux1.1 Pro 是 Black Forest Labs 提供的旗舰型号。它旨在创建高分辨率图像,非常适合需要精细细节和清晰视觉效果的任务。此版本针对图像清晰度和精度至关重要的场景进行了优化,例如广告、印刷媒体以及艺术图片等。
Flux .1 Pro:Flux.1 Pro 是一款高性能模型,它针对更广泛的专业应用进行了优化,这些应用对极端细节和分辨率的要求并不像艺术图片等领域那么严格。这两款专业模型都只能通过其 API 使用,权重托管在 Replicate、Fal AI 和 Mystic AI 等平台上。

Flux .1 Dev:FLUX.1 [dev] 是一种开放权重的模型,适用于非商业应用。FLUX.1 [dev] 直接从 FLUX.1 [pro] 提炼而来,具有相似的质量和及时处理能力,同时比同等大小的标准模型更高效。FLUX.1 [dev] 权重可在HuggingFace上使用,并可直接在Replicate或Fal.ai上使用。
Flux .1 Schnell:此变体模型是所有其他变体中速度最快的,与 Flux.1 Dev 模型类似,Flux.1 Schnell 模型也是开源的,可在 HuggingFace 上根据 Apache 2.0 获得许可。对于那些想要在本地机器上执行生成式 AI 图片的人来说,它可以使用最快的速度以及最少的硬件资源来实现。

虽然是开源模型,但是 pro 版本的模型需要使用黑森林实验室的 API 使用,其模型权重并没有开放,但是大家可以使用 dev版本的模型进行代码实现,其代码也是开源代码,也可以直接使用 hugging face 的库进行实现,其代码如下:
from diffusers import FluxPipeline
pipe = FluxPipeline.from_pretrained("black-forest-labs/FLUX.1-dev", torch_dtype = torch.bfloat16)
pipe.to("cuda")
prompt = """这里添加图片的描述信息"""
image = pipe(prompt,height=1024,width=1024,guidance_scale=1.0,num_inference_steps=30,max_sequence_length=512,generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("flux-dev.png")

这里使用 flux 的文生图模型,来设计音乐播放器或者其他 UI 设计界面还是比较容易实现的,当然黑森林实验室也发布了 flux tools 工具来进行图片的 Ps 操作,话说使用AI 进行 PS 简直不要太爽。

FLUX.1 Fill,FLUX.1 Depth,FLUX.1 Canny,FLUX.1 Redux四个模型主要用于图片的编辑工作。
FLUX.1 fill:最先进的修复模型,可以根据文本描述和二进制掩码编辑或者扩展输入图像以便生成最终的图像。超越了现有工具(如 Ideogram 2.0)和其他开源模型(如 AlimamaCreative 的
FLUX-Controlnet-Inpainting)。FLUX.1 fill允许无缝编辑,与现有图像自然融合效果出色。

其模型支持局部绘画,并支持图片的扩展功能,大白话就是输入一个局部的图片,模型自动补充其他地方的图片,以便生成完整的图像。

FLUX.1 Depth:根据从输入图像和文本提示中提取深度图训练模型,以实现结构化图片的输出。
FLUX.1 Canny:经过训练的模型,可根据从输入图像和文本提示中提取图片的 Canny 边缘,以便实现结构引导。
通过以上 2 个模型,可以实现通过边缘或深度图保留原始图像的结构,用户可以进行文本引导编辑,同时保持核心构图的完整。

FLUX.1 Redux:允许根据输入图像和文本提示重新创建新的图片,当然图片主体不会进行大的 变化。也可以根据输入文本提示进行图片主体位置的调整以及方向方位的调整等。其生成的图片与输入图片类似,更新处不是太明显

其几个 tools 工具模型也是开源的模型,可以直接在 GitHub 上面找到,也可以使用 hugging face 的代码实现:
pip install -U diffusers
import torch
from diffusers import FluxFillPipeline
from diffusers.utils import load_image
image = load_image("cup.png")
mask = load_image("cup_mask.png")
pipe = FluxFillPipeline.from_pretrained("black-forest-labs/FLUX.1-Fill-dev", torch_dtype=torch.bfloat16).to("cuda")
image = pipe(prompt="a white paper cup",image=image,mask_image=mask,height=1632,width=1232,guidance_scale=30,num_inference_steps=50,max_sequence_length=512,generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save(f"flux-fill-dev.png")

https://github.com/black-forest-labs/flux
https://blackforestlabs.ai/announcing-black-forest-labs/
https://huggingface.co/black-forest-labs/FLUX.1-Fill-dev更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
动画详解transformer 在线教程

相关文章:
使用黑森林实验室发布的Flux.1 文生图模型进行 UI 创作以及 PS 操作
我们前期介绍了黑森林实验室发布的 Flux.1 文生图大模型,其模型是一个扩散模型。扩散模型通过迭代细化噪声图像来生成最终图像。这种去噪过程使扩散模型能够创建更连贯、更逼真的图像,因为扩散是一个多步骤过程,这与 GAN(生成对抗…...
React Native 0.78新特性
此版本在 React Native 中发布了 React 19,以及其他相关功能,例如对 Android Vector drawables 的原生支持以及对 iOS 的更好的 Brownfield 集成。 亮点 React 19 React 19 现在可在 React Native 上使用!React 19 需要更新您的应用,因为我们从 React 18 引入了一些更改…...
11.24 SpringMVC(1)@RequestMapping、@RestController、@RequestParam
一.RequestMapping("/user")//HTTP 请求方法既支持get也支持post,可表示为类路径与方法路径 二.RequestMapping(value "/m7", method {RequestMethod.POST, RequestMethod.GET}) value这个参数指定了请求的 URL 路径。method 参数指定了允许…...
webstorm的Live Edit插件配合chrome扩展程序JetBrains IDE Support实现实时预览html效果
前言 我们平时在前端网页修改好代码要点击刷新再去看修改的效果,这样比较麻烦,那么很多软件都提供了实时预览的功能,我们一边编辑代码一边可以看到效果。下面说的是webstorm。 1 Live Edit 首先我们需要在webstorm的settings里安装插件Live …...
ROS环境搭建
ROS首次搭建环境 注:以下内容都是在已经安装好ros的情况下如何搭建workplace 一、创建工作空间二、创建ROS包三、注意 注:以下内容都是在已经安装好ros的情况下如何搭建workplace 如果没有安装好,建议鱼香ros一步到位:鱼香ROS 我也是装了好久…...
Cherry Studio + 火山引擎 构建个人AI智能知识库
🍉在信息化时代,个人知识库的构建对于提高工作效率、知识管理和信息提取尤为重要。尤其是当这些知识库能结合人工智能来智能化地整理、分类和管理数据时,效果更为显著。我最近尝试通过 Cherry Studio 和 火山引擎 来搭建个人智能知识库&#…...
Spring Boot 与 MyBatis 版本兼容性
初接触Spring Boot,本次使用Spring Boot版本为3.4.3,mybatis的起步依赖版本为3.0.0,在启动时报错,报错代码如下 org.springframework.beans.factory.BeanDefinitionStoreException: Invalid bean definition with name userMapper…...
《 C++ 点滴漫谈: 二十九 》风格 vs. C++ 风格:类型转换的对决与取舍
摘要 类型转换是 C 编程中的重要机制,用于在不同数据类型之间进行安全高效的转换。本博客系统介绍了 C 提供的四种类型转换运算符(static_cast、dynamic_cast、const_cast 和 reinterpret_cast)的用法及适用场景,分析了它们相较于…...
AI预测福彩3D新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月3日第11弹
前面由于工作原因停更了很长时间,停更期间很多彩友一直私信我何时恢复发布每日预测,目前手头上的项目已经基本收尾,接下来恢复发布。当然,也有很多朋友一直咨询3D超级助手开发的进度,在这里统一回复下。 由于本人既精…...
ArcGIS Pro高级应用:高效生成TIN地形模型
一、引言 在地理信息科学与遥感技术的快速发展背景下,数字高程模型(DEM)已成为地形表达与分析的关键工具。 三角网(TIN)作为DEM的一种重要形式,因其能够精准描绘复杂地形特征而广受青睐。 ArcGIS Pro为用…...
【学术会议论文投稿】Spring Boot实战:零基础打造你的Web应用新纪元
第七届人文教育与社会科学国际学术会议(ICHESS 2024)_艾思科蓝_学术一站式服务平台 更多学术会议请看:https://ais.cn/u/nuyAF3 目录 一、Spring Boot简介 1.1 Spring Boot的诞生背景 1.2 Spring Boot的核心特性 二、搭建开发环境 2.1…...
OpenWebUI提示器:Prompt工程的“智能助手”还是“自动化革命”?
引言:当AI对话成为日常,如何让模型更懂你? 在AI技术爆炸式发展的今天,从写邮件到生成代码,大型语言模型(如ChatGPT、Claude等)已深入日常场景。但你是否遇到过这样的问题? “为什么…...
Spring Boot 异步编程深入剖析
Spring Boot 异步编程深入剖析 1. 异步方法的使用 原理深度解析 Spring Boot 的异步方法基于 Spring 的 AOP(面向切面编程)实现。当在方法上添加 Async 注解时,Spring 会为该方法所在的类创建一个代理对象。当调用该异步方法时,…...
使用pyinstaller和tinyaes,对加密文件文件源码进行打包
使用pyinstaller和tinyaes,对加密文件文件源码进行打包 winr后,进入cmd命令行 1. 安装虚拟环境 pip install virtualenv pip install virtualenvwrapper-win2. 制作虚拟环境 mkvirtualenv -p"你的Python解释器地址" py版本号 例如ÿ…...
分布式和微服务的理解
分布式系统 概念:分布式系统是由多个通过网络连接的节点组成的系统,这些节点分布在不同的地理位置或计算机上,它们相互协作,共同完成一个或多个任务,对用户或外部系统而言,就好像是一个单一的、统一的系统…...
麒麟V10-SP2-x86_64架构系统下通过KVM创建虚拟机及配置虚机的NAT、Bridge两种网络模式全过程
文章目录 一、什么是虚拟化?虚拟化具有哪些优势 二、常见的虚拟化技术1、kvm介绍2、kvm工作原理3、kvm功能 三、安装kvm并启动第一个kvm机器1、环境准备2、安装kvm工具3、启动并设置开机自启 libvirtd 服务4、验证 KVM 模块是否加载5、上传系统镜像到指定目录6、网络…...
watchEffect的用法
watchEffect的用法 watchEffect的回调方法里,用到了哪个属性,就监视哪个属性 let temp 0; let height 0; watchEffect(()>{if(temp.value > 60 || height.value > 80){console.log(给服务器发请求)} })...
第15届 蓝桥杯 C++编程青少组中级省赛 202408 真题答案及解析
第 1 题 【 单选题 】 定义 char a[]="hello\nworld",执行 cout<<a,输出结果是( ) A:helloworld B: hello world C:hellonworld D:hello\nworld 解析: 转义字符的作用 \n 是换行符,会被编译器解析为换行操作,而非直接输出字符 \n。 输出…...
扫描纸质文件转pdf---少页数+手机+电脑协作
针对手机上扫描软件扫描文件转pdf要收费的问题,提供一种在页数较少时的免费替代方案 。 实现方法:手机软件的免费功能将文件扫描并保存为图片电脑端在word中将图片拼成文档word转pdf 1.借助于“扫描全能王”APP可以免费扫描文件为图片的功能࿰…...
大模型巅峰对决:DeepSeek vs GPT-4/Claude/PaLM-2 全面对比与核心差异揭秘
文章目录 一、架构设计深度解剖1.1 核心架构对比图谱1.2 动态MoE架构实现架构差异分析表 二、训练策略全面对比2.1 训练数据工程对比2.2 分布式训练代码对比DeepSeek混合并行实现GPT-4 Megatron实现对比 2.3 关键训练参数对比 三、性能表现多维评测3.1 基准测试全景对比3.2 推理…...
XiaoMusic:让小爱音箱突破音乐限制的开源解决方案
XiaoMusic:让小爱音箱突破音乐限制的开源解决方案 【免费下载链接】xiaomusic 使用小爱音箱播放音乐,音乐使用 yt-dlp 下载。 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaomusic 你是否遇到过这样的困扰:想听的歌曲在各大…...
终极Cinder着色器编程指南:7个GLSL视觉效果开发技巧
终极Cinder着色器编程指南:7个GLSL视觉效果开发技巧 【免费下载链接】Cinder Cinder is a community-developed, free and open source library for professional-quality creative coding in C. 项目地址: https://gitcode.com/gh_mirrors/ci/Cinder Cinder…...
镜头背后的AI魔法:Qwen-Edit多角度编辑技术的深度探索
镜头背后的AI魔法:Qwen-Edit多角度编辑技术的深度探索 【免费下载链接】Qwen-Edit-2509-Multiple-angles 项目地址: https://ai.gitcode.com/hf_mirrors/dx8152/Qwen-Edit-2509-Multiple-angles 问题溯源:当静态图像遇见动态视角需求 在博物馆的…...
4款GitHub热门浏览器自动化工具横向评测:哪款最适合你的开发需求?
4款GitHub热门浏览器自动化工具横向评测:哪款最适合你的开发需求? 在数字化转型浪潮中,浏览器自动化已成为提升开发效率的关键技术。无论是日常的数据采集、自动化测试,还是复杂的AI代理交互,选择一款合适的工具往往能…...
开源工具:IDM Activation Script彻底解决激活弹窗问题的技术方案
开源工具:IDM Activation Script彻底解决激活弹窗问题的技术方案 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script Internet Download Manager…...
TempleOS 技术解析:从神圣代码到单地址空间设计的独特哲学
1. TempleOS的诞生:当代码遇见信仰 第一次听说TempleOS时,我正泡在技术论坛里闲逛。这个操作系统的名字就透着股神秘感——"神殿操作系统"。点开详细介绍后更震惊了:这居然是一个程序员声称按照"上帝指示"开发的系统&…...
5分钟掌握PESQ:Python语音质量评估终极指南
5分钟掌握PESQ:Python语音质量评估终极指南 【免费下载链接】PESQ PESQ (Perceptual Evaluation of Speech Quality) Wrapper for Python Users (narrow band and wide band) 项目地址: https://gitcode.com/gh_mirrors/pe/PESQ 想要客观评估语音处理算法效果…...
千问3.5-2B实战案例:直播截图实时分析→商品链接提取→竞品价格对比→话术生成
千问3.5-2B实战案例:直播截图实时分析→商品链接提取→竞品价格对比→话术生成 1. 项目背景与价值 在电商直播场景中,运营团队面临三个核心痛点: 直播过程中无法实时监测竞品价格动态人工记录商品信息效率低下且容易出错话术调整滞后于市场…...
it-tools:Docker一键部署,中文界面即开即用
1. 为什么选择Docker部署it-tools? 最近在帮团队搭建开发环境时,发现很多同事都在反复安装各种零散的小工具——JSON格式化、时间戳转换、密码生成器...既占用本地资源又难以统一管理。直到发现了it-tools这个神器,它把200实用工具打包成Web应…...
别再用asyncio硬扛高并发了!无GIL环境下Python原生多线程性能翻倍的6个核心调优参数
第一章:Python无锁GIL环境下的并发模型演进全景Python长期以来受全局解释器锁(GIL)制约,导致多线程无法真正并行执行CPU密集型任务。近年来,随着CPython 3.12正式引入实验性“无GIL构建选项”(--without-py…...
