当前位置：首页 > news >正文

本地部署推理TextDiffuser-2：释放语言模型用于文本渲染的力量

news 2026/2/9 5:14:47

系列文章目录

文章目录

系列文章目录
一、模型下载和环境配置
二、模型训练
- （一）训练布局规划器
- （二）训练扩散模型
三、模型推理
- （一）准备训练好的模型checkpoint
- （二）全参数推理
- （三）LoRA微调推理
四、遇到的错误
- （一）importerror，缺少某些库
- （二）报错：libGL.so.1: cannot open shared object file: No such file or directory
- （三）各种奇奇怪怪的错误（本质上是diffusers版本不对）
- （四）各种库的版本不兼容
- （五）RuntimeError: expected scalar type float Float bu found Half

一、模型下载和环境配置

将textdiffuser-2模型仓库克隆到本地

git clone https://github.com/microsoft/unilm/
cd unilm/textdiffuser-2

创建并激活虚拟环境，在textdiffuser-2目录下安装需要的软件包

conda create -n textdiffuser2 python=3.8
conda activate textdiffuser2
pip install -r requirements.txt

安装与系统版本和cuda版本相匹配的torch、torchvision、xformers （我的环境下cuda是12.2的，其他版本需要自己去官网查询）

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xformers

如果想用FastChat训练布局规划器，还需要安装flash-attention：

先将flash-attention模型仓库克隆下来

git clone https://github.com/Dao-AILab/flash-attention.git

然后安装对应的软件包

pip install packaging
pip uninstall -y ninja && pip install ninja
conda install -c nvidia cuda
pip install flash-attn --no-build-isolation

为了训练文本修复任务，还需要安装 differs 包

pip install https://github.com/JingyeChen/diffusers_td2.git

二、模型训练

（一）训练布局规划器

需要先下载lmsys/vicuna-7b-v1.5模型和FastChat模型。

模型下载方式： 采用git远程clone下来，具体方式可以参考之前的内容：huggingface学习 | 云服务器使用git-lfs下载huggingface上的模型文件；

进行训练

CUDA_VISIBLE_DEVICES=4,5 torchrun --nproc_per_node=2 --master_port=50008 FastChat-main/fastchat/train/train_mem.py \--model_name_or_path vicuna-7b-v1.5  \--data_path data/layout_planner_data_5k.json \--bf16 True \--output_dir experiment_result \--num_train_epochs 6 \--per_device_train_batch_size 2 \--per_device_eval_batch_size 2 \--gradient_accumulation_steps 16 \--evaluation_strategy "no" \--save_strategy "steps" \--save_steps 500 \--save_total_limit 5 \--learning_rate 2e-5 \--weight_decay 0. \--warmup_ratio 0.03 \--lr_scheduler_type "cosine" \--logging_steps 1 \--fsdp "full_shard auto_wrap" \--fsdp_transformer_layer_cls_to_wrap 'LlamaDecoderLayer' \--tf32 True \--model_max_length 2048 \--gradient_checkpointing True \--lazy_preprocess True

（二）训练扩散模型

需要先准备需要训练的扩散模型：stable-diffusion-v1-5模型
对于全参数训练：

accelerate launch train_textdiffuser2_t2i_full.py \--pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \--train_batch_size=18 \--gradient_accumulation_steps=4 \--gradient_checkpointing \--mixed_precision="fp16" \--num_train_epochs=6 \--learning_rate=1e-5 \--max_grad_norm=1 \--lr_scheduler="constant" \--lr_warmup_steps=0 \--output_dir="diffusion_experiment_result" \--enable_xformers_memory_efficient_attention \--dataloader_num_workers=8 \--index_file_path='/path/to/train_dataset_index.txt' \--dataset_path='/path/to/laion-ocr-select/' \--granularity=128 \--coord_mode="ltrb" \--max_length=77 \--resume_from_checkpoint="latest"

对于 LoRA 训练：

accelerate launch train_textdiffuser2_t2i_lora.py \--pretrained_model_name_or_path="runwayml/stable-diffusion-v1-5" \--train_batch_size=18 \--gradient_accumulation_steps=4 \--gradient_checkpointing \--mixed_precision="fp16" \--num_train_epochs=6 \--learning_rate=1e-4 \--text_encoder_learning_rate=1e-5 \--lr_scheduler="constant" \--output_dir="diffusion_experiment_result" \--enable_xformers_memory_efficient_attention \--dataloader_num_workers=8 \--index_file_path='/path/to/train_dataset_index.txt' \--dataset_path='/path/to/laion-ocr-select/' \--granularity=128 \--coord_mode="ltrb" \--max_length=77 \--resume_from_checkpoint="latest"

三、模型推理

（一）准备训练好的模型checkpoint

下载官网提供的模型checkpoint：layout planner、diffusion model (full parameter fine-tuning) 和diffusion model (lora fine-tuning)
准备stable-diffusion-v1-5模型

（二）全参数推理

CUDA_VISIBLE_DEVICES=4 accelerate launch inference_textdiffuser2_t2i_full.py \--pretrained_model_name_or_path="./stable-diffusion-v1-5" \--mixed_precision="fp16" \--output_dir="inference_results_1" \--enable_xformers_memory_efficient_attention \--resume_from_checkpoint="./textdiffuser2-full-ft" \--granularity=128 \--max_length=77 \--coord_mode="ltrb" \--cfg=7.5 \--sample_steps=20 \--seed=43555 \--m1_model_path="./textdiffuser2_layout_planner" \--input_format='prompt' \--input_prompt='a hotdog with mustard and other toppings on it'

推理结果：
在这里插入图片描述

（三）LoRA微调推理

CUDA_VISIBLE_DEVICES=4 accelerate launch inference_textdiffuser2_t2i_lora.py \--pretrained_model_name_or_path="./stable-diffusion-v1-5" \--gradient_accumulation_steps=4 \--gradient_checkpointing \--mixed_precision="fp16" \--output_dir="inference_results_2" \--enable_xformers_memory_efficient_attention \--resume_from_checkpoint="./textdiffuser2-lora-ft" \--granularity=128 \--coord_mode="ltrb" \--cfg=7.5 \--sample_steps=50 \--seed=43555 \--m1_model_path="./textdiffuser2_layout_planner" \--input_format='prompt' \--input_prompt='a stamp of u.s.a'

运行结果：
在这里插入图片描述

四、遇到的错误

（一）importerror，缺少某些库

在运行过程中出现了各种各样的importerror，于是就是缺少哪个库就下载那个库：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple opencv-python

pip install protobuf

（二）报错：libGL.so.1: cannot open shared object file: No such file or directory

pip uninstall opencv-python
pip install opencv-python-headless

（三）各种奇奇怪怪的错误（本质上是diffusers版本不对）

RuntimeError: expected mat1 and mat2 to have the same dtype, but got: float != c10::Half
The deprecation tuple (‘LoRAXFormersAttnProcessor’, ‘0.26.0’, 'Make sure use XFormersAttnProcessor instead by settingLoRA layers to `self.

pip install diffusers==0.24.0 -i https://pypi.mirrors.ustc.edu.cn/simple/

（四）各种库的版本不兼容

由于作者在官网上提供了实验中使用的软件包列表可供参考，所以我直接将textdiffuser-2的assets文件夹下的refere_requirements.txt文件中的库一次性安装下来：

cd assets
pip install -r reference_requirements.txt -i https://pypi.mirrors.ustc.edu.cn/simple/

在这里插入图片描述

（五）RuntimeError: expected scalar type float Float bu found Half

这个错误是因为安装的diffusers包里有个文件需要用官网提供的新文件进行替换
可以先根据错误提示找到diffusers库包中attention_processor.py所在的位置，然后用assets文件夹下attention_processor.py进行替换即可解决问题。

在这里插入图片描述

参考：libGL.so.1: cannot open shared object file: No such file or directory

本地部署推理TextDiffuser-2：释放语言模型用于文本渲染的力量

系列文章目录文章目录系列文章目录一、模型下载和环境配置二、模型训练（一）训练布局规划器（二）训练扩散模型三、模型推理（一）准备训练好的模型checkpoint（二）全参数推理&#xff…...

编程日记 2024/3/12 2:52:52

设计模式: 模板方法模式

文章目录一、什么是模板方法模式二、模板方法模式结构三、优点一、什么是模板方法模式模板方法模式（Template Method Pattern）是一种行为设计模式，它定义了一个操作中的算法骨架，将一些步骤延迟到子类中实现。这样可以使得子类…...

编程日记 2024/3/12 2:51:51

C++ 打印输出十六进制数指定占位符前面填充0

C 打印十六进制数据，指定数据长度，前面不够时，补充0. 代码如下： #include <iostream> #include <iomanip> #include <cmath>using namespace std;int main() {unsigned int id 0xc01;unsigned int testCaseId…...

编程日记 2024/3/12 2:48:47

基于 Win Server 2008 复现 IPC$ 漏洞

写在前面本篇博客演示了使用 winXP（配合部分 win10 的命令）对 win server 2008 的 IPC$ 漏洞进行内网渗透，原本的实验是要求使用 win server 2003，使用 win server 2003 可以规避掉很多下面存在的问题，建议大家使用 …...

编程日记 2024/3/12 2:43:44

HTML笔记2

11，路径 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Document</title> <…...

编程日记 2024/3/12 2:33:32

使用Docker实现Jenkins+Python + Pytest +Allure 接口自动化

一、Jenkins搭建参考《Docker 安装 Jenkins》进入 jenkins 容器 CLI 界面 docker exec -itu root jenkins /bin/bash二、准备条件 1、替换镜像内源为了安装wget，默认用yum会安装不上wget命令，参考文章《docker容器内如何更换yum源【只想换成国内…...

编程日记 2024/3/12 2:31:30

论企业安全漏洞扫描的重要性

前言随着信息技术的迅猛发展和互联网的广泛普及，网络安全问题日益凸显。在这个数字化的世界里，无论是企业还是个人，都面临着前所未有的安全威胁。安全漏洞，作为这些威胁的源头，常常被忽视或无法及时发现。而安全漏洞…...

编程日记 2024/3/12 2:29:28

23.网络游戏逆向分析与漏洞攻防-网络通信数据包分析工具-实现配置工具数据结构

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 如果看不懂、不知道现在做的什么，那就跟着做完看效果内容参考于：易道云信息技术研究院VIP课上一个内容：22.加载配置文件…...

编程日记 2024/3/12 2:28:26

STM32CubeMX学习笔记20——SD卡FATFS文件系统

1. FATFS文件系统简介文件系统是操作系统用于明确存储设备或分区上的文件的方法和数据结构（即在存储设备上组织文件的方法）。操作系统中负责管理和存储文件信息的软件机构称为文件管理系统，简称文件系统；不带文件系统的SD卡仅能…...

编程日记 2024/3/12 2:26:24

Facebook商城号为什么被封？如何防封？

由于Facebook商城的高利润空间，越来越多的跨境电商商家注意到它的存在。Facebook作为全球最大、用户量最大的社媒平台，同时也孕育了一个巨大的商业生态，包括广告投放、商城交易等。依托背后的大流量，Facebook商城起号较快&#xf…...

编程日记 2024/3/12 2:25:23

【教程】APP备案全攻略：确保你的应用合规上线

【教程】APP备案全攻略：确保你的应用合规上线摘要本文详细介绍了中国大陆地区互联网信息服务提供者（AP）进行APP备案的流程、要求和注意事项。包括备案对象、备案方式、备案内容、备案流程等方面的详细说明，帮助开发者顺利完成…...

编程日记 2024/3/12 2:24:22

Vue入门2

v-model 原理：v-model本质上是一个语法糖。例如应用于输入框，就是value属性和input事件的合写。作用：提供数据的双向绑定数据变，视图跟着变 :value视图变，数据跟着变 input 注意：$event用于在模板中&…...

编程日记 2024/3/12 2:20:18

简介：CMMI软件能力成熟度集成模型

前言 CMMI是英文Capability Maturity Model Integration的缩写。 CMMI认证简称软件能力成熟度集成模型，是鉴定企业在开发流程化和质量管理上的国际通行标准，全球软件生产标准大都以此为基点，并都努力争取成为CMMI认证队伍中的一分子。对一个…...

编程日记 2024/3/12 2:18:15

mysql的其他问题

1.MySQL数据库作发布系统的存储，一天五万条以上的增量，预计运维三年,怎么优化？ a. 设计良好的数据库结构，允许部分数据冗余，尽量避免join查询，提高效率。 b. 选择合适的表字段数据类型和存储引擎&#xf…...

编程日记 2024/3/12 2:17:14

数据结构---复杂度（2）

1.斐波那契数列的时间复杂度问题每一行分别是2^0---2^1---2^2-----2^3-------------------------------------------2^(n-2) 利用错位相减法，可以得到结果是，2^(n-1)-1,其实还是要减去右下角的灰色部分，我们可以拿简单的数字进行举例子&…...

编程日记 2024/3/12 2:11:08

【设计模式】设计原则和常见的23种经典设计模式

设计模式 1. 设计原则（记忆口诀：SOLID）【记忆口诀：单开里依接迪合（单开礼仪接地和）】 （1）单一职责原则（Single Responsibility Principle, SRP） &#xff…...

编程日记 2024/3/12 2:10:07

Spring Cloud Gateway自定义断言

问题：Spring Cloud Gateway自带的断言（Predicate）不满足业务怎么办？可以自定义断言！ 先看Spring Cloud Gateway是如何实现断言的 Gateway中断言的整体架构如下： public abstract class AbstractRoutePred…...

编程日记 2024/3/12 2:08:05

智能测径仪在胶管行业的应用

关键字：胶管外径尺寸测量，胶管检测仪器，胶管外径检测，高温胶管外径检测，软硬胶管检测， 智能测径仪在家胶管行业中的应用主要体现在对胶管外径的精确测量和控制上。在胶管生产过程中，外径的大小直…...

编程日记 2024/3/12 2:06:04

vue自定义主题皮肤方案

方案一：CSS变量换肤（推荐） 利用css定义变量的方法，用var在全局定义颜色变量（需将变量提升到全局即伪类选择器 :root）然后利用js操作css变量，document.getElementsByTagName(‘body’)[0].style…...

编程日记 2024/3/12 2:05:03

iOS中使用schema协议调用APP和使用iframe打开APP的例子

大家好我是咕噜美乐蒂，很高兴又和大家见面了！ 当调用自定义 URL scheme 或使用 iframe 打开应用程序时，可以采取以下详细步骤： 使用自定义 URL scheme 协议调用应用程序 1.首先，确认目标应用程序已经注册了自定义 U…...

编程日记 2024/3/12 2:02:00

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

🌟 什么是 MCP？ 模型控制协议 (MCP) 是一种创新的协议，旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议，它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。可以把它想象成你的 AI 模型和想要使用它…...

编程新知 2026/1/27 17:31:07

iPhone密码忘记了办？iPhoneUnlocker，iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享

平时用 iPhone 的时候，难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵，或者买了二手 iPhone 却被原来的 iCloud 账号锁住，这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

编程新知 2026/1/29 10:22:28

深入浅出Diffusion模型：从原理到实践的全方位教程

I. 引言：生成式AI的黎明 – Diffusion模型是什么？ 近年来，生成式人工智能（Generative AI）领域取得了爆炸性的进展，模型能够根据简单的文本提示创作出逼真的图像、连贯的文本，乃至更多令人惊叹的…...

编程新知 2025/9/12 5:25:46

SpringAI实战：ChatModel智能对话全解

一、引言：Spring AI 与 Chat Model 的核心价值 🚀 在 Java 生态中集成大模型能力，Spring AI 提供了高效的解决方案 🤖。其中 Chat Model 作为核心交互组件，通过标准化接口简化了与大语言模型（LLM&#xff0…...

编程新知 2025/9/27 0:41:04

HTTPS证书一年多少钱？

HTTPS证书作为保障网站数据传输安全的重要工具，成为众多网站运营者的必备选择。然而，面对市场上种类繁多的HTTPS证书，其一年费用究竟是多少，又受哪些因素影响呢？ 首先，HTTPS证书通常在PinTrust这样的专业平…...

编程新知 2026/1/24 23:35:51

CTF show 数学不及格

拿到题目先查一下壳，看一下信息发现是一个ELF文件，64位的用IDA Pro 64 打开这个文件然后点击F5进行伪代码转换可以看到有五个if判断，第一个argc ! 5这个判断并没有起太大作用，主要是下面四个if判断根据题目…...

编程新知 2026/2/8 17:00:05

Easy Excel

Easy Excel 一、依赖引入二、基本使用1. 定义实体类（导入/导出共用）2. 写 Excel3. 读 Excel 三、常用注解说明（完整列表）四、进阶：自定义转换器（Converter） 其它自定义转换器没生效 Easy Excel在…...

编程新知 2026/1/16 8:34:43

简约商务通用宣传年终总结12套PPT模版分享

IOS风格企业宣传PPT模版，年终工作总结PPT模版，简约精致扁平化商务通用动画PPT模版，素雅商务PPT模版简约商务通用宣传年终总结12套PPT模版分享:商务通用年终总结类PPT模版https://pan.quark.cn/s/ece1e252d7df...

编程新知 2026/2/8 13:56:36

MeanFlow：何凯明新作，单步去噪图像生成新SOTA

1.简介这篇文章介绍了一种名为MeanFlow的新型生成模型框架，旨在通过单步生成过程高效地将先验分布转换为数据分布。文章的核心创新在于引入了平均速度的概念，这一概念的引入使得模型能够通过单次函数评估完成从先验分布到数据分布的转换，显…...

编程新知 2026/2/8 19:03:34

【Linux】使用1Panel 面板让服务器定时自动执行任务

服务器就是一台24小时开机的主机，相比自己家中不定时开关机的主机更适合完成定时任务，例如下载资源、备份上传，或者登录某个网站执行一些操作，只需要编写脚本，然后让服务器定时来执行这个脚本就可以。有很多方法实现…...

编程新知 2026/2/5 8:55:31