当前位置：首页 > news >正文

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

news 2026/2/10 0:28:04

概述

Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46464 大小，从而极大地降低了计算量。它还利用了潜在表示空间（latent space）上的 Diffusion 过程，进一步降低了计算复杂度，同时也能保证较好的图像生成效果。在消费级GPU 上（8G显存），Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。

然而，对于许多面向消费者的应用来说，每张图像生成需要 4 秒的耗时仍然过长。这时候，TensorRT 就发挥了重要作用。TensorRT 是英伟达（NVIDIA）推出的高性能深度学习推理（inference）库，旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上，实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗，并支持在边缘设备上运行。

TensorRT 提供了许多优化技术，包括网络层融合（layer fusion）、内存优化、精度降级（precision calibration）、量化（quantization）和深度学习模型的裁剪（network pruning）。通过这些技术，TensorRT 可以最大限度地利用 GPU 的并行计算能力，实现深度学习模型的高效执行。

2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT，该插件可以直接在 webui 的 extension 中安装即可，默认支持cuda11.x。

环境配置要求

要使用Stable-Diffusion-WebUI-TensorRT插件加速，有几个重要的前提条件，GPU必须是NVIDIA的（俗称N卡），GPU的显存必须在8G以上，包含8G，GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练，建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5,2.1，SDXL，SDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo，官方推荐使用具有12GB 或更多 VRAM 的 GPU，以获得最佳性能。

在这里插入图片描述
查看GPU驱动版本：

查看内存与显卡型号：

我使用的环境是win10,GPU 3080 10G显存，32G内存，Stable Diffusion用的是秋叶大佬的4.5这个版本。

Stable-Diffusion-WebUI-TensorRT安装

1.安装

启动Stable-Diffusion-WebUI，找到扩展，然后从网址安装TensorRT插件：
插件网址：https://github.com/NVIDIA/Stable-Diffusion-WebUI-TensorRT.git 在这里插入图片描述
点击安装：

等侍2到10分钟，安装完成：

然后重启Stable-Diffusion-WebUI，就可以看到：
在这里插入图片描述

2.设置

打开设置——>用户界面——>快捷设置列表——>输入"sd_unet",然后保存设置，重载UI：
在这里插入图片描述
重启之后就可以看到多了一个SD Unet的选框了：

3.模型转换

选择要使用的模型，然后打开TensorRT——>TensorRT导出——>选择预设尺寸——>导出引擎:
在这里插入图片描述
关于导出尺寸，这是要设置不用尺寸，但尺寸大小只能是2的幕，这里面导出的模型为onnx模型，如果接触过深度学习的都清楚这个尺寸的含义。

4. 测试推理速度

使用TensorRT推理时，选择的模型与SD Unet要对应，出图的宽度与高度，也要对应上一步导出的模型的尺寸：
在这里插入图片描述

测试出图速度，使用TensorRT出图时，第一张图会很慢，要计算时间可以从第二张开始算，下面出图尺寸是1024*1024：

使用TensorRT推理：
在这里插入图片描述
不使用TensorRT推理，可以看出慢了2点几秒，差不多3秒：

使用TensorRT推理（出图尺寸512*512）：
在这里插入图片描述

不使用TensorRT推理（出图尺寸512*512），可以看出，不使用TensorRT差不多要慢上一倍左右：
在这里插入图片描述

相关文章：

Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

概述 Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512512 大小转换为更小的 46…...

编程日记 2024/2/19 16:20:27

NFTScan | 02.12~02.18 NFT 市场热点汇总

欢迎来到由 NFT 基础设施 NFTScan 出品的 NFT 生态热点事件每周汇总。周期：2024.02.12~ 2024.02.18 NFT Hot News 01/ CryptoPunks 推出「Punk in Residence」孵化器计划 2 月 12 日，NFT 项目 CryptoPunks 宣布推出「Punk in Residence」孵化器计划&a…...

编程日记 2024/2/19 16:19:26

使用 apt 源安装 ROCm 6.0.x 在Ubuntu 22.04.01

从源码编译 rocSolver 本人只操作过单个rocm版本的情景，20240218 ubuntu 22.04.01 1，卸载原先的rocm https://docs.amd.com/en/docs-5.1.3/deploy/linux/os-native/uninstall.html # Uninstall single-version ROCm packages sudo apt autoremove ro…...

编程日记 2024/2/19 16:17:23

python函数的定义和调用

1. 函数的基本概念在编程中，函数就像是一台机器，接受一些输入（参数），进行一些操作，然后产生输出（结果）。这让我们的代码更加模块化和易于理解。函数是一段封装了一系列语句的代码…...

编程日记 2024/2/19 16:13:18

【JVM篇】什么是类加载器，有哪些常见的类加载器

文章目录 🍔什么是类加载器🛸有哪些常见的类加载器 🍔什么是类加载器负责在类加载过程中，将字节码信息以流的方式获取并加载到内存当中 🛸有哪些常见的类加载器启动类加载器启动类加载器是有Hotspot虚拟机通过的类…...

编程日记 2024/2/19 16:12:16

STM32—DHT11温湿度传感器

文章目录一.温湿度原理1.1 时序图二.代码一.温湿度原理 1.1 时序图 (1).下图一是DHT11总的时序图。 (2).图二对应图一的左边黑色部分，图三对应图一的绿色部分，图四的左部分图对应图一的红色部分，图四的右部分对应图一的黄色部分。 (3)…...

编程日记 2024/2/19 16:09:13

相机图像质量研究(31)常见问题总结：图像处理对成像的影响--图像差

系列文章目录相机图像质量研究(1)Camera成像流程介绍相机图像质量研究(2)ISP专用平台调优介绍相机图像质量研究(3)图像质量测试介绍相机图像质量研究(4)常见问题总结：光学结构对成像的影响--焦距相机图像质量研究(5)常见问题总结：光学结构对成…...

编程日记 2024/2/19 16:08:12

MySQL之select查询

华子目录 SQL简介SQL语句分类SQL语句的书写规范SQL注释单行注释多行注释 select语句简单的select语句select的算数运算select 要查询的信息 from 表名;查询表字段查询常量查询表达式查询函数查询定义别名as安全等于<>去重distinct连接字段concat 模糊查询运算符比较运算…...

编程日记 2024/2/19 16:07:10

Android MMKV 接入+ 替换原生 SP + 原生 SP 数据迁移

背景：项目中一直使用的是原生 SP，众所周知，使用原生 SP 存在卡顿性能问题。公司的性能监控平台抓到不少原生 SP 导致的 ANR 问题： java.io.FileDescriptor.sync (FileDescriptor.java) android.os.FileUtils.sync (FileUtils.java:256) android.app.SharedPreferencesImpl.…...

编程日记 2024/2/19 16:05:08

C#上位机与三菱PLC的通信07--使用第3方通讯库读写数据

1、通讯库介绍 mcprotocol 是一个基于 Node.js 的三菱 PLC MC 协议通信库，具有以下特点： 支持多种三菱 PLC MC 协议的设备，如 FX3U、Q03UDECPU、QJ71E71 等。支持多种功能码和数据类型，如读取线圈（M）、…...

编程日记 2024/2/19 16:01:03

LiveGBS流媒体平台GB/T28181常见问题-基础配置流媒体服务配置中本地|内网IP外网IP(可选)外网IP收流如何配置

LiveGBS常见问题基础配置流媒体服务配置中本地|内网IP外网IP外网IP收流如何配置？ 1、流媒体服务配置2、播放提示none rtp data receive3、多网卡服务器4、收流端口配置5、端口区间可以如何配置6、搭建GB28181视频直播平台 1、流媒体服务配置 LiveGBS中基础配置-》流…...

编程日记 2024/2/19 16:00:02

微服务- 熔断、降级和限流

基本介绍在微服务架构中，由于服务之间的相互依赖性，任何一个服务的故障或性能问题都可能导致整个系统的不稳定。因此，熔断、降级和限流是三种常见的技术手段，用于提高系统的可用性和稳定性。熔断 (Circuit Breaker) 熔断机制…...

编程日记 2024/2/19 15:58:00

电路设计（20）——数字电子钟的multism仿真

1.设计要求使用数字芯片，设计一个电子钟，用数码管显示，可以显示星期，时、分、秒，可以有按键校准时间。有整点报警功能。 2.设计电路设计好的multism电路图如下所示 3.芯片介绍时基脉冲使用555芯片产生。在仿真里面…...

编程日记 2024/2/19 15:55:58

【论文阅读笔记】Contrastive Learning with Stronger Augmentations

Contrastive Learning with Stronger Augmentations 摘要基于提供的摘要，该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习（Contrastive Learning with Stronger Augmentations，简称CLSA）。以下…...

编程日记 2024/2/19 15:54:55

前端win10如何设置固定ip（简单明了）

1、右击这个 2、点击属性 3、双击协议版本4设置成以下就ok...

编程日记 2024/2/19 15:53:54

数据结构1.0（基础）

近java的介绍， 文章目录第一章、数据结构1、数据结构 ？2、常用的数据结构数据结构？ 逻辑结构and物理结构第二章、数据结构基本介绍2.1、数组（Array）2.2、堆栈（Stack）2.3、队列（Que…...

编程日记 2024/2/19 15:50:50

anomalib1.0学习纪实-续2：三个文件夹

为了读懂程序，有三个最重要的文件夹，如下图： 正好对应四个类，如下图： 四个类的来源如下图所示： 注意，MVTec是个大类，里面用到了这里的第四个类MVTecDataset，代码如下。…...

编程日记 2024/2/19 15:47:47

【递归】【后续遍历】【迭代】【队列】Leetcode 101 对称二叉树

【递归】【后续遍历】Leetcode 101 对称二叉树解法一： 递归：后序遍历左右中解法二： 迭代法，用了单端队列 ---------------🎈🎈对称二叉树题目链接🎈🎈------------------- 解法一…...

编程日记 2024/2/19 15:46:46

Nginx https反向代理

接前一篇文章，今天看看https的反向代理怎么配置。生成自签名证书和私钥要使用https，首先需要有证书和私钥，这里创建一个测试用的自签名证书和私钥。使用 openssl 命令生成服务器私钥文件 openssl genrsa -out server.key 2048生成证书…...

编程日记 2024/2/19 15:45:45

zip解压缩

使用unzip库可以轻松解压zip文件，源码下载地址：http://www.codeproject.com/Articles/7530/Zip-Utils-clean-elegant-simple-C-Win #include <Windows.h> #include"unzip.h" SetCurrentDirectory("c:\\"); HZIP hz OpenZip(…...

编程日记 2024/2/19 15:44:43

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留，CCA-Attention为LLM长文本建模带来突破性进展琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制（CCA-Attention），…...

编程新知 2026/2/5 4:25:15

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1)：从基础到实战的深度解析-CSDN博客，但实际面试中，企业更关注候选人对复杂场景的应对能力（如多设备并发扫描、低功耗与高发现率的平衡）和前沿技术的…...

编程新知 2026/2/5 3:41:42

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2026/1/26 14:19:52

反射获取方法和属性

Java反射获取方法在Java中，反射（Reflection）是一种强大的机制，允许程序在运行时访问和操作类的内部属性和方法。通过反射，可以动态地创建对象、调用方法、改变属性值，这在很多Java框架中如Spring和Hiberna…...

编程新知 2025/11/9 2:57:17

GC1808高性能24位立体声音频ADC芯片解析

1. 芯片概述 GC1808是一款24位立体声音频模数转换器（ADC），支持8kHz~96kHz采样率，集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器，适用于高保真音频采集场景。 2. 核心特性高精度：24位分辨率&#xff0c…...

编程新知 2026/1/27 4:58:14

ABAP设计模式之---“简单设计原则(Simple Design)”

“Simple Design”（简单设计）是软件开发中的一个重要理念，倡导以最简单的方式实现软件功能，以确保代码清晰易懂、易维护，并在项目需求变化时能够快速适应。其核心目标是避免复杂和过度设计，遵循“让事情保…...

编程新知 2026/1/27 18:13:23

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/25 1:21:53

IP如何挑？2025年海外专线IP如何购买？

你花了时间和预算买了IP，结果IP质量不佳，项目效率低下不说，还可能带来莫名的网络问题，是不是太闹心了？尤其是在面对海外专线IP时，到底怎么才能买到适合自己的呢？所以，挑IP绝对是个技…...

编程新知 2026/1/28 3:04:35

宇树科技，改名了！

提到国内具身智能和机器人领域的代表企业，那宇树科技（Unitree）必须名列其榜。最近，宇树科技的一项新变动消息在业界引发了不少关注和讨论，即： 宇树向其合作伙伴发布了一封公司名称变更函称，因…...

编程新知 2026/1/28 9:44:45