当前位置：首页 > article >正文

stable diffusion 量化加速点

article 2026/2/1 17:35:22

文章目录

- 一、导出为dynamic shape
- - 1）函数讲解（函数导出、输出检查）
  - 2）代码展示
- 二、导出为static shape
- - 1）函数讲解(略)
  - 2）代码展示
- 三、序列化为FP32测速
- - 1）测速
  - 2）代码
- 四、序列化为FP16测速
- - 1）测速
  - 2）代码同上
- 五、发现并解决解决CLIP FP16溢出，并测速
- - 1）如何找到溢出的算子
  - 2）CLIP溢出算子解决方案
  - 3）其他FP16算子溢出的解决方案
- 六、cuda-graph代码优化并测速
- 七、图片迭代次数优化PD、合并GroupNorm算子制作plugin，UNet和ControlNet拼batch测试
- - 1）迭代次数优化
  - 2）合并GroupNorm算子
  - 3）UNet和ControlNet拼batch
- 八、根据smooth-quant算法优化INT8量化，对比测速PD
- - 1）smooth-quant算法原理
  - 2）smooth-quant算法代码
  - 3）测速PD损失

一、导出为dynamic shape

1）函数讲解（函数导出、输出检查）

①torch.onnx.export

    torch.onnx.export(clip_model,(tokens),onnx_path,verbose=True,opset_version=18,do_constant_folding=True,input_names=input_names,output_names=output_names,dynamic_axes=dynamic_axes,)

(1)export_params:默认为true，表示导出的 ONNX 模型文件会包含模型的所有参数（如权重、偏置等）。而当设置为 False 时，导出的 ONNX 模型文件仅包含模型的计算图结构，不包含模型的参数。这意味着导出的 ONNX 文件会小很多，因为它没有存储大量的参数数据
(2)verbose：为true表示，将会输出大量打印日志信息
(3)do_constant_folding：一般为true，是一个布尔类型的参数，其作用是控制在导出 ONNX 模型时是否进行常量折叠优化从而提高推理性能。为TRUE开启常量折叠优化。在导出 ONNX 模型时，会对图中所有仅包含常量输入的操作进行预先计算，并用计算结果替换这些操作，以此简化计算图，减少模型的计算量和复杂度。
(4)input_names和output_names：输入、输出参数
(5)dynamic_axes：是一个字典，其键为输入或输出张量的名称，值也是一个字典，用于指定该张量中哪些维度是动态的。内层字典的键是维度索引（从 0 开始），值是一个字符串，用于标识这个动态维度，通常在 ONNX 运行时会使用这个标识来指定具体的维度大小
(6)opset_version：指定optset的版本输入参数举例：dynamic_axes = {"x": {0: "batch_size"},"hint": {0: "batch_size"},"timesteps": {0: "batch_size"},"context": {0: "batch_size", 1: "sequence_length"},"output": {0: "batch_size", 1: "hint_height", 2: "hint_width"}}dynamic_axes = {"input_ids": {1: "S"}, "last_hidden_state": {1: "S"}}dynamic_axes = {"x": {0: "latent"},}

②误差检查

#onnx_path onnx文件目录
#input_dicts  输入参数
#torch_outputs  模型输出结果
def onnxruntime_check(onnx_path, input_dicts, torch_outputs):onnx_model = onnx.load(onnx_path)# onnx.checker.check_model(onnx_model)sess = rt.InferenceSession(onnx_path)# outputs = self.get_output_names()# latent input# data = np.zeros((4, 77), dtype=np.int32)result = sess.run(None, input_dicts)cnt = 0for i in range(0, len(torch_outputs)):ret = np.allclose(result[i], torch_outputs[i].detach().numpy(), rtol=1e-03, atol=1e-05, equal_nan=False)cnt = cnt +1if ret is False:#print(f"onnxruntime_check {i} ret:{ret}  result[i]:{result[i]}  torch_outputs[i]:{torch_outputs[i].detach().numpy()} ")print("Error onnxruntime_check")# import pdb; pdb.set_trace()#print("cnt:", cnt)

2）代码展示

代码

import numpy as np
from pytorch_fid import fid_score
from pytorch_fid.inception import InceptionV3
import cv2
import datetime
from share import *
import configimport cv2
import einops
import gradio as gr
import numpy as np
import torch
import random
import osfrom pytorch_lightning import seed_everything
from annotator.util import resize_image, HWC3
from annotator.canny import CannyDetector
from cldm.model import create_model, load_state_dict
from cldm.ddim_hacked import DDIMSampler
from onnx import shape_inference
import onnx_graphsurgeon as gs
import onnx
import onnxruntime as rtdef optimize(onnx_path, opt_onnx_path):from onnxsim import simplifymodel = onnx.load(onnx_path)graph = gs.import_onnx(model)print(f"{onnx_path} simplify start !")# self.info("init", graph)model_simp, check = simplify(model)# self.info("opt", gs.import_onnx(model_simp))onnx.save(model_simp, opt_onnx_path, save_as_external_data=True)assert check, "Simplified ONNX model could not be validated"print(f"{onnx_path} simplify done !")def onnxruntime_check(onnx_path, input_dicts, torch_outputs):onnx_model = onnx.load(onnx_path)# onnx.checker.check_model(onnx_model)sess = rt.InferenceSession(onnx_path)# outputs = self.get_output_names()# latent input# data = np.zeros((4, 77), dtype=np.int32)result = sess.run(None, input_dicts)cnt = 0for i in range(0, len(torch_outputs)):ret = np.allclose(result[i], torch_outputs[i].detach().numpy(), rtol=1e-03, atol=1e-05, equal_nan=False)cnt = cnt +1if ret is False:#print(f"onnxruntime_check {i} ret:{ret}  result[i]:{result[i]}  torch_outputs[i]:{torch_outputs[i].detach().numpy()} ")print("Error onnxruntime_check")# import pdb; pdb.set_trace()#print("cnt:", cnt)class hackathon():def initialize(self):self.apply_canny = CannyDetector()self.model = create_model('./models/cldm_v15.yaml').cpu()self.model.load_state_dict(load_state_dict('./models/control_sd15_canny.pth', location='cpu'))# self.model.load_state_dict(load_state_dict('/home/player/ControlNet/models/control_sd15_canny.pth', location='cuda'))self.model = self.model.cpu()self.model.eval()self.ddim_sampler = DDIMSampler(self.model)hk = hackathon()
hk.initialize()def export_clip_model():clip_model = hk.model.cond_stage_modelimport typesdef forward(self, tokens):outputs = self.transformer(input_ids=tokens, output_hidden_states=self.layer == "hidden")if self.layer == "last":z = outputs.last_hidden_stateelif self.layer == "pooled":z = outputs.pooler_output[:, None, :]else:z = outputs.hidden_states[self.layer_idx]return zclip_model.forward = types.MethodType(forward, clip_model)onnx_path = "./onnx/CLIP.onnx"tokens = torch.zeros(1, 77, dtype=torch.int32)input_names = ["input_ids"]output_names = ["last_hidden_state"]dynamic_axes = {"input_ids": {1: "S"}, "last_hidden_state": {1: "S"}}torch.onnx.export(clip_model,(tokens),onnx_path,verbose=True,opset_version=18,do_constant_folding=True,input_names=input_names,output_names=output_names,dynamic_axes=dynamic_axes,)print("======================= CLIP model export onnx done!")# verify onnx modeloutput = clip_model(tokens)input_dicts = {"input_ids": tokens.numpy()}onnxruntime_check(onnx_path, input_dicts, [output])print("======================= CLIP onnx model verify done!")# opt_onnx_path = "./onnx/CLIP.opt.onnx"# optimize(onnx_path, opt_onnx_path)def export_control_net_model():control_net_model = hk.model.control_modelonnx_path = "./onnx/control_net_model.onnx"def get_shape(B=1,S=64):return [(B, 4, 32, 48),(B, 3, 256, 384),tuple([B])

stable diffusion 量化加速点

文章目录一、导出为dynamic shape1）函数讲解（函数导出、输出检查）2）代码展示二、导出为static shape1）函数讲解(略)2）代码展示三、序列化为FP32测速1）测速2）代码四、序列化为FP16测速1）测速2）代码同上五、发现并解决解决CLIP FP16溢出，并测速1）如何找到溢出的算子…...

编程日记 2025/11/16 12:45:05

NO.77十六届蓝桥杯备战|数据结构-单调队列|质量检测(C++)

什么是单调队列？ 单调队列，顾名思义，就是存储的元素要么单调递增要么单调递减的队列。注意，这⾥的队列和普通的队列不⼀样，是⼀个双端队列。单调队列解决的问题⼀般⽤于解决滑动窗⼝内最⼤值最⼩值问题，以…...

编程日记 2026/1/26 19:02:32

通过发票四要素信息核验增值税发票真伪-iOS发票查验接口

发票是企业经济间往来的重要凭证，现如今，随着经济环境的日益复杂，发票造假现象屡禁不止，这使得增值税发票查验成为企业必须高度重视的工作。人工智能时代，发票查验接口犹如一道坚固的防线，助力企业财务守护…...

编程日记 2026/1/30 18:05:17

区块链是怎么存储块怎么找到前一个块

前言：学习区块链的过程中在想怎么管理区块链呢 📌 推荐项目回顾： 👉 Jeiwan 的 blockchain_go 项目 GitHub 地址：https://github.com/Jeiwan/blockchain_go ❓它是怎么存储区块 & 找前一个区块的？ 项…...

编程日记 2026/1/27 15:25:43

超详解glusterfs部署

glusterfs部署 GlusterFS 是一个开源的分布式文件系统，旨在提供高性能、高可用性和可扩展性，适用于存储大量数据。它通过将多个存储节点组合成一个统一的文件系统，允许用户透明地访问分布在不同节点上的数据。主要组件存储砖块&#xff…...

编程日记 2025/12/12 5:52:47

总结一下常见的EasyExcel面试题

说一下你了解的POI和EasyExcel POI（Poor Obfuscation Implementation）：它是 Apache 软件基金会的一个开源项目，为 Java 程序提供了读写 Microsoft Office 格式文件的功能，支持如 Excel、Word、PowerPoint 等多种文件格…...

编程日记 2025/11/19 19:25:50

【JAVA】十、基础知识“类和对象”干货分享~（三）

目录 1. 封装 1.1 封装的概念 1.2 访问限定符 public（公开访问） private（私有访问） 1.3 包 1.3.1 包的概念 1.3.2 导入包中的类 1.3.3 自定义包 2. static成员 2.1 static变量（类变量） 2.1.1 sta…...

编程日记 2026/1/27 2:05:11

DeepSeek+SpringAI家庭AI医生

文章目录项目架构项目开发内容项目用户用例图项目地址开发环境大模型使用本地：Ollama部署DeepSeek离线与在线api大模型客户端使用数据库脚本代码deepseek创建定制医生模型内网互通原则云服务器类型项目架构项目开发内容项目用户用例图项目地址 FamilyAIDoct…...

编程日记 2026/1/31 11:50:59

PyTorch：解锁AI新时代的钥匙

（前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站）。揭开PyTorch面纱对于许多刚开始接触人工智能领域的朋友来说，PyTorch这个名字或许既熟悉又陌生。…...

编程日记 2026/1/28 5:47:11

C++第14届蓝桥杯b组学习笔记

1. 日期统计小蓝现在有一个长度为 100100 的数组，数组中的每个元素的值都在 00 到 99 的范围之内。数组中的元素从左至右如下所示： 5 6 8 6 9 1 6 1 2 4 9 1 9 8 2 3 6 4 7 7 5 9 5 0 3 8 7 5 8 1 5 8 6 1 8 3 0 3 7 9 2 7 0 5 8 8 5 7 0 9 9 1 9 4 4…...

编程日记 2026/1/30 4:13:50

解锁工业通信：Profibus DP到ModbusTCP网关指南！

解锁工业通信：Profibus DP到ModbusTCP网关指南！ 在工业自动化领域，随着技术的不断进步和应用场景的日益复杂，不同设备和系统之间的通讯协议兼容性问题成为了工程师们面临的一大挑战。尤其是在Profibus DP和Modbus/TCP这两种广泛应…...

编程日记 2026/1/31 3:39:09

每日一题（小白）字符串娱乐篇16

分析题意可以了解到本题要求在一串字符串中找到所有组合起来排序递增的字符串。我们可以默认所有字符在字符串中的上升序列是1，从第一个字符开始找，如果后面的字符大于前面的字符就说明这是一个上序列那么后面字符所在的数组加一，如果连接不上…...

编程日记 2026/1/27 3:10:16

面试算法高频01

题目描述验证回文串给定一个字符串，验证它是否是回文串，只考虑字母和数字字符，可以忽略字母的大小写。示例 1: 输入: "A man, a plan, a canal: Panama" 输出: true示例 2: 输入: "race a car" 输出: falseimport…...

编程日记 2025/10/26 5:47:16

如何深刻理解Reactor和Proactor

前言： 网络框架的设计离不开 I/O 线程模型，线程模型的优劣直接决定了系统的吞吐量、可扩展性、安全性等。目前主流的网络框架，在网络 IO 处理层面几乎都采用了I/O 多路复用方案(又以epoll为主)，这是服务端应对高并发的性能利器。 …...

编程日记 2026/1/31 7:20:21

java基础数组Array的介绍

Array 数组定义一维数组多维数组动态数组常见方法Arrays排序1.sort() 排序 2.parallelSort() 排序查找：binarySearch()填充：fill()比较：equals() 和 deepEquals()复制：copyOf() 和 copyOfRange()转换为列表：asList()转…...

编程日记 2026/1/27 3:20:35

Elixir语言的函数定义

Elixir语言的函数定义 Elixir是一种基于Erlang虚拟机（BEAM）的函数式编程语言，因其并发特性及可扩展性而受到广泛欢迎。在Elixir中，函数是程序的基本构建块，了解如何定义和使用函数对于掌握这门语言至关重要。本文将深…...

编程日记 2025/11/19 1:13:03

我的NISP二级之路-02

目录一.数据库二.TCP/IP协议分层结构三.STRIDE模型四.检查评估与自评估检查评估自评估五.信息安全应急响应过程六.系统工程七.SSE-CMM 八.CC标准九.九项重点工作记背: 一.数据库关于数据库恢复技术，下列说法不正确的是&#xff1a…...

编程日记 2026/1/31 5:18:17

k8s1.24升级1.28

0、简介这里只用3台服务器来做一个简单的集群，当前版本是1.24.17目标升级到1.28.17 地址主机名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-1 因为1.24已经更换过了容器运行时，所以之后的升级相对就会简单&am…...

编程日记 2026/1/9 18:10:51

常见的微信个人号二次开发功能

一、常见开发功能 1. 好友管理好友列表维护添加/删除好友修改好友信息（备注、标签等） 分组管理创建/编辑/删除标签好友分类与筛选 2. 消息管理信息发送支持多类型内容：文本、图片、视频、文件、小程序、名片、URL链接等附加功…...

编程日记 2026/1/30 4:36:54

unity的dots中instantiate克隆对象后，对象会在原位置闪现的原因和解决

原因在Entity中有两个位置信息，一个是local transform。一个是local to world 其中local transform负责具体位置，local to world 负责渲染位置，即图像的渲染的位置是根据local to world的。 local to world 的更新是引擎自己控制的&#x…...

编程日记 2026/1/30 6:16:06

去中心化固定利率协议

核心机制与分类协议类型： 借贷协议（如Yield、Notional）：通过零息债券模型（如fyDai、fCash）锁定固定利率。收益聚合器（如Saffron、BarnBridge）：通过风险分级或博弈论…...

编程日记 2026/1/24 2:58:30

Java面试黄金宝典31

1. 什么是封锁协议定义：封锁协议是在运用封锁机制时，为了保证事务的一致性和隔离性，对何时申请封锁、持锁时间以及何时释放封锁等问题制定的规则。它可防止并发操作引发的数据不一致问题，如丢失修改、不可重复读和读 “脏” 数据…...

编程日记 2026/1/28 19:28:30

R语言——绘制生命曲线图（细胞因子IL5）

绘制生命曲线图（根据细胞因子） 说明流程代码加载包读取Excel文件清理数据重命名列名处理IL-5中的"<"符号 - 替换为检测下限的一半首先找出所有包含"<"的值检查缺失移除缺失值根据IL-5中位数将患者分为高低两组创建生存对象拟…...

编程日记 2026/1/30 2:08:17

在内网环境中为 Gogs 配置 HTTPS 访问

在内网环境中为 Gogs 配置 HTTPS 访问，虽然不需要公网域名，但仍需通过自签名证书或私有证书实现加密。以下是详细步骤和方案： 一、核心方案选择方案适用场景优点缺点自签名证书快速测试、临时使用无需域名，快速生成浏览器提示“…...

编程日记 2026/1/30 0:12:18

神马系统8.5搭建过程，附源码数据库

项目介绍神马系统是多年来流行的一款电视端应用，历经多年的发展，在稳定性和易用性方面都比较友好。十多年前当家里的第一台智能电视买回家，就泡在某论坛，找了很多APP安装在电视上，其中这个神马系统就是用得很久的一…...

编程日记 2026/1/30 11:51:32

大模型论文：Improving Language Understanding by Generative Pre-Training

大模型论文：Improving Language Understanding by Generative Pre-Training OpenAI2018 文章地址：https://www.mikecaptain.com/resources/pdf/GPT-1.pdf 摘要自然语言理解包括各种各样的任务，如文本蕴涵、问题回答、语义相似性评估和文…...

编程日记 2026/1/29 7:45:13

文章目录 1. **`SDL_Init()`**2. **`SDL_CreateWindow()`**3. **`SDL_CreateRenderer()`**4. **`SDL_CreateTexture()`**5. **`SDL_UpdateTexture()`**6. **`SDL_RenderCopy()`**7. **`SDL_RenderPresent()`**8. **`SDL_Delay()`**9. **`SDL_Quit()`**总结示例代码：代码说明：…...

编程日记 2026/1/9 4:30:55

[ctfshow web入门] web18

前置知识 js(javascript)语言用于前台控制，不需要知道他的语法是什么，以高级语言的阅读方式也能看懂个大概。在JavaScript中，confirm()是一个用于显示确认对话框的内置函数，不用知道怎么使用。信息收集提示：不要…...

编程日记 2026/1/31 23:27:00

基于 docker 的 Xinference 全流程部署指南

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。一、下载代码请在控制台下面执行…...

编程日记 2026/1/31 23:18:00

Vue组件化开发深度解析：Element UI与Ant Design Vue对比实践

一、Vue组件化开发的核心优势 1.1 组件化架构的天然优势 Vue的组件系统是其最核心的特性之一，采用单文件组件（.vue）形式，将HTML、CSS和JavaScript组合在同一个文件中，形成高内聚、低耦合的代码单元。这种设计显著提升…...

编程日记 2025/11/14 4:55:07

stable diffusion 量化加速点

文章目录

一、导出为dynamic shape

1）函数讲解（函数导出、输出检查）

2）代码展示

相关文章：

stable diffusion 量化加速点

NO.77十六届蓝桥杯备战|数据结构-单调队列|质量检测(C++)

通过发票四要素信息核验增值税发票真伪-iOS发票查验接口

区块链是怎么存储块怎么找到前一个块

超详解glusterfs部署

总结一下常见的EasyExcel面试题

【JAVA】十、基础知识“类和对象”干货分享~（三）

DeepSeek+SpringAI家庭AI医生

PyTorch：解锁AI新时代的钥匙

C++第14届蓝桥杯b组学习笔记

解锁工业通信：Profibus DP到ModbusTCP网关指南！

每日一题（小白）字符串娱乐篇16

面试算法高频01

如何深刻理解Reactor和Proactor

java基础数组Array的介绍

Elixir语言的函数定义

我的NISP二级之路-02

k8s1.24升级1.28

常见的微信个人号二次开发功能

unity的dots中instantiate克隆对象后，对象会在原位置闪现的原因和解决

去中心化固定利率协议

Java面试黄金宝典31

R语言——绘制生命曲线图（细胞因子IL5）

在内网环境中为 Gogs 配置 HTTPS 访问

神马系统8.5搭建过程，附源码数据库

大模型论文：Improving Language Understanding by Generative Pre-Training

SDL视频显示函数

[ctfshow web入门] web18

基于 docker 的 Xinference 全流程部署指南

Vue组件化开发深度解析：Element UI与Ant Design Vue对比实践