当前位置：首页 > news >正文

用你的手机/电脑运行文生图方案

news 2025/7/13 2:15:28

随着ChatGPT和Stable Diffusion的发布，最近一两年，生成式AI已经火爆全球，已然成为移动互联网后一个重要的“风口”。就图片/视频生成领域来说，Stable Diffusion模型发挥着极其重要的作用。由于Stable Diffusion模型参数量是10亿参数的大模型，通常业界都是运行部署在显卡上。

但是随着量化、剪枝等模型压缩技术的进步，以及手机等终端设备的算力、带宽、内存持续增大。使得大模型在终端设备部署也成为的可能。大模型在终端部署可以有效保护用户隐私，而且终端设备日常广泛使用、用户可以随时随地生成想要的内容。

MNN-Diffusion使用

本文是深度学习推理引擎MNN团队，做的Stable Diffusion端侧部署应用，代码开源，用户可以自行DIY各种好玩的Stable Diffusion应用。

MNN开源地址：

https://github.com/alibaba/MNN/tree/master

欢迎大家试用，使用教程如下：

https://mnn-docs.readthedocs.io/en/latest/transformers/diffusion.html

下面是在个人手机/电脑上生成的图片：

技术要点

业界加速Stable Diffusion部署通常有两个方向，一是算法层面的优化，包括优化网络结构、减少计算量或者降低推理迭代步数；二是工程部署优化，通过量化/算子高效实现等方式提高硬件计算效率、提高访存效率。MNN作为推理引擎，主要聚焦在工程部署优化上，下面分享下MNN Diffusion GPU在性能/内存方面做了优化工作。

▐ Self-Attention优化

Transformer结构中Self-Attention是一个基础结构，也是性能耗时的关键。如下结构是一个典型的Attention结构：

一个共有节点，分别经过三个Linear层，得到Query/Key/Value，Query/Key经过形状变换进行BatchMatMul操作，再进行Scale，取Softmax操作；该结果和Value经过形状变换做BatchMatMul；之后把结果进行形状变换，得到最终的输出。可以看到上述总共有19个算子，包括12个形状变化算子，7个计算型算子。

大量的形状变化会带来很多的访存耗时，对于GPU高算力的硬件来说，访存耗时往往容易成为热点。因此，将上述结构，融合成2个算子，第一个是将三个Linear层权重融合在一起，只做一个Linear，这样形成更大的矩阵乘尺寸，更容易打满GPU算力，带来性能收益；第二个算子是将Attention算子融合成一个算子Fused-MultiHead-Attention，融合之后在该新算子内部仅需5个Kernel就可以实现整个Attention功能。消除了大量额外的形状变换算子，降低了访存压力，同时可以更容易基于Attention算子特性做进一步优化工作。

▐ GroupNorm/SplitGeLU融合

在Stable Diffusion中，有一个通用的结构ResnetBlock，其中包含了BroadCast Binary + GroupNorm + SiLU结构，在onnx模型图结构中包含了如下13个算子：

可以看到GroupNorm采用InstanceNorm+形变算子实现，gamma/beta被单独拆解为mul/add算子，细碎的算子会增加全局内存的访存次数、以及Kernel launch的压力。因此将上述通用结构合并成一个GroupNorm算子，该算子把前面的BroadCast Binary和后续的SiLU激活函数，融合在一起。高效的只需一个Kernel就可以实现上述计算需求。

同样的图融合原理，在Transformer激活函数中，Stable Diffusion Feed-Forward模块中采用GEGLU结构，对应onnx图结构如下。将该8个onnx图算子，融合为通用的SplitGeLU算子。

▐ conv-winograd算法实现

在Stable Diffusion中有大量3x3卷积，在深度学习中，Winograd算法已经大量应用在加速3x3卷积实现。

Winograd F(m, r)算法，其中m代表一个计算tile的大小，r对应filter的尺寸，d=m+r-1 代表对应input tile大小。

下表是3x3 Winograd不同tile对应计算量的节省比例和中间内存占用的增大比例。

m	r	d	计算量前后比例	input中间内存	weight中间内存
2	3	4	9 : 4 = 2.25x	4x	1.78x
4	3	6	4 : 1 = 4x	2.25x	4x
6	3	8	81 : 16 = 5.06x	1.78x	7.11x

目前，我们使用的是F(2, 3) Winograd，控制内存增大量，同时带来一倍的性能提升效果。

▐ 高性能Gemm/BatchGemm

上述分析可以看出，Attention/卷积3x3，核心计算量在BatchGemm上，Linear层实际上就是Gemm运算。实际上，Stable Diffusion中，核心的计算量或者说耗时的热点，归根溯源，都集中在Gemm/BatchGemm上。如何高效实现矩阵乘法成为最核心的关键。

矩阵乘在各个维度上的分块策略，可以有效提升数据的复用度和数据cache命中率；合理的分块可以为矩阵乘法带来大幅度的性能提升。

上图展示了，矩阵乘在各个维度上面的分块变量，包括在并发M/N维度，单次数据访存向量化位宽、每个线程存取矩阵的尺寸、每个工作组存取矩阵的尺寸，以及如果使用local memory缓存的话每个线程/工作组的缓存量。

这些参量都决定了数据访存的效率、并发量的大小、计算访存比的大小。不同的设备有不同的寄存器资源、共享内存资源、访存带宽、计算核心数，这些参量都决定着矩阵乘法的性能效率。

对于特定的矩阵乘的尺寸M/N/K，针对特定设备采取Auto-Tuning的获取最佳的运行参数(OPWM/OPWN/OPTM/OPTN/VEC_M/VEC_N等)，Tuning候选集数量是M的N次方(N是参数的个数、M是每个参数候选集个数）。如果暴力循环每个参数候选集，由于候选集数量巨大、并且大尺寸矩阵乘本身单次运行耗时较大，必然会导致要花费大量时间去Tuning完所有候选集。因此，根据经验和实际试跑，选出部分高频参数候选集进行Tuning，在控制好Tuning时间的同时，也可以带来极大的性能收益。

▐ Gemm Strassen探索

由于矩阵乘法是Stable Diffusion耗时的核心，因此进行了矩阵乘快速算法的研究探索。Strassen算法是利用矩阵拆解，通过引入矩阵加减法，来减少矩阵乘法次数的方式。最简单的方法，将M/N/K维度各对拆1/2的方法，朴素的矩阵拆解如下：

Strassen算法，通过15次子矩阵加减法，来减少一次子矩阵乘法。矩阵拆解如下：

当N足够大时，矩阵加减法耗时会远低于矩阵乘法耗时，带来12.5%的计算量降低。当N较小时，受限于15次子矩阵加减的耗时，以及拆解子矩阵乘法算力打不满等损耗原因，将引起负优化。具体某个形状的矩阵乘法适不适合使用Strassen算法？

对于矩阵A形状为[M, K]，矩阵B形状为[N, K]，输出矩阵C形状为[M, N]。15次子矩阵加减，数据访存量为：(3*M*K + 3*N*K + 3.5*M*N) * sizeof(DataType) Bytes。1次子矩阵乘法，数据计算量为：1/8 * M*N*K * 2 = 1/4 * M*N*K FLOPS。我们默认矩阵加减是带宽瓶颈，矩阵乘法是算力瓶颈。假设设备的内存带宽为X GB/s，算力是Y GFLOPS。

子矩阵加减耗时：（6*M*K + 6*N*K + 3.5*M*N）*sizeof(DataType) / X (ns)

子矩阵乘节省耗时：(1/4 * M * N * K) / Y (ns)

当节省的耗时大于损耗耗时，即可有性能收益。根据上述公式，计算访存比越低的设备，Strassen算法越容易有收益。对于手机设备来说，1024x1024x1024的子矩阵，通常可以获得约10%的性能收益。

▐ 内存占用优化

在Attention优化中，Q/K做BatchMatMul得到中间数据QK时，张量维度为[Batch， HeadNum, SeqLen, SeqLen]。对于Stable Diffusion来说，会遇到Batch=2，HeadNum=16，SeqLen=4096。对于float16的数据类型，单个张量的存储就需要1GB的内存大小，这对于内存资源紧缺的端侧设备是不可接受的。

因此，将Attention操作进行分块处理，类似Paged Attention的思路，将整个Attention分成SeqNum次执行，这样每次仅需原先1/SeqNum中间内存大小，可以非常有效的控制内存的大小。

性能测评

MNN Stable Diffusion应用，生成512x512图片，在骁龙8Gen3上使用GPU float16精度达到2s/iter (20次迭代，手机上40s可以生成完一幅图)，在Apple Mac M3上GPU float32精度达到1.1s/iter (20次迭代，Mac上22s可以生成完一幅图)。MNN CPU/GPU性能均较大幅度快于如下Stable Diffusion开源框架，例如：

stable-diffusion.cpp
https://github.com/leejet/stable-diffusion.cpp/issues/15
Android OnnxRuntime Stable Diffusion应用
https://github.com/ZTMIDGO/Android-Stable-diffusion-ONNX

后续研究

后续在性能优化和内存优化上面仍然有空间可以挖掘。

性能优化方面：

Conv Winograd采用更大的分块，获取更高的计算量降低收益。
矩阵乘尝试Image存储内存访问模式，提高访存效率。
Attention进一步采用Flash Attention等思路优化。

内存占用优化方面：

采用低比特权重(int8/int4量化)。
在线转换动态内存可复用，Conv Winograd权重尝试采用在线转换。
Attention 采用Flash Attention优化节省中间内存使用。

参考资料

https://blog.csdn.net/xian0710830114/article/details/129194419
https://github.com/NVIDIA/TensorRT/tree/release/8.6/demo/Diffusion
https://arxiv.org/abs/0707.2347
https://courses.cs.cornell.edu/cs6810/2023fa/Matrix.pdf
https://github.com/CNugteren/CLBlast/tree/master
https://arxiv.org/pdf/1703.06503
https://github.com/leejet/stable-diffusion.cpp/
https://github.com/ZTMIDGO/Android-Stable-diffusion-ONNX

团队介绍

我们是大淘宝技术Meta Team，负责面向消费场景的3D/XR基础技术建设和创新应用探索，通过技术和应用创新找到以手机及XR 新设备为载体的消费购物3D/XR新体验。团队在端智能、商品三维重建、3D引擎、XR引擎等方面有深厚的技术积累。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

用你的手机/电脑运行文生图方案

随着ChatGPT和Stable Diffusion的发布，最近一两年，生成式AI已经火爆全球，已然成为移动互联网后一个重要的“风口”。就图片/视频生成领域来说，Stable Diffusion模型发挥着极其重要的作用。由于Stable Diffusion模型参数量是10亿参…...

编程日记 2024/10/20 13:46:58

L1正则化详解

目录 L1 正则化优缺点：适合使用L1正则化的情况：不适合使用L1正则化的情况：参考 L1 正则化 L1正则化是一种常用的正则化技术，也被称为Lasso正则化（Least Absolute Shrinkage and Selection Operator）。它通…...

编程日记 2024/10/20 13:42:55

C语言在数据库开发中的应用及其代码实践

数据库作为现代软件开发中不可或缺的一部分，其开发和维护工作至关重要。C语言，以其接近硬件的特性和高效率，被广泛应用于数据库系统的核心组件开发中。本文将探讨C语言在数据库开发中的应用，并提供实际的代码示例。 C语言在数据库…...

编程日记 2024/10/20 13:41:54

java maven

参考链接 maven相关配置 maven依赖管理依赖具有传递性。 maven依赖范围 maven的生命周期分为三个相互独立的生命周期： 在执行对应生命周期的操作时，需要进行前面的操作。比如，执行打包install的时候，会执行test。...

编程日记 2024/10/20 13:40:53

Java爬虫：获取直播带货数据的实战指南

在当今数字化时代，直播带货已成为电商领域的新热点，通过直播平台展示商品并进行销售，有效促进了产品的曝光和销售量的提升。然而，如何在直播带货过程中进行数据分析和评估效果，成为了摆在商家面前的一个重要问题。本文…...

编程日记 2024/10/20 13:39:52

python 列表、元组、字典易误区

一、删除元素 1、删除列表中的元素 pop del (1)pop(索引) 用于删除指定索引处的元素，并返回被删除的元素的值。默认删除最后一个元素。 eg:list.pop() (2)del 用于删除列表中的指定索引处的元素，或者删除整个列表变量。del操作没有返回值。 eg:del a[1:…...

编程日记 2024/10/20 13:35:48

wireshark或tshark提取tcpdump捕获的数据包(附python脚本自动解析文件后缀)

tcpdump 捕获数据包后，保存的文件通常会被命名为 capture.pcap（或其他你指定的名称），并存储在你运行命令的当前目录中。以下是如何使用 tcpdump 进行流量捕获，并找到和使用捕获文件的详细步骤。 1. 使用 tcpdump 捕获…...

编程日记 2024/10/20 13:31:44

了解EasyNVR及EasyNVS，EasyNVR连接EasyNVS显示授权超时如何解决？什么原因？

我们先来了解NVR批量管理软件/平台EasyNVR，它深耕市场多年，为用户提供多种协议，兼容多种厂商设备，包括但不限于支持海康，大华，宇视，萤石，天地伟业，华为设备。 NVR录像机…...

编程日记 2024/10/20 13:30:43

【AUTOSAR标准文档】服务类型介绍

Introduction to types of services The Basic Software can be subdivided into the following types of services: ① Input/Output (I/O) Standardized access to sensors, actuators and ECU onboard peripherals ② Memory Standardized access to internal/external…...

编程日记 2024/10/20 13:29:42

Axure垂直菜单展开与折叠

亲爱的小伙伴，在您浏览之前，烦请关注一下，在此深表感谢！ 课程主题：Axure垂直菜单展开与折叠主要内容：垂直菜单单击实现展开/折叠，点击各菜单项显示选中效果应用场景：后台菜单设…...

编程日记 2024/10/20 13:28:41

java简单理解哈希算法

这里需要大家有一些哈希表（散列表的理论基础） 比如冲突怎么处理 key-value是什么意思有哪些处理冲突的方法平均查找成功长度和失败长度是什么意思。详细可以看一下这个数据结构散列表。在java中常用三种结构代表散列： map,set,数组。应在不…...

编程日记 2024/10/20 13:27:39

Python生成随机密码脚本

引言在数字化时代，密码已成为我们保护个人信息和数据安全的重要手段。然而，手动创建复杂且难以猜测的密码是一项既繁琐又容易出错的任务。幸运的是，Python编程语言为我们提供了一种高效且灵活的方法来自动生成随机密码。本文将详细介绍如何…...

编程日记 2024/10/20 13:26:37

什么是ASC广告？Facebook ASC广告使用技巧

ASC广告全称AdvantageShopping Campaign，即进阶赋能型智能购物广告，许多投放Facebook广告的小伙伴听过这个词，但每用过这个功能，Facebook推出ASC广告已经有两年了，不少实例证明ASC广告在降低转化成本上有一定效果&…...

编程日记 2024/10/20 13:25:36

idea2024启动Java项目报Error running CloudPlApplication. Command line is too long.

idea2024启动Java项目报Error running CloudPlApplication. Command line is too long. 解决方案： 1、打开Edit Configurations 2、点击Modify options设置，勾选Shorten command line 3、在Edit Configurations界面下方新增的Shorten command line选项中…...

编程日记 2024/10/20 13:24:35

xtu oj 不定方程的正整数解

文章目录回顾思路c 语言代码回顾 AB III问题 H: 三角数问题 G: 3个数等式数组下标查询，降低时间复杂度1405 问题 E: 世界杯xtu 数码串xtu oj 神经网络xtu oj 1167 逆序数（大数据）xtu oj 原根思路首先直观地理解这个题目的意思&#x…...

编程日记 2024/10/20 13:22:34

python爬虫技术实现酷我付费破解下载

python爬虫技术实现酷我付费破解下载 1.python编程环境 python解释器：pyhton3版本代码编辑器：Vscode，PyCharm 2.实现爬虫程序过程 2.1浏览器访问网站的过程在浏览器导航栏中输入域名并回车(在按下回车的那一瞬间浏览器向网站发送了一个http请求)当网站接收到请求后向…...

编程日记 2024/10/20 13:21:33

工具：Git分布式版本控制系统

文章目录介绍分布式版本控制系统原理git安装和使用git软件分类安装软件注册开源社区githubgit ssh key 配置远程仓库分支管理标签管理引用介绍分布式版本控制系统下的每一台终端都可以充当类似集中式版本控制系统的中央服务器。每台终端都可以保存版本库，并且版…...

编程日记 2024/10/20 13:20:32

python+docxtpl：word文件模版渲染

目录操作流程加载模版模版渲染文件保存 python-docx库结合模版渲染说明变量值的获取模板代码语句遍历生成列表 docxtpl使用jinja2作为框架的模板系统，基于python-docx，同样可以使用python-docx库的一些方法，如添加段落，添加图片、列表等。安装：pip ins…...

编程日记 2024/10/20 13:19:31

018_基于python+django荣誉证书管理系统2024_jytq9489

目录系统展示开发背景代码实现项目案例获取源码博主介绍：CodeMentor毕业设计领航者、全网关注者30W群落，InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者，博客领航之星、开发者头条/腾讯云/AW…...

编程日记 2024/10/20 13:18:30

Vulkan 开发（三）：Vulkan 物理设备

Vulkan 物理设备图片来自《 Vulkan 应用开发指南》上一节了解了 Vulkan 实例，一旦有了实例，就可以查找系统里安装的与 Vulkan 兼容的物理设备。 Vulkan 物理设备（PhysicalDevice）一般是指支持 Vulkan 的物理硬件，通…...

编程日记 2024/10/20 13:17:29

idea大量爆红问题解决

问题描述在学习和工作中，idea是程序员不可缺少的一个工具，但是突然在有些时候就会出现大量爆红的问题，发现无法跳转，无论是关机重启或者是替换root都无法解决就是如上所展示的问题，但是程序依然可以启动。问题解决…...

编程新知 2025/7/12 7:11:15

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2025/7/12 17:09:49

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风，以**「云启出海，智联未来｜打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办，现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

编程新知 2025/7/10 20:02:24

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/6/17 0:45:39

【AI学习】三、AI算法中的向量

在人工智能（AI）算法中，向量（Vector）是一种将现实世界中的数据（如图像、文本、音频等）转化为计算机可处理的数值型特征表示的工具。它是连接人类认知（如语义、视觉特征）与…...

编程新知 2025/7/10 11:29:36

C# 类和继承(抽象类)

抽象类抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。不能创建抽象类的实例。抽象类使用abstract修饰符声明。抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

编程新知 2025/7/12 21:20:12

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

AI编程插件对比分析：CodeRider、GitHub Copilot及其他随着人工智能技术的快速发展，AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者，分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

编程新知 2025/7/6 18:33:10

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2025/7/7 1:55:00

算法：模拟

1.替换所有的问号 1576. 替换所有的问号 - 力扣（LeetCode） 遍历字符串：通过外层循环逐一检查每个字符。遇到 ? 时处理： 内层循环遍历小写字母（a 到 z）。对每个字母检查是否满足： 与…...

编程新知 2025/7/11 1:39:46

基于SpringBoot在线拍卖系统的设计和实现

摘要随着社会的发展，社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。在线拍卖系统，主要的模块包括管理员；首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...

编程新知 2025/7/11 22:22:04