当前位置：首页 > news >正文

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

news 2026/5/13 20:44:30

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2111.13824.pdf

项目代码：https://github.com/megvii-research/FQ-ViT

计算机视觉研究院专栏

Column of Computer Vision Institute

将算法网络进行量化和模型转换可以显着降低模型推理的复杂性，并在实际部署中得到了广泛的应用。然而，大多数现有的量化方法主要是针对卷积神经网络开发的，并且在完全量化的vision Transformer上应用时会出现严重的掉点。今天我们就分享一个新技术，实现高精度量化的Vit部署。AI大模型落地使用离我们还远吗？

总述

Transformer 是现在火热的AIGC预训练大模型的基础，而ViT(Vision Transformer)是真正意义上将自然语言处理领域的Transformer带到了视觉领域。从Transformer的发展历程就可以看出，从Transformer的提出到将Transformer应用到视觉，其实中间蛰伏了三年的时间。而从将Transformer应用到视觉领域(ViT)到AIGC的火爆也差不多用了两三年。其实AIGC的火爆，从2022年下旬就开始有一些苗条，那时就逐渐有一些AIGC好玩的算法放出来，而到现在，AIGC好玩的项目真是层出不穷。

随着近两年来对视觉Transformer模型（ViT）的深入研究，ViT的表达能力不断提升，并已经在大部分视觉基础任务 (分类，检测，分割等) 上实现了大幅度的性能突破。然而，很多实际应用场景对模型实时推理的能力要求较高，但大部分轻量化ViT仍无法在多个部署场景（GPU，CPU，ONNX，移动端等）达到与轻量级CNN（如MobileNet）相媲美的速度。

因此，重新审视了ViT的2个专属模块，并发现了退化原因如下：

研究者发现LayerNorm输入的通道间变化严重，有些通道范围甚至超过中值的40倍。传统方法无法处理如此大的激活波动，这将导致很大的量化误差
还发现注意力图的值具有极端的不均匀分布，大多数值聚集在0～0.01之间，少数高注意力值接近1

基于以上分析，研究者提出了Power-of-Two Factor（PTF）来量化LayerNorm的输入。通过这种方式，量化误差大大降低，并且由于Bit-Shift算子，整体计算效率与分层量化的计算效率相同。此外还提出了Log Int Softmax（LIS），它为小值提供了更高的量化分辨率，并为Softmax提供了更有效的整数推理。结合这些方法，本文首次实现了全量化Vision Transformer的训练后量化。

新框架

下面的这两张图表明，与CNN相比，视觉转换器中存在严重的通道间变化，这导致了分层量化的不可接受的量化误差。

首先解释网络量化符号。假设量化位宽为b，量化器Q（X|b）可以公式化为将浮点数X∈R映射到最近量化仓的函数：

Uniform Quantization

Uniform Quantization在大多数硬件平台上都得到了很好的支持。它的量化器Q（X|b）可以定义为：

其中s（标度）和zp（零点）是由X的下界l和上界u确定的量化参数，它们通常是最小值和最大值。

Log2 Quantization

Log2 Quantization将量化过程从线性变化转换为指数变化。其量化器Q（X|b）可定义为:

为了实现完全量化的视觉变换器，研究者对所有模块进行量化，包括Conv、Linear、MatMul、LayerNorm、Softmax等。特别是，对Conv、线性和MatMul模块使用均匀的Min-Max量化，对LayerNor和Softmax使用以下方法。

Power-of-Two Factor for LayerNorm Quantization

在推理过程中，LayerNorm计算每个正向步骤中的统计量µX，σX，并对输入X进行归一化。然后，仿射参数γ，β将归一化输入重新缩放为另一个学习分布。

如刚开始解释分析一样，与神经网络中常用的BatchNorm不同，LayerNorm由于其动态计算特性，无法折叠到前一层，因此必须单独量化它。然而，在对其应用训练后量化时观察到显著的性能下降。查看LayerNorm层的输入，发现存在严重的通道间变化。

研究者提出了一种简单而有效的层范数量化方法，即Power-of-Two Factor（PTF）。PTF的核心思想是为不同的信道配备不同的因子，而不是不同的量化参数。给定量化位宽b，输入活动X∈RB×L×C，逐层量化参数s，zp∈R1，以及PTFα∈NC，则量化活动XQ可以公式化为：

其中部分参数如下：

Softmax quantized with Log-Int-Softmax (LIS)

注意图的存储和计算是变压器结构的瓶颈，因此研究者希望将其量化到极低的位宽（例如4位）。然而，如果直接实现4位均匀量化，则会出现严重的精度退化。研究者观察到分布集中在Softmax输出的一个相当小的值上，而只有少数异常值具有接近1的较大值。基于以下可视化，对于具有密集分布的小值区间，Log2保留了比均匀更多的量化区间。

将Log2量化与i-exp（i-BERT提出的指数函数的多项式近似）相结合，提出了LIS，这是一个仅整数、更快、低功耗的Softmax。

整个过程如下所示。

实验&可视化

Comparison of the top-1 accuracy with state-of-the-art methods on ImageNet dataset

将注意力图可视化，以查看均匀量化和LIS之间的差异，如上图所示。当两者都使用8位时，均匀量化集中在高激活区域，而LIS在低激活区域保留更多纹理，这保留了注意力图的更多相对秩。在8位的情况下，这种差异不会产生太大的差异。然而，当量化到较低的位宽时，如6位和4位的情况所示，均匀量化会急剧退化，甚至使所有关注区域失效。相反，LIS仍然表现出类似于8位的可接受性能。

Channel-wise minimum and maximum values of Vision Transformers and ResNets

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

点击“阅读原文”，立即合作咨询

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2111.13824.pdf 项目代码：https://github.com/megvii-research/FQ-ViT 计…...

编程日记 2023/6/15 18:13:43

YouTubeDNN

这个youTubeDNN主要是工程导向，对于推荐方向的业界人士真的是必须读的一篇文章。它从召回到排序整个流程都做了描述，真正是在工业界应用的经典介绍。作者首先说了在工业上YouTube视频推荐系统主要面临的三大挑战： 1.Scale(规模)&#xff1…...

编程日记 2023/6/15 17:40:22

面向对象的介绍和内存

学习面向对象内容的三条主线 • Java 类及类的成员：（重点）属性、方法、构造器；（熟悉）代码块、内部类 • 面向对象的特征：封装、继承、多态、（抽象） • 其他关键字的使用…...

编程日记 2023/6/15 17:07:01

【数据可视化】Plotly Express绘图库使用

Plotly Express是一个基于Plotly库的高级Python可视化库。它旨在使绘图变得简单且直观，无需繁琐的设置和配置。通过使用Plotly Express，您可以使用少量的代码创建具有丰富交互性和专业外观的各种图表。以下是Plotly Express的一些主要特点和优势&#xf…...

编程日记 2023/6/15 16:33:40

小红书企业号限流原因有哪些，限流因素

作为企业、品牌在小红书都有官方账号，很多人将注册小红书企业号看作是获取品牌宣推“特权”的必行之举。事实真的如此吗，那为什么小红书企业号限流频发，小红书企业号限流原因有哪些，限流因素。一、小红书企业号限流真的存在吗首…...

编程日记 2023/6/15 16:00:19

1.6C++双目运算符重载

C双目运算符重载 C中的双目运算符重载指的是重载二元运算符，即有两个操作数的运算符，如加减乘除运算符“”、“-”、“*”和“/”等。通过重载双目运算符，可以实现自定义类型的运算符操作。比如可以通过重载加减运算符实现自定义类型的向…...

编程日记 2023/6/15 15:26:58

CDD诊断数据库的简单介绍

1. 什么是数据库？数据库是以结构化方式组织的一个数据集合。比如DBC数据库： Network nodes Display Rx Messages EngineState(0x123) 通过结构化的方式把网络节点Display里Rx报文EngineState(0x123)层层展开。这种方式的好处是：层次清晰，结构分明，易于查找。 2. 什么…...

编程日记 2023/6/15 14:53:37

【笔试强训选择题】Day25.习题（错题）解析

作者简介：大家好，我是未央； 博客首页：未央.303 系列专栏：笔试强训选择题每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！！&#xff…...

编程日记 2023/6/15 14:20:16

Python心经（6）

目录 callable super type（）获取对应类型 isinstance判断对象是否是某个类或者子类的实例 issubclass，判断对象是不是类的子孙类 python3的异常处理反射： 心经第三节和第五节都写了些面向对象的，这一节补充一…...

编程日记 2023/6/15 13:46:54

MMPose安装记录

参考：GitHub - open-mmlab/mmpose: OpenMMLab Pose Estimation Toolbox and Benchmark. 一、依赖环境 MMPose 适用于 Linux、Windows 和 macOS。它需要 Python 3.7、CUDA 9.2 和 PyTorch 1.6。我的环境： Windows 11 Python 3.9 CUDA 11.6 PyTorch 1.13 …...

编程日记 2023/6/15 13:13:33

梯度下降优化

二阶梯度优化 1.无约束优化算法1.1最小二乘法1.2梯度下降法1.3牛顿法/拟牛顿法 2.一阶梯度优化2.1梯度的数学原理2.2梯度下降算法 3.二阶梯度优化梯度优化3.1 牛顿法3.2 拟牛顿法 1.无约束优化算法在机器学习中的无约束优化算法中，除了梯度下降以外，还…...

编程日记 2023/6/15 12:40:12

一起看 I/O | 将 Kotlin 引入 Web

作者 / 产品经理 Vivek Sekhar 我们将在本文为您介绍 JetBrains 和 Google 的早期实验性工作。您可以观看今年 Google I/O 大会中的 WebAssembly 相关演讲，了解更多详情: https://youtu.be/RcHER-3gFXI?t604 应用开发者想要尽可能地在更多平台上最大限度地吸引用户…...

编程日记 2023/6/15 12:06:51

极致呈现系列之：Echarts地图的浩瀚视野(一)

目录 Echarts中的地图组件地图组件初体验下载地图数据准备Echarts的基本结构导入地图数据并注册展示地图数据结合visualMap展示地图数据 Echarts中的地图组件 Echarts中的地图组件是一种用于展示地理数据的可视化组件。它可以显示全国、各省市和各城市的地图，并支持…...

编程日记 2023/6/15 11:33:30

第四章模型篇：模型训练与示例

文章目录 SummaryAutogradFunctions ()GradientBackward() OptimizationOptimization loopOptimizerLearning Rate SchedulesTime-dependent schedulesPerformance-dependent schedulesTraining with MomentumAdaptive learning rates optim.lr_scheluder Summary 在pytorch_t…...

编程日记 2023/6/15 11:00:09

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

Uniform Quantization

Softmax quantized with Log-Int-Softmax (LIS)

相关文章：

AI大模型落地不远了！首个全量化Vision Transformer的方法FQ-ViT（附源代码）

YouTubeDNN

面向对象的介绍和内存

【数据可视化】Plotly Express绘图库使用

小红书企业号限流原因有哪些，限流因素

1.6C++双目运算符重载

CDD诊断数据库的简单介绍

【笔试强训选择题】Day25.习题（错题）解析

Python心经（6）

MMPose安装记录

梯度下降优化

一起看 I/O | 将 Kotlin 引入 Web

极致呈现系列之：Echarts地图的浩瀚视野(一)

第四章模型篇：模型训练与示例

利用人工智能模型学习Python爬虫

.Net泛型详解

C++ 教程（10）——存储类

vue3+vite+element-plus创建项目，修改主题色

mysql select是如何一步步执行的呢？

找到距离最近的点，性能最好的方法

【实战指南】Ubuntu SSH服务配置与XShell/Xftp高效连接全解析

基于Lepton AI构建对话式搜索引擎：RAG技术实践指南

AI大模型赋能数据治理：小白也能掌握的5个高频场景与避坑指南（收藏备用）

体验Taotoken聚合路由在单一模型临时故障时的自动容灾效果

5步实现Cursor Pro永久免费：终极破解工具完整指南

Axure RP中文语言包技术深度解析：从键值对到国际化架构的工程实践

PowerBI主题模板终极指南：35款可视化模板快速美化报表

2026年十大主流需求管理工具深度测评：哪款更适合你的研发团队？

VS2019编译OpenSceneGraph 3.6.5踩坑全记录：从CMake配置到解决第三方库缺失

Go语言构建高效命令行工具集：claworc项目架构解析与实战应用