当前位置：首页 > news >正文

【自然语言处理】BitNet b1.58：1bit LLM时代

news 2026/2/10 7:29:01

论文地址：https://arxiv.org/pdf/2402.17764.pdf

相关博客
【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM
【自然语言处理】BitNet b1.58：1bit LLM时代
【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer
【自然语言处理】【大模型】MPT模型结构源码解析(单机版)
【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)
【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)

一、BitNet

BitNet采用了与Transformer基本一致的模型架构，仅将标准矩阵乘法层换成了BitLinear，其他组件仍然是高精度的。BitLinear主要是包含的操纵：权重量化、激活量化以及LayerNorm。

权重量化。通过减均值实现0中心化，然后用sign实现二值化。假设全精度权重为 $W\in\mathcal{R}^{n\times m}$ ，则二值量化过程为
$\widetilde{W}=\text{Sign}(W-\alpha) \tag{1} \\$

$\text{Sign}(W_{ij})=\begin{cases} +1,&&\text{if}\;W_{ij}>0 \\ -1,&&\text{if}\;W_{ij}\leq 0 \\ \end{cases} \tag{2} \\$

$\alpha=\frac{1}{nm}\sum_{ij}W_{ij} \tag{3} \\$

激活量化。使用absmax的方式将激活量化至b-bit。具体的实现方式是乘以 $Q_b$ 再除以输入矩阵的最大绝对值，从而将激活缩放至 $Q_b,Q_b](Q_b=2^{b-1})$ ，即
$\tilde{x}=\text{Quant}(x)=\text{Clip}(x\times\frac{Q_b}{\gamma},-Q_b+\epsilon,Q_b-\epsilon) \tag{4}\\$

$\text{Clip}(x,a,b)=\max(a,\min(b,x)),\quad\gamma=\parallel x\parallel_\infty \tag{5} \\$

其中 $\epsilon$ 是防止裁剪时溢出的小浮点数。

对于非线性函数之前的激活值则采用不同的量化方式，通过减轻最小值的方式将其缩放至 $0,Q_b]$ ，从而保证所有值均为非负：
$\tilde{x}=\text{Quant}(x)=\text{Clip}((x-\eta)\times\frac{Q_b}{\gamma},\epsilon,Q_b-\epsilon),\quad\eta=\min_{i,j}x_{ij}\tag{6} \\$
LayerNorm。在对激活值量化前，为了保证量化后的方差稳定，采用了SubLN。

BitLinear的完成计算过程为
$y=\widetilde{W}\tilde{x}=\widetilde{W}\text{Quant}(\text{LN}(x))\times\frac{\beta\gamma}{Q_b}\tag{7} \\$

$\text{LN}(x)=\frac{x-E(x)}{\sqrt{\text{Var}(x)+\epsilon}},\quad\beta=\frac{1}{nm}\parallel W\parallel_1 \tag{8} \\$

二、BitNet b1.58

BitNet b1.58在BitNet的基础上做了一些修改。

权重量化。采用absmean的方式将权重约束在 ${-1,0,1\}$ 中，而BitNet则将权重约束为二值 ${-1,1\}$ 。具体来说，先使用平均绝对值来缩放权重，然后通过舍入的方式转换为 ${-1,0,1\}$ ：
$\widetilde{W}=\text{RoundClip}(\frac{W}{\gamma+\epsilon},-1,1)\tag{9} \\$

$\text{RoundClip}(x,a,b)=\max(a,\min(b,\text{round}(x)))\tag{10} \\$

$\gamma=\frac{1}{nm}\sum_{ij}|W_{ij}|\tag{11} \\$

激活量化。同BitNet一样，但是对于非线性函数前的激活不再量化至 $0,Q_b]$ ，而是都量化至 $Q_b,Q_b]$ 。

此外，为了能够方便于开源软件兼容，整体结构采用类似LLaMA的结构。具体来说，使用RMSNorm、SwiGLU、RoPE并移除所有偏置。

三、实验

1. 困惑度

在这里插入图片描述

BitNet b1.58在3B大小时，困惑度与LLaMA相匹配，但是速度快2.71倍且显存使用减少3.55倍。当BitNet b1.58大小为3.9B时，速度快2.4倍且显存减少3.32倍，并且效果显著优于LLaMA 3B。

2. 下游任务

在这里插入图片描述

随着模型尺寸的增加，BitNet b1.58和LLaMA在下游任务上的差距逐步缩小。在尺寸达到3B时，BitNet b.158能够与全精度相匹配。

3. 显存和延时

在这里插入图片描述

随着模型尺寸的增加，BitNet b1.58的速度优势和显存优势会更加明显。

4. 能耗

在这里插入图片描述

矩阵乘法是LLM中能耗最高的部分。BitNet b1.58主要是INT8的加法计算，而LLaMA则是由FP16加法和乘法组成。在7nm芯片上，BitNet b1.58能够节约71.4倍的计算能耗。随着模型尺寸的增加，BitNet b1.58在能耗方面会越来越高效。

5. 吞吐

在这里插入图片描述
相同机器下，BitNet b1.58的batch size是LLaMA LLM的11倍，吞吐则是8.9倍。

【自然语言处理】BitNet b1.58：1bit LLM时代

一、BitNet

二、BitNet b1.58

三、实验

1. 困惑度

2. 下游任务

3. 显存和延时

4. 能耗

5. 吞吐

相关文章：

【自然语言处理】BitNet b1.58：1bit LLM时代

【Axure高保真原型】可视化动点素材

分布式数据库 GaiaDB-X 金融应用实践

机器学习中的经典算法总结

ElasticSearch 学习(docker,传统方式安装、安装遇到的问题解决，)

[百度二面]操作系统进程、锁相关面试题

IP劫持的危害及应对策略

Mac安装oh-my-zsh

【Web开发】深度学习HTML(超详细,一篇就够了)

深入了解二叉搜索树：原理、实现与应用

【MybatisPlus】BaseMapper详解，举例说明

LightDB24.1 oracle_fdw支持服务端GBK编码

算法环形数组是否存在循环力扣执行速度击败100%

FFmpeg——开源的开源的跨平台音视频处理框架简介

怎么看待Groq

Kafka | SpringBoot集成Kafka

python的tqdm库不显示动态进度条的问题

【prompt四】Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains

利用Amazon Bedrock畅玩Claude 3等多种领先模型，抢占AI高地(体验倒计时4小时)

MySql分布式事务

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

【入坑系列】TiDB 强制索引在不同库下不生效问题

python/java环境配置

P3 QT项目----记事本（3.8）

VTK如何让部分单位不可见

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

AI，如何重构理解、匹配与决策？

C++课设：简易日历程序（支持传统节假日 + 二十四节气 + 个人纪念日管理）

Webpack性能优化：构建速度与体积优化策略