当前位置：首页 > news >正文

图片速览 BitNet: 1-bit LLM

news 2025/11/6 0:27:05

输入数据

模型使用absmax 量化方法进行b比特量化,将输入量化到 $\left[-Q_{b},Q_{b}\right](Q_{b}=2^{b-1})$
$\widetilde{x}=\mathrm{Quant}(x)=\mathrm{Clip}(x\times\frac{Q_b}{\gamma},-Q_b+\epsilon,Q_b-\epsilon),\\ \operatorname{Clip}(x,a,b)=\max(a,\min(b,x)),\quad\gamma=||x||_\infty,$
其中 ε 是一个小的浮点数，可防止在执行截断时溢出。

// https://github.com/kyegomez/BitNet/blob/main/bitnet/bitbnet_b158.py
def absmean_quantize_weights(weights):"""Quantizes the weights to -1, 0, or +1 using an absmean quantization function.Parameters:- weights (Tensor): The weights of a neural network layer.Returns:- Tensor: The quantized weights."""# Calculate the average absolute value (γ) of the weightsgamma = torch.mean(torch.abs(weights))# Scale weights by γ and round to the nearest integer among {-1, 0, +1}quantized_weights = torch.clamp(torch.round(weights / gamma), min=-1, max=1)return quantized_weights

权重

权重 W 的二值化可以公式化为：

$\\ \alpha=\frac1{nm}\sum_{ij}W_{ij} \\ \widetilde{W}=\mathrm{Sign}(W-\alpha),\\ \left.\operatorname{Sign}(W_{ij})=\left\{\begin{array}{ll}+1,&\quad\text{if}W_{ij}>0,\\-1,&\quad\text{if}W_{ij}\leq0,\end{array}\right.\right.$

在这里插入图片描述

矩阵乘法

使用上述量化方程，矩阵乘法可以写成：

$y=\widetilde W\widetilde{x}$

为了保持量化后的方差，我们在激活量化之前引入了一个 LayerNorm函数。这样，输出 y 的方差就估计为 1

$y=\widetilde{W}\widetilde{x}=\widetilde{W}\text{Quant}(\text{LN}(x))\times\frac{\beta\gamma}{Q_b}$
$\mathrm{LN}(x)=\frac{x-E(x)}{\sqrt{\mathrm{Var}(x)+\epsilon}},\quad\beta=\frac1{nm}\|W\|_1$

在这里插入图片描述

// https://github.com/kyegomez/BitNet/blob/main/bitnet/bitlinear.py
import torch
from torch import Tensor, nnclass BitLinear(nn.Linear):"""BitLinear is a custom linear layer that performs binarization of weights and quantization of activationsin a group-wise manner.Args:in_features (int): Number of input features.out_features (int): Number of output features.bias (bool, optional): If set to False, the layer will not learn an additive bias. Default is True.num_groups (int, optional): Number of groups to divide the weights and activations into. Default is 1."""def __init__(self,in_features: int,out_features: int,bias: bool = True,num_groups: int = 1,b: int = 8,):super().__init__(in_features, out_features, bias)self.in_features = in_featuresself.out_features = out_featuresself.b = bself.num_groups = num_groupsself.eps = 1e-5self.norm = nn.LayerNorm(in_features)def ste(self, x):"""Applies the sign function for binarization and uses Straight-Through Estimator (STE) during backward pass.Args:x (Tensor): Input tensor.Returns:Tensor: Binarized tensor."""binarized_x = torch.sign(x)binarized_x = (binarized_x - x).detach() + xreturn binarized_xdef binarize_weights_groupwise(self):"""Binarizes the weights of the layer in a group-wise manner using STE.Returns:Tensor: Binarized weights tensor."""group_size = self.weight.shape[0] // self.num_groupsbinarized_weights = torch.zeros_like(self.weight)for g in range(self.num_groups):start_idx = g * group_sizeend_idx = (g + 1) * group_sizeweight_group = self.weight[start_idx:end_idx]alpha_g = weight_group.mean()binarized_weights[start_idx:end_idx] = self.ste(weight_group - alpha_g)return binarized_weightsdef quantize_activations_groupwise(self, x):"""Quantizes the activations of the layer in a group-wise manner.Args:x (Tensor): Input tensor.b (int, optional): Number of bits for quantization. Default is 8.Returns:Tensor: Quantized activations tensor."""Q_b = 2 ** (self.b - 1)group_size = x.shape[0] // self.num_groupsquantized_x = torch.zeros_like(x)for g in range(self.num_groups):start_idx = g * group_sizeend_idx = (g + 1) * group_sizeactivation_group = x[start_idx:end_idx]gamma_g = activation_group.abs().max()quantized_x[start_idx:end_idx] = torch.clamp(activation_group * Q_b / (gamma_g + self.eps),-Q_b + self.eps,Q_b - self.eps,)return quantized_xdef dequantize_activations_groupwise(self, x):"""Dequantizes the activations of the layer in a group-wise manner.Args:x (Tensor): Quantized input tensor.b (int, optional): Number of bits used during the quantization. Default is 8.Returns:Tensor: Dequantized activations tensor."""Q_b = 2 ** (self.b - 1)dequantized_x = torch.zeros_like(x)for g in range(self.num_groups):start_idx = g * x.shape[0] // self.num_groupsend_idx = (g + 1) * x.shape[0] // self.num_groupsquantized_group = x[start_idx:end_idx]gamma_g = quantized_group.abs().max()dequantized_x[start_idx:end_idx] = quantized_group * gamma_g / Q_breturn dequantized_xdef forward(self, x: Tensor) -> Tensor:"""Forward pass of the BitLinear layer.Args:x (Tensor): Input tensor.Returns:Tensor: Output tensor."""# Normalize inputx = self.norm(x)# Binarize weights and quantize activationsbinarized_weights = self.binarize_weights_groupwise()# Perform linear transformationoutput = torch.nn.functional.linear(x, binarized_weights, self.bias)# Quantize activationsoutput = self.quantize_activations_groupwise(output)# Dequantize activationsoutput = self.dequantize_activations_groupwise(output)# Return outputreturn output# Example usage
bitlinear = BitLinear(10, 5, num_groups=2, b=8)
input_tensor = torch.randn(5, 10)  # Example input tensor
output = bitlinear(input_tensor)
print(output)  # Example output tensor

CG

【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM
BitNet: Scaling 1-bit Transformers for Large Language Models
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Implementation of “BitNet: Scaling 1-bit Transformers for Large Language Models” in pytorch
DB-LLM: Accurate Dual-Binarization for Efficient LLMs
如何看待微软提出的BitNet b1.58？

图片速览 BitNet: 1-bit LLM

输入数据模型使用absmax 量化方法进行b比特量化,将输入量化到 [ − Q b , Q b ] ( Q b 2 b − 1 ) \left[-Q_{b},Q_{b}\right](Q_{b}2^{b-1}) [−Qb,Qb](Qb2b−1) x ~ Q u a n t ( x ) C l i p ( x Q b γ , − Q b ϵ , Q b − ϵ ) , Clip ⁡ ( x , a , b ) ma…...

编程日记 2024/3/7 21:08:34

金融基础——拨备前利润和拨备后利润介绍

一、简介拨备前利润（PreProvision Operating Profit，也就是PPOP）和拨备后利润的主要区别在于是否扣除减值准备金、是否遵循保守性原则以及显示的利润数值不同。拨备前利润。指在计算利润时没有扣除减值准备金的利润，它等于税前…...

编程日记 2024/3/7 21:06:31

网络编程作业day7

作业项目：基于UDP的聊天室服务器代码： #include <myhead.h>//定义客户信息结构体 typedef struct magtye {char type; //消息类型char name[100]; //客户姓名char text[1024]; //客户发送聊天信息 }msg_t;//定义结构体存储…...

编程日记 2024/3/7 21:04:28

【Vision Pro杀手级应用】3D音乐会/演唱会，非VR视频播放的形式，而是实实在在的明星“全息”形象，在你的面前表演

核心内容形式：体积视频参考对标案例深度解读：体积视频，这一全新的内容形式，正在引领我们进入一个前所未有的四维体验时代。它将传统的演艺形式推向了新的高度，让我们能够更加深入地沉浸在虚拟世界中，感受前所未有的视听盛宴。在这一领域，有一个引人注目的案例，那…...

编程日记 2024/3/7 21:02:26

变频器学习

西门子变频器 SINAMICS V20 入门级变频器 SINAMICS G120C...

编程日记 2024/3/7 21:01:25

Linux Ubuntu系统安装MySQL并实现公网连接本地数据库【内网穿透】

文章目录前言1 .安装Docker2. 使用Docker拉取MySQL镜像3. 创建并启动MySQL容器4. 本地连接测试4.1 安装MySQL图形化界面工具4.2 使用MySQL Workbench连接测试 5. 公网远程访问本地MySQL5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问前言本文主…...

编程日记 2024/3/7 20:59:22

0048__Unix传奇

Unix传奇 （上篇）_unix传奇(上篇)-CSDN博客 Unix传奇 （下篇）-CSDN博客 Unix现状与未来——CSDN对我的采访_nuix邮件系统行业地位-CSDN博客...

编程日记 2024/3/7 20:58:21

蓝桥杯-排序

数组排序 Arrays.sort(int[] a) 这种形式是对一个数组的所有元素进行排序，并且时按从小到大的顺序。 package Work;import java.util.*;public class Imcomplete {public static void main(String args[]) {int arr[]new int [] {1,324,4,5,7,2};Arrays.sort(arr)…...

编程日记 2024/3/7 20:57:20

计算机设计大赛深度学习的视频多目标跟踪实现

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 🔥 优质竞赛项目系列，今天要分享的是基于深度学习的视频多目标跟踪实现 …...

编程日记 2024/3/7 20:53:16

高性能JSON框架之FastJson的简单使用

高性能JSON框架之FastJson的简单使用、 1.前言 1.1.FastJson的介绍: JSON协议使用方便，越来越流行,JSON的处理器有很多,这里我介绍一下FastJson,FastJson是阿里的开源框架,被不少企业使用,是一个极其优秀的Json框架,Github地址: FastJson 1.2.FastJson的特点: 1.F…...

编程日记 2024/3/7 20:50:12

★判断素数的几种方法（由易到难，由慢到快）

素数的定义： 素数，又称为质数，指的是“大于1的整数中，只能被1和这个数本身整除的数”。换句话说，素数是只有两个正约数（1和本身）的自然数。素数在数论中有着重要的地位，且素数的个数…...

编程日记 2024/3/7 20:49:11

vue svelte solid 虚拟滚动性能对比

前言由于svelte solid 两大无虚拟DOM框架，由于其性能好，在前端越来越有影响力。因此本次想要验证，这三个框架关于实现表格虚拟滚动的性能。比较版本 vue3.4.21svelte4.2.12solid-js1.8.15 比较代码这里使用了我的 stk-table-vue(np…...

编程日记 2024/3/7 20:48:10

IDEA中新增文件，弹出框提示是否添加到Git点错了，怎么重新设置？

打开一个配置了Git的项目，新增一个文件，会弹出下面这个框。提示是否将新增的文件交给Git管理。一般来说，会选择ADD，并勾选Dont ask agin，添加并不再询问。如果不小心点错了，可在IDEA中重新设置&#xff08…...

编程日记 2024/3/7 20:47:09

LV15 day5 字符设备驱动读写操作实现

一、读操作实现 ssize_t xxx_read(struct file *filp, char __user *pbuf, size_t count, loff_t *ppos); 完成功能：读取设备产生的数据参数： filp：指向open产生的struct file类型的对象，表示本次read对应的那次open pbuf&#…...

编程日记 2024/3/7 20:44:06

Uninty 鼠标点击（摄像机发出射线-检测位置）

平面来触发碰撞，胶囊用红色材质方便观察。脚本挂载到胶囊上方便操作。目前实现的功能，鼠标左键点击，胶囊就移动到那个位置上。 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c6 : MonoBe…...

编程日记 2024/3/7 20:42:04

描述下Vue自定义指令

描述下Vue自定义指令 （1）自定义指令基本内容（2）使用场景（3）使用案例在 Vue2.0 中，代码复用和抽象的主要形式是组件。然而，有的情况下，你仍然需要对普通 DOM 元素进行底层…...

编程日记 2024/3/7 20:41:03

2024.3.7

作业： 1、OSI的七层网络模型有哪些，每一层有什么作用？ （1）应用层负责处理不同应用程序之间的通信，需要满足提供的协议，确保数据发送方和接收方的正确 （2）表示层…...

编程日记 2024/3/7 20:39:01

this.$watch 侦听器和停止侦听器

使用组件实例的$watch()方法来命令式地创建一个侦听器； 它还允许你提前停止该侦听器语法：this.$watch(data, method, object) 1. data：侦听的数据源，类型为String 2. method：回调函数&#x…...

编程日记 2024/3/7 20:38:00

P1030 [NOIP2001 普及组] 求先序排列题解

题目给出一棵二叉树的中序与后序排列。求出它的先序排列。（约定树结点用不同的大写字母表示，且二叉树的节点个数≤8）。输入输出格式输入格式共两行，均为大写字母组成的字符串，表示一棵二叉树的中序与后序排列。…...

编程日记 2024/3/7 20:36:59

【分布式】NCCL Split Tree kernel内实现情况 - 06

相关系列【分布式】NCCL部署与测试 - 01 【分布式】入门级NCCL多机并行实践 - 02 【分布式】小白看Ring算法 - 03 【分布式】大模型分布式训练入门与实践 - 04 目录相关系列概述1.1 Tree1.2 double binary tree初始化和拓扑2.1 Tree的初始化与差异2.2 ncclGetBtreeKernel内部…...

编程日记 2024/3/7 20:34:56

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2025/11/5 2:40:12

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

编程新知 2025/10/29 17:53:07

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2025/11/4 8:03:35

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/10/30 6:37:10

无法与IP建立连接，未能下载VSCode服务器

如题，在远程连接服务器的时候突然遇到了这个提示。查阅了一圈，发现是VSCode版本自动更新惹的祸！！！ 在VSCode的帮助->关于这里发现前几天VSCode自动更新了，我的版本号变成了1.100.3 才导致了远程连接出…...

编程新知 2025/11/2 17:07:38

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

UE5 学习系列（三）创建和移动物体

这篇博客是该系列的第三篇，是在之前两篇博客的基础上展开，主要介绍如何在操作界面中创建和拖动物体，这篇博客跟随的视频链接如下： B 站视频：s03-创建和移动物体如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

编程新知 2025/11/3 5:37:10

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2025/11/4 19:26:39

微信小程序 - 手机震动

一、界面 <button type"primary" bindtap"shortVibrate">短震动</button> <button type"primary" bindtap"longVibrate">长震动</button> 二、js逻辑代码注：文档 https://developers.weixin.qq…...

编程新知 2025/10/21 23:40:19

高危文件识别的常用算法：原理、应用与企业场景

高危文件识别的常用算法：原理、应用与企业场景高危文件识别旨在检测可能导致安全威胁的文件，如包含恶意代码、敏感数据或欺诈内容的文档，在企业协同办公环境中（如Teams、Google Workspace）尤为重要。结合大模型技术&…...

编程新知 2025/10/27 13:40:36

输入数据

权重

矩阵乘法

CG

相关文章：