当前位置: 首页 > article >正文

从FP32到BF16,再到混合精度的全景解析

笔者做过目标检测模型、超分模型以及扩散生成模型。其中最常使用的是单精度FP32、半精度FP16、BF16
双精度"FP64"就不说了,不太会用到。

#1. 单精度、半精度和混合精度

单精度(FP32)、半精度(FP16)和混合精度(FP32+FP16) 是常见的浮点数计算格式,在深度学习模型的训练与推理中都有涉及。
它们在计算效率、显存占用和数值稳定性上有显著差异。以下是它们的核心区别对比:

精度类型位数显存占用&生成效果生成速度用途
FP3232-bit🌟🌟🌟🌟最高🌟最慢预训练
FP1616-bit🌟🌟🌟🌟🌟微调训练、推理
BF1616-bit🌟🌟🌟🌟🌟微调训练、推理
混合精度FP16+FP32🌟🌟🌟🌟🌟微调训练、推理
FP8 (E4M3)8-bit🌟最低🌟🌟🌟🌟最快边缘设备推理
FP8 (E5M2)8-bit🌟最低🌟🌟🌟🌟最快边缘设备推理

注:推理即图像生成。


#2. BF16(Brain Float16)是什么?

简单的说,「BF16」的显存占用与「FP16」相近,但稳定性与训练效果更好。所以在训练时建议用「BF16」替代「FP16」。

「BF16」由 Google Brain 提出,保留与 FP32 相同的指数位数(8 位指数),仅降低小数位数(从FP32的23 位缩减到7位)。虽然BF16点小数部分精度低于 FP16的10位,但这部分对深度学习影响较小,可以暂时忽略。


#3. 混合精度(FP16 + FP32)是什么?

混合精度会同时使用 FP16 和 FP32,关键部分(如梯度更新)保留 FP32。

笔者一般会直接使用自动混合精度(AMP),即让程序自己选择精度,一般来讲模型权重会保存为FP32,前向与反向传播用FP16。


#4. FP8的简单了解

实际中很少使用FP8,因为它们的生成效果几乎是最差的(不管INT8),基本只会用于边缘设备(如RV1126等)。所以只需简单了解:

  • E5M2(5 位指数,2 位小数):动态范围大,适合梯度计算(训练)。
  • E4M3(4 位指数,3 位小数):精度稍高,适合前向传播(生成)。

相关文章:

从FP32到BF16,再到混合精度的全景解析

笔者做过目标检测模型、超分模型以及扩散生成模型。其中最常使用的是单精度FP32、半精度FP16、BF16。 双精度"FP64"就不说了,不太会用到。 #1. 单精度、半精度和混合精度 单精度(FP32)、半精度(FP16)和混合…...

Electron从入门到入门

项目说明 项目地址 项目地址:https://gitee.com/ruirui-study/electron-demo 本项目为示例项目,代码注释非常清晰,给大家当做入门项目吧。 其实很多东西都可以在我这基础上添加或修改、市面上有些已开源的项目,但是太臃肿了&am…...

优化提示词方面可以使用的数学方法理论:信息熵,概率论 ,最优化理论

优化提示词方面可以使用的数学方法理论:信息熵,概率论 ,最优化理论 目录 优化提示词方面可以使用的数学方法理论:信息熵,概率论 ,最优化理论信息论信息熵明确问题主题提供具体细节限定回答方向规范语言表达概率论最优化理论信息论 原理:信息论中的熵可以衡量信息的不确定性。…...

腾讯一面面经:总结一下

1. Java 中的 和 equals 有什么区别?比较对象时使用哪一个 1. 操作符: 用于比较对象的内存地址(引用是否相同)。 对于基本数据类型、 比较的是值。(8种基本数据类型)对于引用数据类型、 比较的是两个引…...

Golang | 倒排索引

文章目录 倒排索引的设计倒排索引v0版实现 倒排索引的设计 通用搜索引擎 v.s. 垂直搜索引擎: 通用搜索引擎:什么都可以搜索,更加智能化垂直搜索引擎:只能搜自家数据库里面的内容,一般都带着搜索条件,搜索一…...

大模型驱动智能服务变革:从全流程赋能到行业纵深落地

大模型技术的快速发展,正深刻改变着人工智能的研发与应用模式。作为"软硬协同、开箱即用"的智能化基础设施,大模型一体机通过整合计算硬件、部署平台和预置模型,重构了传统AI部署方式,成为推动AI普惠化和行业落地的重要…...

【Python-Day 5】Python 格式化输出实战:%、format()、f-string 对比与最佳实践

Langchain系列文章目录 01-玩转LangChain:从模型调用到Prompt模板与输出解析的完整指南 02-玩转 LangChain Memory 模块:四种记忆类型详解及应用场景全覆盖 03-全面掌握 LangChain:从核心链条构建到动态任务分配的实战指南 04-玩转 LangChai…...

【初识Trae】字节跳动推出的下一代AI原生IDE,重新定义智能编程

​ 初识官网文档 从官网可以看到有两个大标签页,即Trae IDE CN和Trae插件,这就说明Trae在发布Trae IDE的同时考虑到对主流IDE的插件支持,这一点非常有心,但是我估测Trae IDE的体验更好(就是AI IDE出生,毕…...

装备制造企业选型:什么样的项目管理系统最合适?

个性化定制需求日益增加、项目周期长、供应链协同复杂、成本控制难度大、以及设计、生产、安装、售后等环节协同不畅。这些挑战使得装备制造企业在传统的管理方式捉襟见肘,迫切需要一套高效、智能的项目管理系统来提升运营效率和盈利能力。 那么,对于装…...

技术面试一面标准流程

0. 自我介绍 ...... 1. 拷打项目 项目干了啥? 难点是啥? 问项目中用到的东西? 扩展? ...... 2. 基础知识 数据结构、C基础、设计模式 数据结构: 堆? unordered_map 和 布隆过滤器 都是用于查找…...

【playwright】 page.wait_for_timeout() 和time.sleep()区别

page.wait_for_timeout() 和 time.sleep() 都可以用于在代码中引入延迟,但它们的实现方式和效果有一些关键区别。以下是两者的详细对比: 1. 实现方式 page.wait_for_timeout(): 是 Playwright 提供的一个内置方法,专门用于在 Play…...

常见网络安全攻击类型深度剖析(四):跨站脚本攻击(XSS)——分类、漏洞利用与前端安全防护

常见网络安全攻击类型深度剖析(四):跨站脚本攻击(XSS)——分类、漏洞利用与前端安全防护 在Web应用安全中,跨站脚本攻击(Cross-Site Scripting, XSS)是攻击者利用浏览器漏洞&#x…...

QT多元素控件及其属性

Qt中提供的多元素控件有: QListWidget QListView QTableWidget QTableView QTreeWidget QTreeView widget和view多元素控件的区别: view是更底层的实现,widget是基于view封装而来,view是MVC结构的一种典型实现 MVC结构&am…...

如何快速高效学习Python?

如何快速高效学习Python? How to Fastly and Effectively Learn Python Programming? By JacksonML 1. Python年轻吗? Python自1991年诞生到现在,已经经历了三十四年或者更长时间了。毕竟,Python之父 – 吉多范罗苏姆先生(Gu…...

【网络原理】TCP提升效率机制(二):流量控制和拥塞控制

目录 一. 前言 二. 流量控制 三. 拥塞控制 一. 前言 TCP的可靠传输依靠确认应答机制,超时重传机制是对确认应答的一种补充,解决了丢包问题 为了提高传输效率,避免大量的时间都浪费在等待应答的过程,故引入了滑动窗口机制&…...

语音合成之六端到端TTS模型的演进

端到端TTS模型的演进 引言Tacotron:奠基之作FastSpeech:解决效率瓶颈VITS:实现高保真和富有表现力的语音SparkTTS:利用LLM实现高效可控的TTSCosyvoice:一种可扩展的多语种TTS方法端到端TTS模型的演进与未来方向 引言 …...

Properties配置文件

Properties(是一个特殊的Map)默认键值都是String类型 备注:Properties能调用Map中的所有方法,但由于放入Properties中的key-value都是String类型,Properties中提供了特殊的存值和取值的方法,所以尽量不要用Map中的方法,如下 Properties的作用 A、将内存中的数据写入到…...

C#高级语法--接口

先引用一些通俗一点的话语说明 1. 接口就像“插座标准”(解耦) 🧩 场景: 你家的手机充电器(USB-C、Lightning)必须插进匹配的插座才能充电。问题:如果每个手机品牌插座都不一样,你换手机就得换充电器,太麻烦了!💡 接口的作用: 定义一个通用的充电口标准(比如U…...

5.6 Microsoft Semantic Kernel:专注于将LLM集成到现有应用中的框架

5.6.1 Semantic Kernel概述 Microsoft Semantic Kernel(以下简称SK)是一个开源的软件开发工具包(SDK),旨在帮助开发者将大型语言模型(LLM)无缝集成到现有的应用程序中。它支持C#、Python和Java…...

【尚硅谷Redis6】自用学习笔记

Redis介绍 Redis是单线程 多路IO复用技术(类似黄牛买票) 默认有16个库,用select进行切换 默认端口号为6379 Memcached:多线程 锁(数据类型单一,不支持持久化) 五大常用数据类型 Redis key …...

Vue里面elementUi-aside 和el-main不垂直排列

先说解决方法 main.js少导包 import element-ui/lib/theme-chalk/index.css; //加入此行即可 问题复现 排查了一个小时终于找出来问题了,建议导包去看官方的文档,作者就是因为看了别人的导包流程导致的问题 导包官网地址Element UI导包快速入门...

VS Code搭建C/C++开发环境

文章目录 一、VScode 是什么?二、VScode的下载和安装1、下载2、安装 三、环境介绍1、安装中文插件 四、VScode配置 C/C开发环境1、下载MinGW-w64 编译器套件2、配置MingGW643、验证4、安装C/C插件 五、在VSCode上编写C语言代码并编译成功1、打开文件夹2、新建C语言文件&#x…...

6.ArkUI Row的介绍和使用

ArkUI Row 组件介绍与使用指南 什么是 Row 组件? Row 是 ArkUI 中的基础布局容器组件,用于水平(横向)排列子组件。它与 Column 组件相对应,是构建用户界面最常用的布局方式之一,类似于其他UI框架中的水平…...

mysql 在 dbeaver中下载驱动失败处理

直接上解决方法 1. 在mysql官网下载驱动 2. 引入dbeaver中即可 3. 最后再双击即可...

Java 安全:如何防止 SQL 注入与 XSS 攻击?

Java 安全:如何防止 SQL 注入与 XSS 攻击? 在 Java 开发领域,安全问题至关重要,而 SQL 注入和 XSS 攻击是两种常见的安全威胁。本文将深入探讨如何有效防止这两种攻击,通过详细代码实例为您呈现解决方案。 一、SQL 注…...

fastbev mmdetection3D 角度和方向损失

角度/方向损失 sin(a−b)sinacosb−cosasinb config参数 dir_offset0.7854, # pi/4 dir_limit_offset0, box编解码 # Copyright (c) OpenMMLab. All rights reserved. import torchfrom mmdet.core.bbox import BaseBBoxCoder from mmdet.core.bbox.builder import BBOX_COD…...

力扣-hot100(滑动窗口最大值)

239. 滑动窗口最大值 困难 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1: 输入:nums […...

一种专用车辆智能配电模块的设计解析:技术革新与未来展望

关键词:智能配电模块、STM32、CAN总线、电子开关、新能源汽车 引言:传统配电系统的痛点与智能化转型 传统配电系统依赖继电器和保险丝,存在体积大、寿命短、智能化低等缺陷(如图1)。而新能源汽车和无人驾驶技术对配电…...

《深入浅出ProtoBuf:从环境搭建到高效数据序列化》​

ProtoBuf详解 1、初识ProtoBuf2、安装ProtoBuf2.1、ProtoBuf在Windows下的安装2.2、ProtoBuf在Linux下的安装 3、快速上手——通讯录V1.03.1、步骤1:创建.proto文件3.2、步骤2:编译contacts.proto文件,生成C文件3.3、步骤3:序列化…...

Java实现加密(七)国密SM2算法的签名和验签(附商用密码检测相关国家标准/国密标准下载)

目录 一、国密标准中,关于SM2签名验签的定义二、SM2签名和验签的实现原理1. 前置知识2. 签名生成过程3. 验签过程4. 数学正确性证明5. 安全性与注意事项 三、带userId、不带userId的区别1. 核心区别2.算法区别(1) 哈希计算过程(2) 签名验签流程 四、Java代码实现1. …...